GPT-5.5 revient à la pointe du codage, mais OpenAI change de benchmarks après avoir perdu face à Opus 4.7

Message de Gate News, 27 avril — SemiAnalysis, un cabinet d’analyse de semi-conducteurs et d’IA, a publié un benchmark comparatif d’assistants de codage incluant GPT-5.5, Claude Opus 4.7 et DeepSeek V4. Le principal constat : GPT-5.5 marque le premier retour d’OpenAI à la pointe dans les modèles de codage en six mois, avec des ingénieurs de SemiAnalysis qui alternent désormais entre Codex et Claude Code après s’être auparavant appuyés presque exclusivement sur Claude. GPT-5.5 repose sur une nouvelle approche de préentraînement codée « Spud » et représente la première expansion de l’échelle de préentraînement d’OpenAI depuis GPT-4.5.

Lors de tests pratiques, une division claire des tâches est apparue. Claude gère la planification de nouveaux projets et la configuration initiale, tandis que Codex excelle dans les corrections de bugs axées sur le raisonnement. Codex fait preuve d’une meilleure compréhension des structures de données et d’un raisonnement logique, mais a des difficultés à inférer l’intention utilisateur ambiguë. Sur une tâche à un seul tableau de bord, Claude a reproduit automatiquement la mise en page de la page de référence tout en fabriquant de grandes quantités de données, tandis que Codex a ignoré la mise en page mais a fourni des données nettement plus exactes.

L’analyse révèle un détail de manipulation du benchmark : dans un billet de blog de février, OpenAI a exhorté l’industrie à adopter SWE-bench Pro comme nouveau standard pour les benchmarks de codage. Cependant, l’annonce de GPT-5.5 est passée à un nouveau benchmark appelé « Expert-SWE ». La raison, dissimulée dans les petits caractères, est que GPT-5.5 a été dépassé par Opus 4.7 sur SWE-bench Pro et a chuté de manière significative par rapport à Mythos non publié de l’Anthropic (77.8%).

Concernant Opus 4.7, Anthropic a publié une analyse post-mortem une semaine après la sortie, reconnaissant trois bugs dans Claude Code qui ont persisté pendant plusieurs semaines de mars à avril, affectant près de tous les utilisateurs. Plusieurs ingénieurs avaient déjà signalé une dégradation des performances dans la version 4.6, mais ils avaient été écartés en tant qu’observations subjectives. De plus, le nouveau tokenizer d’Opus 4.7 augmente l’utilisation de tokens jusqu’à 35 %, qu’Anthropic a admis ouvertement — ce qui revient effectivement à une hausse de prix cachée.

DeepSeek V4 a été évalué comme « tenant le rythme avec la frontière mais sans la mener », se positionnant comme l’alternative la moins coûteuse parmi les modèles à code source fermé. L’analyse a également noté que « Claude continue de surpasser DeepSeek V4 Pro sur des tâches d’écriture chinoises à haute difficulté », en commentant que « Claude a gagné contre le modèle chinois dans sa propre langue. »

L’article présente un concept clé : le prix des modèles doit être évalué par « coût par tâche » plutôt que par « coût par token ». Le prix de GPT-5.5 est le double de celui de GPT-5.4 (input $5, output $30 par million de tokens), mais il accomplit les mêmes tâches en utilisant moins de tokens, ce qui ne rend pas nécessairement le coût réel plus élevé. Les données initiales de SemiAnalysis montrent que le ratio input-to-output de Codex est de 80:1, inférieur à celui de Claude Code à 100:1.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

DeepSeek V4 Pro sur Ollama Cloud : connectez Claude Code en un clic

Selon les tweets d’Ollama, DeepSeek V4 Pro a été publié le 24/04, et est désormais intégré au répertoire d’Ollama en mode cloud. Une seule commande suffit pour appeler des outils tels que Claude Code, Hermes, OpenClaw, OpenCode, Codex, etc. V4 Pro : 1,6T paramètres, 1M context, Mixture-of-Experts ; l’inférence via le cloud ne télécharge pas les poids sur votre appareil local. Pour l’utiliser localement, il faut récupérer les poids et les exécuter avec INT4/GGUF et plusieurs GPU. Les tests de vitesse initiaux ont été influencés par la charge du cloud : le débit normal est d’environ 30 tok/s, le pic à 1,1 tok/s. Il est recommandé de l’utiliser d’abord via le prototype cloud ; pour la production en série, effectuez ensuite votre propre inférence ou utilisez une API commerciale.

ChainNewsAbmediaIl y a 32m

DeepSeek réduit les prix de V4-Pro de 75 % et fait chuter les coûts de cache d’API à un dixième

Message de Gate News, 27 avril — DeepSeek a annoncé une réduction de 75 % sur son nouveau modèle V4-Pro pour les développeurs et a réduit les prix des caches de requêtes d’entrée sur l’ensemble de sa gamme d’API à un dixième des niveaux précédents. Le modèle V4, publié le 25 avril en versions Pro et Flash, a été optimisé pour les processeurs Ascend de Huawei. DeepSeek a déclaré que V4-Pro surpasse les autres modèles open source sur des benchmarks de connaissances mondiales et se classe deuxième seulement derrière Gemini-Pro-3.1, le modèle propriétaire de Google. La famille V4 est conçue spécifiquement pour les agents IA qui gèrent des tâches complexes au-delà des capacités d’un chatbot. Les coûts de l’API V4-Pro sont déjà inférieurs à ceux des principaux concurrents occidentaux : 3,48 $ pour un million de tokens de sortie, contre pour GPT-4.5 d’OpenAI. La tarification V4-Flash s’élève à 0,14 $ par million de tokens d’entrée et à 0,28 $ par million de tokens de sortie, ce qui pourrait permettre des applications rentables telles que l’examen de l’ensemble d’une base de code ou de documents réglementaires en une seule requête.

GateNewsIl y a 35m

Coachella se tourne vers l’IA DeepMind de Google pour réimaginer les concerts au-delà de la scène

Coachella s’est associé à Google DeepMind pour tester de nouveaux outils d’IA qui transforment la manière dont les performances de musique live sont créées et vécues. Résumé Coachella a testé des outils d’IA avec Google DeepMind pour transformer les performances live en environnements numériques interactifs. Trois prototypes ont été construits,

CryptonewsIl y a 41m

Guo Mingyi : OpenAI veut fabriquer un téléphone avec des agents IA, MediaTek, Qualcomm et Luxshare Precision constituent la chaîne d’approvisionnement clé

Guo Mingqiң affirme que OpenAI coopère avec MediaTek, Qualcomm et Luxshare Precision pour développer des téléphones mobiles à agents IA, avec une production de masse prévue en 2028. Le nouveau téléphone mettra l’exécution des tâches au cœur du produit : l’agent IA comprendra les besoins et les exécutera, en combinant le calcul côté cloud et côté appareil, avec un accent sur la perception par les capteurs et la compréhension du contexte. Les listes des spécifications et de la chaîne d’approvisionnement devraient être finalisées en 2026–2027. Si le projet se concrétise, il pourrait, pour le segment haut de gamme, déclencher un nouveau cycle de renouvellement des téléphones ; Luxshare pourrait alors devenir l’un des principaux bénéficiaires.

ChainNewsAbmediaIl y a 51m

AIE : les dépenses d’infrastructure liées à l’IA ont déjà dépassé les investissements dans la production de pétrole et de gaz ; en 2026, elles devraient encore augmenter de 75 %.

Selon l’analyse et les données de marché publiées par l’Agence internationale de l’énergie (AIE) le 26 avril, les dépenses d’investissement (capex) totales des cinq plus grandes entreprises technologiques dépasseront 400 milliards de dollars en 2025. L’essentiel sera consacré à la construction d’infrastructures d’IA, dont l’ampleur dépasse désormais le volume annuel des investissements mondiaux dans la production de pétrole et de gaz naturel. L’AIE estime que ces dépenses d’investissement concernées pourraient encore augmenter de 75% en 2026.

MarketWhisperIl y a 1h

Le sénateur Bernie Sanders lance un avertissement concernant la menace existentielle de l’IA

Sanders a insisté sur le fait que, même si la plupart des scientifiques de l’IA reconnaissent la possibilité que l’IA échappe au contrôle et devienne un danger pour notre existence, aucune mesure majeure n’a été prise pour l’éviter. « Nous devons nous assurer que l’IA profite à l’humanité, et ne nous nuit pas », a-t-il déclaré. Points clés : Bernie Sanders

CoinpediaIl y a 1h
Commentaire
0/400
Aucun commentaire