Les employés d'OpenAI ont publiquement accusé les résultats des tests de benchmark du dernier modèle d'IA, Grok3, d'être trompeurs.

ChainCatcher
XAI49,79%
GROK-2,57%

ChainCatcher 消息,据金十报道,OpenAI 的一名员工公开指责马斯克旗下的XAI公司,称其发布的最新 AI 模型 Grok3 的Benchmark测试结果具有误导性。对此,XAI 的联合创始人伊戈尔・巴布什金(Igor Babushkin)则坚称公司并无不当。 Le graphique de XAI montre que les deux versions de Grok3 - Grok3 Reasoning Beta et Grok3 mini Reasoning - ont surpassé le modèle actuellement le plus puissant d’OpenAI, o3-mini-high, lors de l’AIME 2025. Cependant, les employés d’OpenAI ont rapidement souligné sur la plateforme X que le graphique de XAI n’incluait pas le score AIME 2025 de o3-mini-high dans la condition “cons@64”. Babushkin a affirmé sur la plateforme X que OpenAI avait également publié des graphiques de tests de référence trompeurs similaires par le passé. Bien que ces graphiques étaient utilisés pour comparer les performances de leurs propres modèles.

Voir l'original
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire