GLM-5.1 atteint la première place du classement des codes sur LMArena, code open source #1, troisième au monde

Nouvelles de Gate News, le 10 avril, aujourd’hui la plateforme d’évaluation d’IA de référence à l’échelle mondiale LMArena (plateforme d’évaluation de modèles d’IA basée sur des tests à l’aveugle, avec des millions d’utilisateurs participants) met à jour le classement spécialisé Code Arena : GLM-5.1 prend la première place mondiale des modèles open source et se classe troisième au niveau mondial des modèles.

GLM-5.1 reprend non seulement la capacité de codage open source SOTA de la génération précédente, mais réalise aussi une percée sur les tâches à long terme (Long-Horizon Task), en atteignant : construire un bureau Linux depuis zéro en 8 heures ; 655 itérations pour briser le goulot d’étranglement de l’optimisation des bases de données vectorielles ; et 1000 tours d’appels d’outils pour optimiser la charge de modèles d’apprentissage automatique réels.

À noter : dans les mêmes critères d’évaluation du tableau METR, GLM-5.1 est le seul modèle open source à atteindre un niveau de travail continu de 8 heures, et c’est aussi l’un des rares modèles dans le monde, en dehors de Claude Opus 4.6, à posséder cette capacité.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire