Nouvelles de Gate, le 10 avril : Tencent Hunyuan publie la série de modèles de base d’intelligence artificielle incarnée HY-Embodied-0.5, dont la version à 2B paramètres a été officiellement ouverte en open source. Cette série de modèles est conçue pour des agents d’intelligence incarnée dans le monde réel, et met l’accent sur l’amélioration de la perception spatio-temporelle et des capacités de raisonnement incarné, pouvant s’appliquer à des scénarios tels que la prédiction de l’environnement, l’exécution d’interactions et la planification de tâches.
Cette famille de modèles comprend deux versions : 2B et 32B. Le modèle 2B s’adresse aux appareils en périphérie et à des déploiements légers, tandis que le modèle 32B est utilisé pour des tâches de raisonnement complexes et des décisions intelligentes de niveau supérieur. Sur le plan de l’architecture technique, HY-Embodied-0.5 introduit le mécanisme Mixture-of-Transformers (MoT) afin de réaliser un calcul réparti par spécialisation multimodale, améliore les capacités de représentation de la perception via des tokens latents, et combine un entraînement post auto-évolution et des méthodes de distillation basées sur la stratégie, afin de parvenir à une optimisation coordonnée des capacités des modèles de petite et de grande taille.
En termes de performances, cette série de modèles se distingue lors de 22 tests de référence : le modèle 2B dépasse, sur 16 tâches, les modèles SOTA de même échelle ; la version 32B est déjà proche du niveau de pointe, démontrant une forte capacité de généralisation de l’intelligence incarnée ainsi qu’un potentiel d’application réel.