D’après des informations, des chercheurs de NVIDIA et du MIT ont publié Lightning OPD (Offline On-Policy Distillation), un nouveau cadre post-entraînement pour les grands modèles de langage qui élimine la nécessité de garder un modèle enseignant en fonctionnement pendant l’entraînement. En précalculant hors ligne les log-probabilités du modèle enseignant, le cadre améliore l’efficacité de l’entraînement de 4x tout en libérant toutes les ressources GPU pour l’entraînement du modèle étudiant.
Lors de tests sur 8 GPU NVIDIA H100, Lightning OPD a réussi à distiller Qwen3-30B-A3B-Base (un modèle MoE de 30 milliards de paramètres) et a atteint 71,0 sur le benchmark AIME 2024, tandis que l’OPD standard a manqué de mémoire sur le même matériel. Pour le modèle Qwen3-8B plus petit, le cadre n’a nécessité que 30 heures de GPU pour atteindre 69,9 points.
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'
avertissement.
Articles similaires
Entretien dans le district de Bonnie (Blockchain) avec Eric Trump : il parle de l’IA, de l’énergie et du Bitcoin aux États-Unis, et révèle que Trump continue encore en privé à l’appeler « honey »
YouTuber de la blockchain de Taïwan « 邦尼區塊鏈 » a récemment interviewé Eric Trump, et la discussion a porté sur les sociétés américaines d’extraction de Bitcoin American Bitcoin, les politiques crypto du gouvernement Trump, la compétitivité de l’IA et de l’énergie aux États-Unis, ainsi que les raisons personnelles d’Eric Trump d’investir dans le secteur des actifs numériques. Le fils de Trump : les États-Unis doivent l’emporter dans l’énergie, l’IA et les cryptomonnaies Dans l’interview, Eric Trum
ChainNewsAbmediaIl y a 2h
Des parlementaires républicains demandent une enquête sur les investissements personnels de 3,75 milliards de dollars d'Altman et les conflits liés à OpenAI
D’après ChainCatcher, le président de la commission de surveillance de la Chambre des représentants américaine, James Comer, a récemment exigé du PDG d’OpenAI, Sam Altman, qu’il divulgue des informations sur ses investissements personnels et sur d’éventuels conflits d’intérêts avec OpenAI. La demande de Comer porte sur le portefeuille d’investissements étendu d’Altman, qui représente environ 3,5 milliards de dollars de valeur nette, incluant des participations dans Helion, Stripe et Reddit. Plus
GateNewsIl y a 3h
TT Chain intègre le système de sécurité AegisAI pour la protection des RWA le 11 mai
D’après l’annonce de TT Chain du 11 mai, le réseau blockchain de couche 2 a intégré l’infrastructure de sécurité pilotée par l’IA d’AegisAI dans son écosystème d’actifs du monde réel. La collaboration améliore la protection des transactions d’actifs tokenisés et des opérations inter-chaînes grâce à des capacités avancées de détection des menaces et d’audit des smart contracts. Les agents autonomes d’IA d’AegisAI détectent les attaques de phishing, empêchent les tentatives d’accès non autorisé et
GateNewsIl y a 4h
La startup d’IA Wispr discute d’un tour de financement à une valorisation de $2B le 12 mai
Selon PANews, la startup d’IA Wispr est en négociations de levée de fonds le 12 mai, avec une valorisation de 2 milliards de dollars.
GateNewsIl y a 4h
Sam Altman doit témoigner aujourd’hui dans le procès OpenAI de Musk $38M
Selon BlockBeats, Sam Altman est programmé pour témoigner aujourd'hui (12 mai) devant un tribunal fédéral à Oakland, en Californie, au sujet du procès d'Elon Musk contre OpenAI. Altman prendra la barre après que Bret Taylor, président du conseil d'administration d'OpenAI, aura terminé son témoignage. Musk a déposé ce recours en 2024, affirmant qu'OpenAI, Altman et le président Greg Brockman ont enfreint la mission initiale à but non lucratif et d'intérêt public de l'entreprise. Musk affirme que
GateNewsIl y a 5h
Depthfirst découvre des failles critiques d’Internet à un dixième du coût de la mythologie d’Anthropic
D'après BlockBeats, le 12 mai, la startup de cybersécurité IA Depthfirst a annoncé que son modèle de découverte de vulnérabilités d'IA développé en interne avait identifié plusieurs failles de sécurité critiques, manquées par le Mythos d'Anthropic, en affirmant que le coût total ne représentait qu'un dixième de celui de ce dernier. Le PDG de Depthfirst, Qasim Mithani, a déclaré que l'entreprise peut « accomplir des travaux pour 1 000 $ que Mythos exigerait 10 000 $ pour réaliser » en optimisant
GateNewsIl y a 5h