NVIDIA 與 MIT 發布 Lightning OPD 架構,提升模型蒸餾效率 4 倍,同時消除 GPU 記憶體問題

據報導,NVIDIA 與 MIT 研究人員發布了 Lightning OPD(Offline On-Policy Distillation),這是一種用於大型語言模型的新型後訓練框架,可消除在訓練期間維持教師模型持續運行的需求。透過離線預先計算教師模型的對數機率,該框架可使訓練效率提升 4 倍,同時釋放所有 GPU 資源用於學生模型訓練。

在 8 張 NVIDIA H100 GPU 的測試中,Lightning OPD 成功蒸餾了 Qwen3-30B-A3B-Base(具 300 億參數的 MoE 模型),並在 AIME 2024 基準測試上達到 71.0;相較之下,標準 OPD 在相同硬體上因記憶體不足而失敗。對於較小的 Qwen3-8B 模型,該框架僅需 30 個 GPU 小時計算時間即可達到 69.9 分。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆