Gate 新聞訊息,4 月 24 日——小米大型語言模型團隊負責人 羅福立 在一場深入採訪中披露,MiMo-V2-Pro 模型總計擁有 1 兆(trillion)參數,訓練過程需要數千台 GPU。她指出,1T 規模代表達成性能接近 Claude Opus 4.6 等級所需的最低門檻,並取得下一階段 AI 代理的競爭性入場票。
技術層面,Pro 版本採用極致稀疏注意力機制,將全域注意力與滑動視窗注意力的比例設為 7:1,以控制長上下文處理的推論成本。模型也保留了 MTP (Multi-Token Prediction) 架構,利用剩餘算力以實現更快的推論。
在管理方面,100 人規模的 MiMo 團隊中,只有 30-40 人直接參與核心迭代。團隊運作不設正式階層,也沒有明確的分組或交付截止期限。當遇到不穩定的數值問題,例如訓練損失激增時,團隊會優先考慮暫停訓練以便調查,即使這意味著停止運作一到兩週,並因此產生數百萬美元的算力成本。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
AI Agent 已可獨立重現複雜學術論文:Mollick 稱錯誤多在人類原文而非 AI
Mollick 指出,公開方法與資料即可讓 AI agent 在無原始論文與程式碼情況下重現複雜研究;若重現與原論文不符,多是論文本身的資料處理錯誤或結論過度,而非 AI。 Claude 先重現論文,再由 GPT‑5 Pro 交叉驗證,多數成功,僅遇到資料過大或 replication data 問題時受阻。此趨勢大幅降低人力成本,使重現成為普遍可執行的檢驗,也提出審稿與治理的制度挑戰,政府治理工具或成關鍵議題。
鏈新聞abmedia1小時前
OpenAI 從 GPT-5.4 起將 Codex 合併進主模型,並終止獨立的編程系列
Gate News 消息,4 月 26 日——OpenAI 的開發者體驗主管 Romain Huet 在近期於 X 上的聲明中透露,該公司獨立維護的專用編程模型系列 Codex 已自 GPT-5.4 起並入主模型,且將不再獲得單獨的
GateNews1小時前
Salesforce 將為 AI 產品僱用 1,000 名畢業生與實習生,並上調 2026 財年營收指引
Gate News 訊息,4月26日——Salesforce 將僱用 1,000 名畢業生與實習生,協助開發 AI 產品,包括 Agentforce 與 Headless360;隨著公司擴大其 AI 軟體業務,執行長 Marc Benioff 於 X 上宣布。
該公司亦上調其 2026 財年營收指引至介於 41.45–41.550o十億美元之間
GateNews1小時前
阿里雲推出 Qwen-Image-2.0-Pro:統一文字轉圖片與編輯,支援多語言文字渲染
快訊訊息,4月26日——阿里雲百鍊平台已推出 Qwen-Image-2.0-Pro,這是一個功能完備的 Qwen-Image-2.0 系列版本,將文字生成圖片與影像編輯整合到單一模型中。使用者可透過自然語言指令直接修改物件、文字與風格
GateNews3小時前
DeepSeek V4-Pro API 享受 75% 折扣,至 5 月 5 日止;輸出價格降至每百萬 tokens $0.87
門戶新聞訊息,4 月 26 日—DeepSeek 宣布在限時期間提供 V4-Pro API 定價 75% 折扣,折扣有效期截至 5 月 5 日 15:59 UTC。折扣後,每百萬 tokens 的定價為:輸入快取命中 $0.03625
GateNews4小時前
Anthropic 在 2026 年中期選舉前為 Claude 部署選舉防護措施
Anthropic 週五宣布了一套選舉可信度措施,旨在防止其 Claude AI 聊天機器人被武器化,以在 2026 年美國中期選舉以及今年全球其他重大競選活動之前散播錯誤資訊或操縱選民。總部位於舊金山的
Crypto Frontier9小時前