Google DeepMind AI 合作數學家在 FrontierMath 第 4 階段達成 47.9%,超越 GPT-5.5 Pro,解決 3 個先前無法解決的問題

Google DeepMind 發布 AI 合數學家(AI co-mathematician),一款多代理數學研究助理,在 FrontierMath 第 4 層級基準測試中達到 47.9% 的準確率,超越 GPT-5.5 Pro 先前在 5 月 9 日創下的 39.6% 記錄。該系統解出 48 題中的 23 題,包括 3 題是所有先前模型都無法解答的。系統基於 Gemini 3.1 Pro,採用分層架構:由專案協調員代理(project coordinator agent)分派任務給負責文獻檢索、編碼與推理的子代理(sub-agents),並由多個審查員代理(reviewer agents)在提交前驗證證明。

Epoch AI 進行了盲測,使 DeepMind 團隊無法看到題目;每道題目允許進行 48 小時的運算。在真實世界的應用中,數學家 Marc Lackenby 使用該系統解決了來自 Kourovka Notebook 的一個未解推測,展現其實際研究價值。目前該系統正以內測形式提供給少數數學家使用。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

Sakana AI 與 Nvidia 透過跳過 80% 的無效運算,使 H100 推論速度提升 30% 更快

Sakana AI 和 Nvidia 已開源 TwELL,這是一種稀疏資料格式,可讓 H100 GPU 在大型語言模型中跳過 80% 的無效運算,同時不犧牲準確性。該解決方案在 H100 上可提供最高 30% 更快的推論速度,以及 24% 更快的訓練速度,同時降低峰值記憶體使用量。在 1.5 十億參數模型的測試中,透過訓練期間使用輕量化正則化,該方法將作用中的神經元降至低於 2%,且在七項下游任務中沒有出現效能退化。

GateNews54分鐘前

Microsoft 將 Phi-Ground 4B 模型開源,表現優於 OpenAI Operator 與 Claude 的點擊螢幕準確率

根據 Beating,Microsoft 最近開源了 Phi-Ground 模型家族,該家族旨在解決「AI 應該在電腦螢幕的哪裡點擊」這個問題。這個 40 億參數版本,並搭配用於指令規劃的大型語言模型,在 Showdown 基準測試中超越了 OpenAI Operator 與 Claude Computer Use 的點擊精度,並在包含 ScreenSpot-Pro 的五項評估中,於所有低於 100 億參數的模型中排名第一。 團隊以超過 4,000 萬筆資料樣本進行訓練,並發現學術論文中常用的三種訓練技術在規模化後變得無效。關鍵方法證實其實很簡單:輸出座標作為一般數字,例如「523, 417」。先前的研究為座標發明了專用位置詞彙,但這些方法無法擴展到更大規模。團隊也發現,將文字指令放在影像之前能提升效能,因為模型在處理像素時就能辨識目標。此外,像 DPO 這類強化學習方法,即使在微調之後也能提升準確度。

GateNews1小時前

Tilde Research 發現 Muon Optimizer 會殺死 25% 的神經元;Aurora 替代方案實現 100 倍的資料效率提升

根據 Tilde Research,DeepSeek V4 與 Kimi K2.5 等領先 AI 模型採用的 Muon 優化器存在隱藏缺陷:它會導致在早期訓練期間,MLP 層的神經元中超過 25% 永久死亡。團隊設計了 Aurora,這是一種替代優化器,並將其開源。參數量 11 億的模型僅用 1000 億 tokens 訓練,就在 HellaSwag 與 Winogrande 等語言理解基準上達到了與在 36T tokens 上訓練的 Qwen3-1.7B 相當的表現,顯示資料效率大約提升了 100 倍。Aurora 相較於 Muon 會增加 6% 的計算開銷,且可作為直接替代方案。

GateNews1小時前

Nvidia 於 2026 年初承諾投資超過 400 億美元於 AI,包括 300 億美元投資 OpenAI

根據 TechCrunch,Nvidia 在 2026 年前幾個月承諾投入超過 400 億美元於 AI 公司股權投資,其中對 OpenAI 的 300 億美元投資是單一最大承諾。這家晶片製造商也承諾最高 32 億美元投資玻璃製造商 Corning,並投資至多 21 億美元給資料中心營運商 IREN,其中包括一份為期五年的認股權證,以及一份價值 34 億美元、用於採用 Nvidia Blackwell 系統的託管 GPU 雲端服務的獨立合約。根據 FactSet 數據,Nvidia 今年宣布了對上市公司進行七項數十億美元級別的投資,同時也參與了約兩打(約 24 次)私營新創公司的募資輪次。

GateNews5小時前

輝達開放AI長期夥伴Deepinfra獲1.07億美元B輪融資建立「代幣工廠」

DeepInfra 完成 1.07 億美元 B 輪融資,由 500 Global 與 Google 早期工程師領投,NVIDIA、Samsung Next、Supermicro 跟投,資金用於全球資料中心擴建以降低推理成本與延遲。其垂直整合堆疊自晶片到 API,提升推理穩定性,並成為 NVIDIA 開放 AI 生態的早期夥伴。累計融資達 1.33 億美元,目標打造高效「代幣工廠」支援企業 AI 規模化。

鏈新聞abmedia5小時前

歐洲央行(ECB)執委會成員埃斯克里瓦(Escrivá)在 5 月 9 日警示 AI 對金融基礎設施的風險

ECB 管理委員會成員埃斯克里瓦(Escrivá)在 5 月 9 日表示,鑑於人工智慧發展,中央銀行必須重新評估金融基礎設施的韌性以及資安防護的健全程度。根據他在一場活動中的發言,近期 AI 的進展迫使人們重新評估金融系統能否承受新興風險。

GateNews5小時前
留言
0/400
暫無留言