Google 的 Gemini 3 Deep Think 大升級:推理能力碾壓 Opus 4.6、GPT-5.2,要做「最會科研的 AI」

動區BlockTempo
BTC2.63%

Google 發布 Gemini 3 Deep Think 重大更新,在 ARC-AGI-2 測試中以 84.6% 大幅超越 Claude Opus 4.6(68.8%)和 GPT-5.2(52.9%),同時在 Codeforces 達到「傳奇宗師」等級。
(前情提要:ChatGPT 學習模式問世:家教的黃昏,還是黃金教育時代的黎明?)
(背景補充:Google 正式推出「Gemini 3」!登頂全球最聰明 AI 模型,有什麼亮點?)

本文目錄

  • 不只會考試,還會抓人類的錯
  • 市場份額的地殼變動
  • 對加密產業的漣漪效應
  • 科學決勝局才剛開始

Google 今(13)日發布了 Gemini 3 Deep Think 的重大升級。在 ARC-AGI-2(一個專門防止 AI 背題庫的推理測試,不考你知道多少,考你能不能從幾個範例中自己歸納出規則)測試中,Gemini 3 Deep Think 拿下了 84.6%。

作為參照,Claude Opus 4.6(Thinking Max 模式)拿到 68.8%,GPT-5.2(Thinking xhigh 模式)是 52.9%,而人類平均約 60%。

更驚人的是,在原版 ARC-AGI-1 上,Deep Think 拿到 96%,基本上把這個曾被視為「AI 最難考試之一」的基準測試考到了天花板。

Deep Think 目前開放給 Google AI Ultra 訂閱用戶,API 則面向企業開放早期存取。

不只會考試,還會抓人類的錯

跑分之外,Google 在公告中提到了一個細節:Deep Think 在審閱一篇經過人類同行評審的數學論文時,成功找出了一個之前所有審稿人都沒發現的邏輯漏洞。這篇論文由羅格斯大學(Rutgers University)的數學家確認。

這個案例的重要性在於,它不是模型在標準化測試中的表現,而是在真實的、開放式的科學場景中展現的能力。同行評審是學術界最核心的品質控制機制,如果 AI 能穩定地在這個環節提供有價值的輔助,它對科學研究的加速效應將遠超任何跑分所能衡量。

Deep Think 同時在 2025 年國際物理奧林匹克和化學奧林匹克的筆試部分達到金牌水準,在 Codeforces 上的 Elo 評分為 3,455,對應「傳奇宗師」等級,全球僅極少數人類程式設計師能達到這個層級。

而在「人類最後的考試」(Humanity’s Last Exam)這個由各領域專家設計、刻意讓 AI 難以作答的基準上,Deep Think 拿到 48.4%(不使用工具),也創下新紀錄。

市場份額的地殼變動

AI 三巨頭的技術競賽正在改變市場版圖。ChatGPT 的市佔率已從巔峰時期的 87% 降至約 68%,而 Gemini 從不到 5% 飆升至超過 18%、Anthropic 的 Claude 則穩步蠶食企業級市場。

Google 在這場競賽中的獨特優勢是分發能力。Gemini 內建在 Android 系統、Chrome 瀏覽器、Google Workspace 和搜尋引擎中,這意味著即使在模型能力上與對手打平,Google 也能透過渠道優勢贏得用戶。

但分發優勢是雙面刃。如果 Gemini 的體驗不夠好,它可能會比任何競品更快地失去用戶信任,因為用戶是「被動接觸」而非「主動選擇」。OpenAI 的用戶是主動付費的,天然有更高的容忍度和黏性。

對加密產業的漣漪效應

AI 軍備競賽的每一次升級,都在推高對運算基礎設施的需求。訓練一個前沿模型所需的 GPU 叢集成本已經從 2024 年的數億美元級別,膨脹到 2026 年的數十億美元級別。這也直接影響了兩件事。

**第一,比特幣礦工的轉型路徑。**當挖礦利潤被壓縮(摩根大通本週估算 BTC 生產成本降至 7.7 萬美元,而幣價在 6.6 萬附近),擁有大規模算力基礎設施的礦工正加速轉向 AI 運算服務。

高成本礦企不是「退出」,而是「轉業」,從挖比特幣變成提供 AI 算力的合約收入。

**第二,AI 代幣的敘事。**每當 Google、OpenAI 或 Anthropic 發布重大升級,鏈上 AI 相關代幣(如去中心化運算協議)通常會出現短期炒作。

但這些代幣的基本面問題始終沒變:去中心化運算在延遲和吞吐量上,距離企業級 AI 訓練的需求還有很長的路要走。敘事可以跑得很快,但基礎設施還追不上敘事的速度。

科學決勝局才剛開始

Deep Think 的升級把 Google 又推回了 AI 競賽的領跑位置,至少在推理和科學領域是如此。但如果你仔細看 Google 的公告措辭,會發現一個微妙的定位轉變:它不再強調「最聰明的通用 AI」,而是反覆提及「為科學而生」。

當通用 AI 的基準測試越來越擁擠、差異化越來越難,「我的 AI 能幫你做科學研究」是一個比「我的 AI 跑分最高」更有說服力的價值主張。如果 Deep Think 真的能穩定地輔助同行評審、加速藥物發現、或在物理模擬中找到人類遺漏的解,這比任何跑分榜單都更有意義。

問題是,從「能在基準測試上拿高分」到「能在真實科學場景中可靠地輔助人類」,中間的距離可能比 Google 暗示的更遠,畢竟基準測試有標準答案,科學沒有。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

美股高开低走,三大指数均转跌

Gate News 消息,3 月 13 日,美股高开低走,三大指数表现分化。标普 500 指数现跌 0.15%,纳斯达克指数现跌 0.4%,道琼斯指数微涨 0.07%。

GateNews51分鐘前

现货白银回落至 81 美元下方,日内跌 3.46%

Gate News 消息,3 月 13 日,现货黄金短线跳水,波幅扩大至 40 余美元,现报 5042 美元/盎司。现货白银短线走低,回落至 81 美元/盎司下方,日内跌 3.46%。纽约期银日内大跌 5.00%,现报 80.85 美元/盎司。

GateNews58分鐘前

现货黄金短线下挫20美元,失守5060美元/盎司

Gate News消息,3月13日,数据显示,现货黄金短线下挫20美元,失守5060美元/盎司关口,日内跌幅0.38%。

GateNews1小時前

荷兰合作银行:中东冲突或继续支撑美元走强

荷兰合作银行分析师Jane Foley表示,中东冲突未缓和,美元可能继续走强,结束了关于其避险属性的争论。尽管美元面临美联储政策和通胀压力的不确定性,但作为石油出口国,美国的贸易条件可能改善。

GateNews1小時前

March 13 Crypto ETF Flow Report: Bitcoin and Ethereum See Positive Inflows

Gate News bot message, According to the March 13 update, Bitcoin ETFs recorded a 1-day net inflow of +570 BTC (+$41.87M) and a 7-day net inflow of +2,589 BTC (+$190.04M). Ethereum ETFs showed a 1-day net inflow of +44,240 ETH (+$96.71M) and a 7-day net inflow of +1,540 ETH (+$3.37M). Solana ETFs reg

GateNews1小時前

BTC 15分钟下跌1.06%:油价冲击与杠杆强平共振引发抛售压力

2026-03-13 14:30 至 14:45(UTC),BTC在15分钟内收益率录得-1.06%,K线价格区间为72933.4至73896.0 USDT,振幅达1.31%。短时间市场波动明显加剧,交易活跃度与关注度同步走高。 本次异动的主要驱动力是全球油价因美以对伊朗军事行动急飙至100美元上方,触发通胀预期升温和美联储降息可能性的下降,导致全球风险偏好大幅回撤。比特币作为流动性最强的风险

GateNews1小時前
留言
0/400
暫無留言