Google 發表 TurboQuant 新演算法:能壓縮 AI 記憶體需求 6 倍,記憶體股集體下挫

動區BlockTempo

Google 發布無需訓練的 TurboQuant 壓縮演算法,聲稱可將 AI 記憶體需求壓縮至少 6 倍;訊息一出,記憶體股集體跳水,但分析師有不同看法。
(前情提要:Google 訂 2029 年完成後量子密碼遷移,比政府目標早六年,加密產業須跟上)
(背景補充:華爾街日報:川普擬任祖克柏、黃仁勳、艾里森進 PCAST,打造「美國 AI 國家隊」)

一個新演算法,讓記憶體類股全線崩跌?Google Research 於 25 日正式發布 TurboQuant 壓縮演算法,聲稱能將大型語言模型(LLM)的 KV 快取量化至僅 3 位元,且完全不損失模型準確度、記憶體使用量至少壓縮 6 倍。

訊息傳出後,記憶體巨頭美光(Micron)25 日盤中一度大跌 6.1%,終場收 382.09 美元,創三週來收盤新低。另一方面 Sandisk 跌3.5%、希捷跌 2.59%、威騰電子跌 1.63%,記憶體族群全面潰敗。

亞洲市場今日同步承壓,三星電子開盤重挫 3.6%,SK海力士跌 4.5%。投資人的邏輯直截了當:若 AI 模型不再需要那麼多記憶體,近期靠元件短缺撐起的強大定價權,恐怕將就此動搖。

TurboQuant 技術解析:兩階段消除誤差,速度快8倍

KV快取(Key-Value Cache)是 LLM 能「記住」已處理資料的核心機制,儲存了先前運算過的注意力資料,讓模型在生成每個 token 時不需重複計算。但隨著上下文視窗持續擴大,KV 快取已成為記憶體的重大瓶頸。

TurboQuant 針對的正是這個痛點。Google 指出,傳統向量量化方法在記憶體中會產生每個數值約 1 到 2 位元的額外開銷,而 TurboQuant 透過兩階段流程徹底消除這項負擔:

第一階段,採用 PolarQuant 方法對資料向量進行旋轉,實現高品質壓縮

第二階段,再以 Quantized Johnson-Lindenstrauss 演算法消除殘餘誤差

在輝達 H100 GPU 的基準測試中,4 位元的 TurboQuant 在計算注意力度量值時,效能較未量化的 32 位元鍵提升 8 倍,KV 快取記憶體佔用壓縮至少 6 倍。

更關鍵的是,這套演算法無需任何訓練或微調,執行時額外開銷極低,適合直接部署於正式推論環境與大規模向量搜尋系統。官方表示相關論文將於 4 月「ICLR 2026」大會正式發表。

傑文斯悖論:記憶體需求反而可能更多?

不過,並非所有人都認同「記憶體末日」的敘事。

部分分析師搬出了傑文斯悖論:當技術進步降低資源使用成本,資源反而因為更容易取得而推升整體需求。支持者認為,TurboQuant 若真能大幅降低 AI 推論門檻,將加速 AI 模型普及化,最終反而帶動更大規模的記憶體需求,而非削減。

Lynx Equity Strategies 分析師在報告中更直接指出:「Google 所詳述的方法,在未來 3 到 5 年內幾乎不會減少對記憶體和快閃記憶體的需求,因為供給依然極度受限。」因而該機構維持美光 700 美元目標價。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
留言
0/400
暫無留言