Google 發表 TurboQuant 新演算法：能壓縮 AI 記憶體需求 6 倍，記憶體股集體下挫

動區BlockTempo

2026-03-26 02:35:43

Google 發布無需訓練的 TurboQuant 壓縮演算法，聲稱可將 AI 記憶體需求壓縮至少 6 倍；訊息一出，記憶體股集體跳水，但分析師有不同看法。
（前情提要：Google 訂 2029 年完成後量子密碼遷移，比政府目標早六年，加密產業須跟上）
（背景補充：華爾街日報：川普擬任祖克柏、黃仁勳、艾里森進 PCAST，打造「美國 AI 國家隊」）

一個新演算法，讓記憶體類股全線崩跌？Google Research 於 25 日正式發布 TurboQuant 壓縮演算法，聲稱能將大型語言模型（LLM）的 KV 快取量化至僅 3 位元，且完全不損失模型準確度、記憶體使用量至少壓縮 6 倍。

訊息傳出後，記憶體巨頭美光（Micron）25 日盤中一度大跌 6.1%，終場收 382.09 美元，創三週來收盤新低。另一方面 Sandisk 跌3.5%、希捷跌 2.59%、威騰電子跌 1.63%，記憶體族群全面潰敗。

亞洲市場今日同步承壓，三星電子開盤重挫 3.6%，SK海力士跌 4.5%。投資人的邏輯直截了當：若 AI 模型不再需要那麼多記憶體，近期靠元件短缺撐起的強大定價權，恐怕將就此動搖。

TurboQuant 技術解析：兩階段消除誤差，速度快8倍

KV快取（Key-Value Cache）是 LLM 能「記住」已處理資料的核心機制，儲存了先前運算過的注意力資料，讓模型在生成每個 token 時不需重複計算。但隨著上下文視窗持續擴大，KV 快取已成為記憶體的重大瓶頸。

TurboQuant 針對的正是這個痛點。Google 指出，傳統向量量化方法在記憶體中會產生每個數值約 1 到 2 位元的額外開銷，而 TurboQuant 透過兩階段流程徹底消除這項負擔：

第一階段，採用 PolarQuant 方法對資料向量進行旋轉，實現高品質壓縮

第二階段，再以 Quantized Johnson-Lindenstrauss 演算法消除殘餘誤差

在輝達 H100 GPU 的基準測試中，4 位元的 TurboQuant 在計算注意力度量值時，效能較未量化的 32 位元鍵提升 8 倍，KV 快取記憶體佔用壓縮至少 6 倍。

更關鍵的是，這套演算法無需任何訓練或微調，執行時額外開銷極低，適合直接部署於正式推論環境與大規模向量搜尋系統。官方表示相關論文將於 4 月「ICLR 2026」大會正式發表。

傑文斯悖論：記憶體需求反而可能更多？

不過，並非所有人都認同「記憶體末日」的敘事。

部分分析師搬出了傑文斯悖論：當技術進步降低資源使用成本，資源反而因為更容易取得而推升整體需求。支持者認為，TurboQuant 若真能大幅降低 AI 推論門檻，將加速 AI 模型普及化，最終反而帶動更大規模的記憶體需求，而非削減。

Lynx Equity Strategies 分析師在報告中更直接指出：「Google 所詳述的方法，在未來 3 到 5 年內幾乎不會減少對記憶體和快閃記憶體的需求，因為供給依然極度受限。」因而該機構維持美光 700 美元目標價。

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

暫無留言