谷歌發布TurboQuant算法：3 bit量化KV緩存無精度損失，推理速度最高提升8倍

GateNews

2026-03-25 02:32:12

Gate News 消息，3月25日，谷歌研究院發布量化壓縮算法TurboQuant，可將大語言模型的KV快取壓縮至3 bit，記憶體佔用縮減至少6倍，無需訓練或微調，亦不影響模型精度。在4 bit模式下，在英偉達H100 GPU上計算注意力的速度較32 bit未量化基線提升最高8倍。研究團隊在LongBench、Needle In A Haystack、ZeroSCROLLS等長上下文基準上，使用Gemma和Mistral模型進行驗證，TurboQuant在所有測試中均達到最佳表現。該算法由兩個子算法組成：PolarQuant通過極座標變換消除傳統量化方法的記憶體開銷，QJL僅用1 bit校正殘餘誤差。該研究由谷歌研究院的Amir Zandieh和副總裁兼Google Fellow Vahab Mirrokni主導，與韓國KAIST和紐約大學合作完成，將於ICLR 2026發表。谷歌表示該技術的主要應用之一是解決Gemini等模型的KV快取瓶頸。

查看原文

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

暫無留言