Google TurboQuant: 3-bit quantization of KV cache with no precision loss, inference up to 8x faster

区块律动

據 1M AI News 監測,谷歌研究院發布量化壓縮算法 TurboQuant,可將大語言模型的 KV 緩存壓縮至 3 bit,內存佔用縮減至少 6 倍,無需訓練或微調,不損失模型精度。4 bit 模式下,在英偉達 H100 GPU 上計算注意力的速度較 32 bit 未量化基線提升最高 8 倍。

研究團隊在 LongBench、Needle In A Haystack、ZeroSCROLLS 等長上下文基準上用 Gemma 和 Mistral 模型驗證,TurboQuant 在所有測試中均達到最佳表現。該算法由兩個子算法組成:PolarQuant 通過極坐標變換消除傳統量化方法的內存開銷,QJL 僅用 1 bit 校正殘餘誤差。

該研究由谷歌研究院 Amir Zandieh 和副總裁兼 Google Fellow Vahab Mirrokni 主導,與韓國 KAIST 和紐約大學合作完成,將在 ICLR 2026 上發表。谷歌表示該技術的主要應用之一是解決 Gemini 等模型的 KV 緩存瓶頸。

查看原文
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
留言
0/400
暫無留言