Gate News 消息,3月25日,谷歌研究院發布量化壓縮算法TurboQuant,可將大語言模型的KV快取壓縮至3 bit,記憶體佔用縮減至少6倍,無需訓練或微調,亦不影響模型精度。在4 bit模式下,在英偉達H100 GPU上計算注意力的速度較32 bit未量化基線提升最高8倍。研究團隊在LongBench、Needle In A Haystack、ZeroSCROLLS等長上下文基準上,使用Gemma和Mistral模型進行驗證,TurboQuant在所有測試中均達到最佳表現。該算法由兩個子算法組成:PolarQuant通過極座標變換消除傳統量化方法的記憶體開銷,QJL僅用1 bit校正殘餘誤差。該研究由谷歌研究院的Amir Zandieh和副總裁兼Google Fellow Vahab Mirrokni主導,與韓國KAIST和紐約大學合作完成,將於ICLR 2026發表。谷歌表示該技術的主要應用之一是解決Gemini等模型的KV快取瓶頸。