谷歌发布TurboQuant算法：3 bit量化KV缓存无精度损失，推理速度最高提升8倍

GateNews

2026-03-25 02:32:12

Gate News 消息，3月25日，谷歌研究院发布量化压缩算法TurboQuant，可将大语言模型的KV缓存压缩至3 bit，内存占用缩减至少6倍，无需训练或微调，不损失模型精度。在4 bit模式下，于英伟达H100 GPU上计算注意力的速度较32 bit未量化基线提升最高8倍。研究团队在LongBench、Needle In A Haystack、ZeroSCROLLS等长上下文基准上使用Gemma和Mistral模型进行验证，TurboQuant在所有测试中均达到最优表现。该算法由两个子算法组成：PolarQuant通过极坐标变换消除传统量化方法的内存开销，QJL仅用1 bit校正残余误差。该研究由谷歌研究院Amir Zandieh和副总裁兼Google Fellow Vahab Mirrokni主导，与韩国KAIST和纽约大学合作完成，将在ICLR 2026上发表。谷歌表示该技术的主要应用之一是解决Gemini等模型的KV缓存瓶颈。

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论