Selon la surveillance de 1M AI News, le Google Research Institute a publié l’algorithme de compression quantifiée TurboQuant, qui peut compresser le cache KV des grands modèles de langage à 3 bits, réduisant l’utilisation de mémoire d’au moins 6 fois, sans entraînement ni ajustement fin, tout en préservant la précision du modèle. En mode 4 bits, la vitesse de calcul de l’attention sur le GPU H100 de Nvidia est jusqu’à 8 fois plus rapide que la ligne de base non quantifiée à 32 bits.
L’équipe de recherche a validé TurboQuant sur des benchmarks à contexte long tels que LongBench, Needle In A Haystack, ZeroSCROLLS, en utilisant les modèles Gemma et Mistral, obtenant des performances optimales dans tous les tests. Cet algorithme se compose de deux sous-algorithmes : PolarQuant, qui élimine la surcharge mémoire des méthodes de quantification traditionnelles via une transformation en coordonnées polaires, et QJL, qui corrige l’erreur résiduelle avec seulement 1 bit.
Cette recherche, dirigée par Amir Zandieh du Google Research Institute et Vahab Mirrokni, vice-président et Google Fellow, en collaboration avec KAIST en Corée du Sud et l’Université de New York, sera publiée à l’ICLR 2026. Google indique que l’une des principales applications de cette technologie est de résoudre le goulot d’étranglement du cache KV dans des modèles comme Gemini.