Según la monitorización de 1M AI News, Google Research ha lanzado el algoritmo de compresión cuantitativa TurboQuant, que puede comprimir la caché KV de modelos de lenguaje grande a 3 bits, reduciendo el uso de memoria al menos 6 veces, sin necesidad de entrenamiento o ajuste fino, y sin pérdida de precisión del modelo. En modo de 4 bits, la velocidad de cálculo de la atención en la GPU H100 de Nvidia es hasta 8 veces mayor que la línea base sin cuantificación de 32 bits.
El equipo de investigación ha validado TurboQuant en benchmarks de contexto largo como LongBench, Needle In A Haystack y ZeroSCROLLS, usando los modelos Gemma y Mistral, logrando el mejor rendimiento en todas las pruebas. El algoritmo consta de dos subalgoritmos: PolarQuant, que elimina el gasto de memoria de los métodos tradicionales de cuantificación mediante transformación en coordenadas polares, y QJL, que corrige el error residual con solo 1 bit.
Este estudio fue liderado por Amir Zandieh y Vahab Mirrokni, vicepresidente y fellow de Google, en colaboración con KAIST en Corea y la Universidad de Nueva York, y será presentado en ICLR 2026. Google indica que una de las principales aplicaciones de esta tecnología es resolver el cuello de botella en la caché KV de modelos como Gemini.