Google TurboQuant: cuantización KV de 3 bits sin pérdida de precisión, inferencia hasta 8 veces más rápida

BlockBeatNews

Según la monitorización de 1M AI News, Google Research ha lanzado el algoritmo de compresión cuantitativa TurboQuant, que puede comprimir la caché KV de modelos de lenguaje grande a 3 bits, reduciendo el uso de memoria al menos 6 veces, sin necesidad de entrenamiento o ajuste fino, y sin pérdida de precisión del modelo. En modo de 4 bits, la velocidad de cálculo de la atención en la GPU H100 de Nvidia es hasta 8 veces mayor que la línea base sin cuantificación de 32 bits.

El equipo de investigación ha validado TurboQuant en benchmarks de contexto largo como LongBench, Needle In A Haystack y ZeroSCROLLS, usando los modelos Gemma y Mistral, logrando el mejor rendimiento en todas las pruebas. El algoritmo consta de dos subalgoritmos: PolarQuant, que elimina el gasto de memoria de los métodos tradicionales de cuantificación mediante transformación en coordenadas polares, y QJL, que corrige el error residual con solo 1 bit.

Este estudio fue liderado por Amir Zandieh y Vahab Mirrokni, vicepresidente y fellow de Google, en colaboración con KAIST en Corea y la Universidad de Nueva York, y será presentado en ICLR 2026. Google indica que una de las principales aplicaciones de esta tecnología es resolver el cuello de botella en la caché KV de modelos como Gemini.

Ver originales
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios