По данным мониторинга 1M AI News, исследовательский институт Google представил алгоритм квантового сжатия TurboQuant, который позволяет сжимать кеш KV больших языковых моделей до 3 бит, сокращая использование памяти как минимум в 6 раз без необходимости обучения или доработки и без потери точности модели. В режиме 4 бита на GPU NVIDIA H100 скорость вычисления внимания увеличилась до 8 раз по сравнению с базовым 32-битным не квантованным режимом.
Команда исследователей проверила эффективность TurboQuant на длинных контекстных бенчмарках LongBench, Needle In A Haystack, ZeroSCROLLS с моделями Gemma и Mistral, и во всех тестах алгоритм показал лучшие результаты. Алгоритм состоит из двух частей: PolarQuant, который устраняет память, необходимую для традиционной квантования, с помощью преобразования в полярные координаты, и QJL, использующий всего 1 бит для коррекции остаточной ошибки.
Это исследование, проведённое под руководством Амир Зандиех из Google Research и вице-президента и научного сотрудника Google Вахаба Миракни, выполнено в сотрудничестве с KAIST (Южная Корея) и Нью-Йоркским университетом и будет опубликовано на ICLR 2026. Google отмечает, что одним из основных применений этой технологии является устранение узких мест в кешах KV таких моделей, как Gemini.