Google TurboQuant: 3-битное квантование KV-кэша без потери точности, вывод до 8 раз быстрее

BlockBeatNews

По данным мониторинга 1M AI News, исследовательский институт Google представил алгоритм квантового сжатия TurboQuant, который позволяет сжимать кеш KV больших языковых моделей до 3 бит, сокращая использование памяти как минимум в 6 раз без необходимости обучения или доработки и без потери точности модели. В режиме 4 бита на GPU NVIDIA H100 скорость вычисления внимания увеличилась до 8 раз по сравнению с базовым 32-битным не квантованным режимом.

Команда исследователей проверила эффективность TurboQuant на длинных контекстных бенчмарках LongBench, Needle In A Haystack, ZeroSCROLLS с моделями Gemma и Mistral, и во всех тестах алгоритм показал лучшие результаты. Алгоритм состоит из двух частей: PolarQuant, который устраняет память, необходимую для традиционной квантования, с помощью преобразования в полярные координаты, и QJL, использующий всего 1 бит для коррекции остаточной ошибки.

Это исследование, проведённое под руководством Амир Зандиех из Google Research и вице-президента и научного сотрудника Google Вахаба Миракни, выполнено в сотрудничестве с KAIST (Южная Корея) и Нью-Йоркским университетом и будет опубликовано на ICLR 2026. Google отмечает, что одним из основных применений этой технологии является устранение узких мест в кешах KV таких моделей, как Gemini.

Посмотреть Оригинал
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев