Google lança algoritmo de compressão TurboQuant sem necessidade de treino, alegando reduzir pelo menos 6 vezes a necessidade de memória para IA; após o anúncio, ações de memória caíram em massa, mas analistas têm opiniões divergentes.
(Atualização: Google planeja migrar para criptografia quântica até 2029, seis anos antes da meta do governo, obrigando a indústria de criptografia a acompanhar)
(Informação adicional: The Wall Street Journal: Trump pretende nomear Zuckerberg, Huang Renxun e Ellison para o PCAST, formando a “Equipe Nacional de IA dos EUA”)
Um novo algoritmo faz as ações de memória despencarem? A Google Research anunciou oficialmente em 25 de abril o TurboQuant, alegando que consegue quantizar o cache KV de grandes modelos de linguagem (LLM) para apenas 3 bits, sem perda de precisão do modelo, e reduzir o uso de memória pelo menos 6 vezes.
Após o anúncio, a gigante de memória Micron caiu até 6,1% durante o pregão, fechando a 382,09 dólares, atingindo a menor cotação em três semanas. Por outro lado, Sandisk caiu 3,5%, Seagate 2,59%, Western Digital 1,63%, levando o setor de memória a uma queda geral.
Os mercados asiáticos também sofreram pressão hoje, com Samsung Electronics caindo 3,6% na abertura, SK Hynix 4,5%. Os investidores pensam de forma direta: se os modelos de IA não precisarem mais de tanta memória, o poder de precificação sustentado pela escassez de componentes pode estar em risco.
O cache Key-Value (KV) é o mecanismo central que permite aos LLM “lembrar” dados processados, armazenando informações de atenção anteriores para evitar cálculos repetidos na geração de cada token. Com a expansão da janela de contexto, o cache KV virou um gargalo de memória.
O TurboQuant foca exatamente nesse problema. A Google aponta que métodos tradicionais de quantização vetorial geram um overhead de cerca de 1 a 2 bits por valor na memória, e o TurboQuant elimina essa carga em um processo de duas fases:
Primeira fase, usando o método PolarQuant para rotacionar os vetores de dados, alcançando compressão de alta qualidade.
Segunda fase, usando o algoritmo Quantized Johnson-Lindenstrauss para eliminar o erro residual.
Nos testes com a GPU H100 da Nvidia, o TurboQuant de 4 bits aumentou a performance na medição de atenção em 8 vezes em relação ao uso de chaves de 32 bits, além de reduzir o uso de memória do cache KV em pelo menos 6 vezes.
Mais importante, o algoritmo não requer treinamento ou ajuste fino, tem baixo custo de execução e pode ser implantado diretamente em ambientes de inferência e sistemas de busca vetorial em larga escala. Segundo a empresa, o artigo completo será publicado na conferência ICLR 2026 em abril.
Porém, nem todos concordam com a narrativa do “fim da memória”.
Alguns analistas citam o paradoxo de Jevons: quando a tecnologia reduz o custo de recursos, a facilidade de acesso pode impulsionar a demanda geral. Os defensores acreditam que, se o TurboQuant realmente facilitar a inferência de IA, isso acelerará a adoção de modelos de IA, levando a uma maior demanda por memória em vez de reduzi-la.
Um analista da Lynx Equity Strategies afirmou de forma direta: “O método detalhado pelo Google provavelmente não reduzirá a demanda por memória e memória flash nos próximos 3 a 5 anos, pois a oferta ainda é extremamente limitada.” Assim, a instituição mantém a previsão de 700 dólares para a Micron.