Modelos nacionais dominam OpenRouter: aumento explosivo no uso de tokens; programação e agentes inteligentes tornam-se pontos decisivos

2026-02-24 02:32:20

Durante o período do Ano Novo Chinês, o uso de grandes modelos nacionais pode ser considerado em plena expansão. Os dados semanais mais recentes do OpenRouter mostram que os dez principais modelos na plataforma totalizaram aproximadamente 8,7 trilhões de tokens, sendo que os modelos chineses dominam com 5,3 trilhões, representando 61%.

Os três modelos com maior volume de chamadas de tokens na semana foram todos grandes modelos nacionais, nomeadamente Minimax M2.5, Kimi K2.5 e GLM-5, com variações semanais de aumento de 197%, queda de 20% e aumento de 158%, respetivamente. Entre eles, o MiniMax M2.5 lidera com 2,45 trilhões de tokens, seguido pelo Kimi K2.5 com 1,21 trilhões, enquanto o GLM-5 e o DeepSeek V3.2 ocupam, respetivamente, a terceira e a quinta posições.

O OpenRouter é a maior plataforma de agregação de APIs de grandes modelos a nível mundial, oferecendo aos desenvolvedores uma interface API unificada para aceder a centenas de modelos de linguagem globalmente. As suas funcionalidades principais incluem chamadas multi-modelo, otimização de roteamento inteligente e rankings de desempenho transparentes, com o objetivo de resolver a complexidade da integração de múltiplos modelos e o bloqueio por parte dos fornecedores.

De acordo com os dados fornecidos pela plataforma, programação (Coding) e agentes inteligentes (Agent) estão a tornar-se os dois principais focos de competição entre grandes modelos.

O volume total de chamadas na plataforma tem vindo a aumentar significativamente. A equipa oficial confirmou que o M2.5 impulsionou a procura por chamadas incrementais na faixa de textos longos entre 100K e 1M de tokens, precisamente o cenário típico de fluxo de trabalho de agentes inteligentes.

No que diz respeito ao volume de tokens chamados, os três principais grandes modelos nacionais nesta plataforma concentram-se em melhorar as capacidades de programação e automatizar tarefas de agentes inteligentes (Agent), representando um avanço importante na aplicação prática dos grandes modelos nacionais no início de 2026.

A Tech MiniMax lançou o MiniMax M2.5 a 13 de fevereiro, descrevendo-o como o primeiro modelo de produção de nível de topo, projetado nativamente para cenários de agentes inteligentes. Em sete dias após o lançamento, o volume de chamadas ultrapassou 3,07 trilhões de tokens, tornando-se a escolha preferida dos desenvolvedores devido ao seu desempenho excecional em fluxos de trabalho de programação e agentes, aliado a custos extremamente baixos.

A Moonshot AI lançou o KimiK2.5 a 27 de janeiro, um modelo que utiliza uma arquitetura multimodal nativa capaz de coordenar até 100 “réplicas de agentes” em paralelo, aumentando a eficiência de tarefas complexas de 3 a 10 vezes. Este modelo lidera várias classificações específicas (como programação e chamadas de ferramentas), com volume de chamadas muito superior ao Gemini 3 e ao Claude. Segundo a reportagem do The Paper, menos de um mês após o lançamento, a receita acumulada do Kimi nos últimos 20 dias já ultrapassou a receita total de 2025, impulsionada pelo aumento de utilizadores pagos globais e chamadas API, especialmente com rápido crescimento de utilizadores pagos no exterior.

A Zhipu lançou o GLM-5 a 12 de fevereiro, um modelo com escala de parâmetros ainda maior, utilizando atenção esparsa, especialmente desenhado para tarefas de engenharia de sistemas complexos e longas tarefas de agentes. Com vantagens como acesso gratuito e janela de contexto de 200K, o modelo registou um crescimento rápido de utilizadores após o lançamento. A Zhipu implementou ações como restrição de vendas e aumentos de preço no plano de programação, além de anunciar na véspera do Ano Novo Chinês a busca por “parceiros de computação” em toda a rede.

À medida que os cenários de aplicação de modelos de IA se aprofundam, os utilizadores estão a passar de perguntas simples para fluxos de trabalho complexos, como reescrever códigos, modificar ficheiros, gerar documentos, além da popularização do modo agente, levando a uma tendência clara de “inflação” no consumo de tokens.

Apesar do aumento de desempenho, os modelos nacionais continuam a destacar-se pela relação custo-benefício. Por exemplo, comparando o MiniMax M2.5 e o GLM-5 com o Claude Opus 4.6, estes últimos apresentam vantagens de custo evidentes: na fase de entrada, ambos custam cerca de 0,3 dólares por milhão de tokens, enquanto o Claude Opus 4.6 chega a 5 dólares, aproximadamente 16,7 vezes mais caro; na fase de saída, o MiniMax M2.5 custa 1,1 dólares, o GLM-5 2,55 dólares, e o Claude Opus 4.6 atinge 25 dólares por milhão de tokens, sendo cerca de 22,7 e 9,8 vezes mais caros, respetivamente.

Estes modelos nacionais não refletem totalmente o volume de chamadas de tokens por parte dos fabricantes domésticos. Segundo a Haitong International Securities, os dados indicam que o volume diário de chamadas de tokens do modelo da Volcano Engine cresceu de 20 trilhões no final de 2024 para 63 trilhões no final de 2025; os clientes externos da Alibaba Cloud também se aproximaram de 5 trilhões de chamadas diárias em 2025, com uma meta de pelo menos 15-20 trilhões em 2026, enquanto as operações internas planejam aumentar de 16-17 trilhões para 100 trilhões diários. Em todo o setor, o consumo diário de tokens na China passou de 100 bilhões no início de 2024 para mais de 30 trilhões em meados de 2025, e até fevereiro de 2026, o total de tokens consumidos por grandes modelos principais atingiu cerca de 180 trilhões por dia.

O mais recente relatório da Dongguan Securities afirma que, com a melhoria das capacidades de programação e agentes inteligentes dos modelos nacionais, o volume de chamadas aumentou significativamente, e os grandes modelos chineses, ao competir com os principais modelos globais, poderão acelerar ainda mais a implementação de aplicações e impulsionar o crescimento do consumo de tokens.

A Changjiang Securities já indicou que, com a maturidade progressiva de modelos de programação e multimodais, os cenários de aplicação downstream poderão ser realmente desbloqueados, trazendo uma grande demanda por tokens de alta qualidade. Segundo o padrão de desenvolvimento da indústria de IA no exterior, há um atraso de cerca de dois anos entre o investimento em capital e a explosão na procura por tokens. Os grandes fabricantes domésticos iniciaram seus ciclos de investimento em IA aproximadamente um ano mais tarde do que no exterior, começando na segunda metade de 2024. Assim, as receitas das empresas de nuvem domésticas já começaram a crescer, enquanto a verdadeira explosão no número de tokens é esperada para 2026.

(Origem: Caixin)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.