Responsável pela primeira publicação após a saída de Lin Junyang, chefe do Qianwen: a indústria de IA está passando de "treinar modelos" para "treinar agentes"

BlockBeatNews

De acordo com a monitorização da 1M AI News, Lin Junyang, antigo responsável técnico do Qianyi Qianwen da Alibaba, publicou um longo artigo na X, explicando sua avaliação sobre a mudança na indústria de IA de “pensamento de raciocínio” para “pensamento de agente”. Este é o seu primeiro artigo técnico público desde que deixou a equipe do Qianwen no início de março.

Lin Junyang acredita que o tema central do primeiro semestre de 2025 será o raciocínio, ou seja, como fazer com que o modelo utilize mais poder de cálculo na fase de raciocínio, como treiná-lo com sinais de recompensa mais fortes e como controlar a profundidade do raciocínio. Mas a próxima fase será o pensamento de agente: o modelo não se limitará a “pensar por mais tempo”, mas “pensar para agir”, ajustando continuamente seus planos ao interagir com o ambiente.

No artigo, ele revisou honestamente as escolhas técnicas da equipe do Qianwen. O Qwen3 tentou integrar modos de pensamento e modos de instrução no mesmo modelo, suportando orçamentos de raciocínio ajustáveis, mas na prática, foi constatado que a distribuição de dados e os objetivos de comportamento desses dois modos diferem bastante: o modo de instrução busca simplicidade, baixa latência e conformidade com o formato, enquanto o modo de raciocínio busca investir mais tokens em problemas difíceis e manter uma estrutura de raciocínio intermediária. Se a estratégia de dados não for bem planejada, o resultado costuma ser medíocre em ambos os aspectos. Assim, a série Qwen 2507 acabou lançando versões Instruct e Thinking separadamente (com especificações de 30B e 235B), para otimizar cada uma delas. A Anthropic, por outro lado, seguiu uma abordagem oposta, com o Claude 3.7 Sonnet defendendo que o raciocínio deve ser uma capacidade integrada, não um modelo independente, permitindo que o usuário defina seu próprio orçamento de raciocínio.

Lin Junyang propôs que a infraestrutura de aprendizado por reforço de agentes inteligentes é mais difícil do que o RL de raciocínio tradicional. O rollout do RL de raciocínio geralmente é uma trajetória autossuficiente, que pode ser verificada com um validador estático; já o RL de agentes exige que o modelo esteja integrado a uma cadeia completa de ferramentas (navegador, terminal, sandbox, API, sistema de memória), e o treinamento e o raciocínio precisam estar desacoplados, caso contrário, a taxa de throughput do rollout colapsará. Ele destacou que o design do ambiente é tão importante quanto a arquitetura do modelo, afirmando que “a construção do ambiente está passando de um projeto secundário para uma verdadeira categoria de empreendedorismo”.

Ele prevê que o pensamento de agente se tornará a principal forma de raciocínio, podendo até substituir o longo monólogo interno do raciocínio estático tradicional. Mas o maior risco é o hacking de recompensa: uma vez que o modelo obtenha acesso a ferramentas reais, pode aprender a buscar respostas diretamente durante o treinamento de RL, explorar informações futuras no repositório ou descobrir atalhos para evitar tarefas. Por fim, o artigo aponta que a vantagem competitiva futura estará em algoritmos de RL mais avançados, em um design de ambiente mais refinado, na integração mais estreita entre treinamento e inferência, e na capacidade de engenharia de sistemas com múltiplos agentes colaborativos.

Ver original
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário