Resultados da pesquisa por "HOP"
Hoje
04:54

A Perplexity revela método de pós-treinamento de agente de busca na web; modelo baseado em Qwen3.5 supera GPT-5.4 em acurácia e custo

A Perplexity usa SFT seguida de RL com modelos Qwen3.5, aproveitando um conjunto de dados de QA multi-hop e verificações por rubrica para aumentar a precisão e a eficiência da busca, alcançando desempenho FRAMES de nível superior. Resumo: O fluxo de trabalho de pós-treinamento da Perplexity para agentes de busca na web combina fine-tuning supervisionado (SFT) para impor aderência a instruções e consistência de linguagem com aprendizado por reforço online (RL) via o algoritmo GRPO. A etapa de RL usa um conjunto de dados proprietários de QA verificável multi-hop e dados conversacionais baseados em rubricas para evitar deriva do SFT, com agregação filtrada por recompensa e penalidades de eficiência dentro do grupo. A avaliação mostra que o Qwen3.5-397B-SFT-RL alcança o melhor desempenho em FRAMES, com 57,3% de acurácia com uma única chamada de ferramenta e 73,9% com quatro chamadas a US$ 0,02 por consulta, superando GPT-5.4 e Claude Sonnet 4.6 nessas métricas. A precificação é baseada em API e exclui caching.
Mais