Perplexity 披露网络搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本上优于 GPT-5.4

封面新闻消息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细说明其用于网络搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT) 以建立指令遵循与语言一致性,然后通过在线强化学习 (RL) 来优化搜索准确性与工具使用效率。

RL 阶段使用 GRPO 算法,来自两类数据源:一是由内部种子查询构建的专有多跳可验证问答数据集,这些查询需要 2–4 跳推理,并采用多解算器验证;二是基于评分标准的通用对话数据,它将部署需求转换为客观可核查的原子条件,以防止 SFT 行为退化。

奖励设计采用门控聚合——只有在达到基线正确性时((question-answer match 或所有评分标准要求均满足))偏好分数才会计入,避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用以及生成长度施加平滑惩罚,这些值超过了同一组中正确答案的基线水平。

评估显示,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现了同类最佳表现。在 FRAMES 上,它在单次工具调用时达到 57.3% 的准确率,较 GPT-5.4 高出 5.7 个百分点,较 Claude Sonnet 4.6 高出 4.7 个百分点。在适度预算 (four tool calls) 下,它以每次查询 $0.02 的成本达到 73.9% 准确率;相比之下,GPT-5.4 在每次查询 $0.085 时准确率为 67.8%,Sonnet 4.6 在每次查询 $0.153 时准确率为 62.4%。成本数据基于各提供方公开的 API 定价,并不包含缓存优化。

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

El Project Prometheus de Jeff Bezos recauda $10B en valoración de $38B

Mensaje de Gate News, 24 de abril — Project Prometheus, un laboratorio de IA fundado por el fundador de Amazon Jeff Bezos y el exejecutivo de Google Vik Bajaj, ha cerrado una ronda de financiación de $10 mil millones con una valoración de $38 mil millones. JPMorgan Chase y BlackRock están

GateNewshace4h

OpenAI lanza GPT-5.5, diseñado para tareas de agentes y flujos de trabajo complejos

Mensaje de Gate News, 24 de abril — OpenAI ha lanzado oficialmente GPT-5.5, un modelo de IA de próxima generación diseñado para gestionar objetivos complejos, integración de herramientas, auto-verificación y finalización de tareas de múltiples pasos. El modelo sobresale en la redacción de código y la depuración, la investigación en línea, el análisis de datos, la creación de documentos

GateNewshace4h

La startup de agentes de IA Band cierra una ronda semilla de $17M liderada por Sierra Ventures, Hetz Ventures, Team8

Mensaje de Gate News, 24 de abril — Band, una startup que está construyendo una plataforma de comunicación y colaboración para agentes de IA, ha cerrado una ronda semilla de $17 millones liderada por Sierra Ventures, Hetz Ventures y Team8. Fundada a mediados de 2025 por el CEO Arick Goomanovsky y el CTO Vlad Luzin, la empresa desarrolla software para la coordinación en tiempo real de entre agentes de IA, humanos y sistemas empresariales, y desarrolla software para la coordinación en tiempo real de entre agentes de IA, humanos y sistemas empresariales.

GateNewshace5h

La brecha de seguridad de Vercel se expande a cientos de usuarios; los desarrolladores de IA corren un mayor riesgo

Mensaje de Gate News, 23 de abril — Vercel reveló el 19 de abril que su incidente de seguridad, inicialmente descrito como que afectaba a un "subconjunto limitado de clientes", se ha expandido a una comunidad de desarrolladores mucho más amplia, en particular a quienes construyen flujos de trabajo de agentes de IA. El ataque podría afectar a cientos de usuarios

GateNewshace9h

OpenAI presenta GPT-5.5: 12M de contexto, el índice AA llega al primer puesto, Terminal-Bench 82,7% reescribe el punto de referencia de los agentes

OpenAI publica GPT-5.5, con enfoque en el trabajo basado en agentes y el procesamiento de conocimientos empresariales, y lo lanza simultáneamente en ChatGPT y Codex. Los aspectos clave incluyen una ventana de contexto de 12 millones de tokens, el AA Intelligence Index 60, con rendimiento por delante de Claude Opus 4.7 y Gemini 3.1 Pro; el precio es de 5 dólares por cada millón de tokens de entrada y 30 dólares por cada millón de tokens de salida. La cantidad de tokens de salida disminuye aproximadamente un 40% y el costo real aumenta aproximadamente un 20%.

ChainNewsAbmediahace10h

MagicBlock lanza Mirage, herramienta de pago de privacidad por línea de comandos para Solana

Mensaje de Gate News, 23 de abril — MagicBlock ha lanzado Mirage, una herramienta de pago de privacidad mediante línea de comandos diseñada para la red Solana. La herramienta permite a los usuarios crear billeteras, depositar fondos y enviar transacciones privadas mediante comandos de terminal, bots o agentes de IA. Mirage se basa en Private

GateNewshace14h
Comentar
0/400
Sin comentarios