Perplexity 披露网络搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本上优于 GPT-5.4

封面新闻消息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细说明其用于网络搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT) 以建立指令遵循与语言一致性,然后通过在线强化学习 (RL) 来优化搜索准确性与工具使用效率。

RL 阶段使用 GRPO 算法,来自两类数据源:一是由内部种子查询构建的专有多跳可验证问答数据集,这些查询需要 2–4 跳推理,并采用多解算器验证;二是基于评分标准的通用对话数据,它将部署需求转换为客观可核查的原子条件,以防止 SFT 行为退化。

奖励设计采用门控聚合——只有在达到基线正确性时((question-answer match 或所有评分标准要求均满足))偏好分数才会计入,避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用以及生成长度施加平滑惩罚,这些值超过了同一组中正确答案的基线水平。

评估显示,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现了同类最佳表现。在 FRAMES 上,它在单次工具调用时达到 57.3% 的准确率,较 GPT-5.4 高出 5.7 个百分点,较 Claude Sonnet 4.6 高出 4.7 个百分点。在适度预算 (four tool calls) 下,它以每次查询 $0.02 的成本达到 73.9% 准确率;相比之下,GPT-5.4 在每次查询 $0.085 时准确率为 67.8%,Sonnet 4.6 在每次查询 $0.153 时准确率为 62.4%。成本数据基于各提供方公开的 API 定价,并不包含缓存优化。

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

La brecha de seguridad de Vercel se expande a cientos de usuarios; los desarrolladores de IA corren un mayor riesgo

Mensaje de Gate News, 23 de abril — Vercel reveló el 19 de abril que su incidente de seguridad, inicialmente descrito como que afectaba a un "subconjunto limitado de clientes", se ha expandido a una comunidad de desarrolladores mucho más amplia, en particular a quienes construyen flujos de trabajo de agentes de IA. El ataque podría afectar a cientos de usuarios

GateNewshace2h

OpenAI presenta GPT-5.5: 12M de contexto, el índice AA llega al primer puesto, Terminal-Bench 82,7% reescribe el punto de referencia de los agentes

OpenAI publica GPT-5.5, con enfoque en el trabajo basado en agentes y el procesamiento de conocimientos empresariales, y lo lanza simultáneamente en ChatGPT y Codex. Los aspectos clave incluyen una ventana de contexto de 12 millones de tokens, el AA Intelligence Index 60, con rendimiento por delante de Claude Opus 4.7 y Gemini 3.1 Pro; el precio es de 5 dólares por cada millón de tokens de entrada y 30 dólares por cada millón de tokens de salida. La cantidad de tokens de salida disminuye aproximadamente un 40% y el costo real aumenta aproximadamente un 20%.

ChainNewsAbmediahace3h

MagicBlock lanza Mirage, herramienta de pago de privacidad por línea de comandos para Solana

Mensaje de Gate News, 23 de abril — MagicBlock ha lanzado Mirage, una herramienta de pago de privacidad mediante línea de comandos diseñada para la red Solana. La herramienta permite a los usuarios crear billeteras, depositar fondos y enviar transacciones privadas mediante comandos de terminal, bots o agentes de IA. Mirage se basa en Private

GateNewshace7h

OpenClaw 2026.4.22 unifica el ciclo de vida de los plugins entre los harness de Codex y Pi, reduciendo el tiempo de carga de plugins hasta en un 90%

Mensaje de Gate News, 23 de abril — OpenClaw, una plataforma de Agente de IA de código abierto, publicó la versión 2026.4.22 el 22 de abril, con su cambio más importante siendo la alineación de los ciclos de vida del harness de Codex y del harness de Pi. Anteriormente, los plugins se comportaban de manera inconsistente entre las dos rutas del harness, con algunos hooks que faltaban en ciertos entornos.

GateNewshace8h

Google Cloud y CVC se asocian para acelerar la transformación de agentes de IA para las empresas de la cartera

Mensaje de Gate News, 23 de abril — Google Cloud y el gigante de private equity CVC anunciaron una asociación estratégica para acelerar la transformación de agentes de IA para CVC y cientos de empresas dentro de su cartera de inversiones. La colaboración aprovechará la plataforma de inteligencia artificial de Google Cloud y

GateNewshace11h
Comentar
0/400
Sin comentarios