Perplexity 公开网页搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本上胜过 GPT-5.4

封面新闻讯息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细介绍了其网页搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT),以建立指令遵循与语言一致性;随后进行在线强化学习 (RL),以优化搜索准确性与工具使用效率。

强化学习阶段使用 GRPO 算法,并来自两类数据源:一是专有的多跳可验证问答数据集,由内部种子查询构建而来,这些查询需要 2–4 跳推理,并通过多求解器验证;二是基于评分规则的通用对话数据,将部署需求转换为可客观核查的原子条件,以防止 SFT 行为退化。

奖励设计采用门控聚合——只有在达到基线正确性时,偏好分数才会被计入 (question-answer match 或所有评分规则标准均满足),从而避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用与生成长度施加平滑惩罚,其基线为同一组中正确答案的基线水平。

评估表明,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现同类最佳表现。在 FRAMES 上,它使用单次工具调用达到 57.3% 的准确率,较 GPT-5.4 高 5.7 个百分点;较 Claude Sonnet 4.6 高 4.7 个百分点。在中等预算 (four tool calls) 下,它以每次查询 $0.02 实现 73.9% 的准确率;相比之下,GPT-5.4 为 67.8%(每次查询 $0.085),Sonnet 4.6 为 62.4%(每次查询 $0.153)。成本数据基于各提供方公开的 API 定价,并且不包括缓存优化。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

Moomoo 推出 AI 代理交易 API Skills,支持以自然语言执行策略

Gate News 消息,4 月 24 日——Moomoo 已推出 Moomoo API Skills,这是一项新功能,允许散户投资者将个人 AI 代理直接连接到其交易平台。该能力使用户能够将自然语言输入转换为结构化交易策略,而无需具备编程技能;AI 代理会持续监控市场,并根据用户定义的参数准备交易,而无需

GateNews4 分钟前

主要 CEX 钱包在促销期间为 AI 代理推出零费 Agentic Wallet

Gate 新闻消息,4月24日——一家主要的加密货币交易所钱包已推出 AgenticWallet,这是一款专为 AI 代理设计的专业免密钱包。该平台使用户能够授权 AI 代理在已配置的范围内安全执行交易、转账和资产管理等操作

GateNews1小时前

Web3 AI 基础设施 AIW3 完成 $2M 种子轮融资,Buffalo Capital 牵头

Gate News 消息,4月24日——Web3 AI 基础设施平台 AIW3 宣布完成一轮 $2 百万美元种子轮融资。本轮融资由 Buffalo Capital 牵头,GalaXin Capital 和 Three-stones Ventures 参与作为共同投资方。 AIW3 正在向 Agent-as-a-Service

GateNews3小时前

阿联酋政府宣布引入 AI 代理,最快 2028 年完成一半业务自动化运作

阿联酋宣布在两年内,让联邦政府50%部门、服务与运作由自主 AI 代理运作,成为全球首例。AI 将成为政府执行伙伴,协助决策、提升服务并自我优化。全体公务员强制受训,部长绩效与 AI 导入成效挂钩,由总统监督推动专责小组。此举源自十多年政策累积与 AI 战略,核心以人为本。

鏈新聞abmedia5小时前

OristaPay Launches AI-Powered Payment System on Telegram, Enables Instant USDT Settlements on TON

Gate News message, April 24 — OristaPay, a brand operating under RD Technologies, announced a complete payment pathway enabling AI agents to execute transactions within the Telegram ecosystem during the Hong Kong Web3 Festival. The system allows users to trigger digital asset transactions through na

GateNews7小时前

杰夫·贝索斯的 Project Prometheus 以 $10B 的 $38B 估值 融资

Gate News 消息,4月24日——由亚马逊创始人杰夫·贝索斯(Jeff Bezos)和前谷歌高管维克·巴贾吉(Vik Bajaj)创立的人工智能实验室 Project Prometheus,已以 $10 十亿美元的估值,完成了一轮 $38 十亿美元的融资。摩根大通(JPMorgan Chase)和贝莱德(BlackRock)是

GateNews12小时前
评论
0/400
暂无评论