Perplexity 公布网页搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本上优于 GPT-5.4

Gate News 消息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细说明其针对网页搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT),以建立指令遵循与语言一致性;随后进行在线强化学习 (RL),以优化搜索准确率与工具使用效率。

强化学习阶段使用 GRPO 算法,并结合两种数据源:一种专有的多跳可验证问答数据集,由内部种子查询构建而成,要求推理 2–4 跳,并通过多求解器验证;以及基于评分标准的通用对话数据,将部署需求转换为客观可检验的原子条件,从而防止 SFT 行为退化。

奖励设计采用门控聚合——只有在达到基线正确性时,偏好分数才会计入 (question-answer 匹配或满足所有评分标准),从而避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用以及生成长度施加平滑惩罚,且该基线以同一组中正确答案的长度为准。

评估结果表明,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现同级最佳表现。在 FRAMES 上,它在单次工具调用时达到 57.3% 准确率,较 GPT-5.4 高 5.7 个百分点;较 Claude Sonnet 4.6 高 4.7 个百分点。在中等预算 (四次工具调用) 条件下,它以每次查询 $0.02 实现 73.9% 准确率;相比之下,GPT-5.4 为每次查询 $0.085 且准确率 67.8%,Sonnet 4.6 为每次查询 $0.153 且准确率 62.4%。成本数据基于各提供方公开的 API 定价,并不包含缓存优化。

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Ví CEX lớn ra mắt Agentic Wallet cho các tác nhân AI với mức phí bằng 0 trong giai đoạn khuyến mãi

Tin tức từ Gate News, ngày 24 tháng 4 — Một ví của sàn giao dịch tiền mã hóa lớn đã ra mắt AgenticWallet, một ví không cần khóa chuyên biệt dành cho các tác nhân AI. Nền tảng này cho phép người dùng ủy quyền cho các tác nhân AI để thực hiện an toàn các giao dịch, chuyển khoản và các hoạt động quản lý tài sản trong các tham số đã được cấu hình

GateNews13phút trước

Web3 AI Infrastructure AIW3 huy động $2M trong vòng seed do Buffalo Capital dẫn dắt

Tin tức từ Gate, ngày 24 tháng 4 — Nền tảng hạ tầng Web3 AI AIW3 thông báo hoàn tất vòng gọi vốn seed trị giá $2 triệu đô la. Vòng này do Buffalo Capital dẫn dắt, với GalaXin Capital và Three-stones Ventures tham gia với vai trò đồng đầu tư. AIW3 đang chuyển dịch sang mô hình thực thi trên chuỗi Agent-as-a-Service

GateNews2giờ trước

Chính phủ Các Tiểu vương quốc Ả Rập Thống nhất công bố triển khai các tác nhân AI, sớm nhất đến năm 2028 hoàn thành hoạt động tự động hóa cho một nửa số công việc

Các Tiểu vương quốc Ả Rập Thống nhất công bố rằng trong vòng hai năm, 50% các bộ phận, dịch vụ và hoạt động của chính phủ liên bang sẽ được vận hành bởi các đại lý AI tự chủ, trở thành trường hợp đầu tiên trên thế giới. AI sẽ trở thành đối tác thực thi của chính phủ, hỗ trợ ra quyết định, nâng cao chất lượng dịch vụ và tự tối ưu hóa. Tất cả công chức bắt buộc phải tham gia đào tạo, hiệu quả công tác của các bộ trưởng và mức độ triển khai AI được gắn với nhau, được thúc đẩy bởi một nhóm chuyên trách do Tổng thống giám sát. Sáng kiến này bắt nguồn từ quá trình tích lũy chính sách hơn mười năm và chiến lược AI, trọng tâm lấy con người làm trung tâm.

ChainNewsAbmedia3giờ trước

OristaPay Ra Mắt Hệ Thống Thanh Toán Được Hỗ Trợ AI Trên Telegram, Cho Phép Thanh Toán USDT Tức Thì Trên TON

Tin tức Gate ngày 24 tháng 4 — OristaPay, một thương hiệu hoạt động dưới RD Technologies, đã công bố một lộ trình thanh toán hoàn chỉnh, cho phép các tác nhân AI thực hiện giao dịch trong hệ sinh thái Telegram tại Lễ hội Web3 Hồng Kông. Hệ thống cho phép người dùng kích hoạt các giao dịch tài sản kỹ thuật số thông qua các tương tác ngôn ngữ tự nhiên mà không cần rời khỏi giao diện trò chuyện thông qua na

GateNews5giờ trước

Dự án Prometheus của Jeff Bezos huy động $10B tại định giá $38B

Tin tức từ Gate News, ngày 24 tháng 4 — Dự án Prometheus, một phòng thí nghiệm AI do người sáng lập Amazon Jeff Bezos và cựu giám đốc điều hành Google Vik Bajaj thành lập, đã đóng một vòng gọi vốn $10 tỷ USD với định giá $38 tỷ USD. JPMorgan Chase và BlackRock là

GateNews10giờ trước

OpenAI Ra Mắt GPT-5.5, Được Thiết Kế Cho Nhiệm Vụ Agent và Quy Trình Phức Tạp

Tin tức từ Gate, ngày 24 tháng 4 — OpenAI đã chính thức phát hành GPT-5.5, một mô hình AI thế hệ tiếp theo được thiết kế để xử lý các mục tiêu phức tạp, tích hợp công cụ, tự kiểm chứng và hoàn thành các tác vụ theo nhiều bước. Mô hình nổi bật trong việc viết mã và gỡ lỗi, nghiên cứu trực tuyến, phân tích dữ liệu, tạo tài liệu

GateNews10giờ trước
Bình luận
0/400
Không có bình luận