Perplexity offenbart Methode zum Post-Training von Web-Search-Agenten; auf Qwen3.5 basierendes Modell übertrifft GPT-5.4 bei Genauigkeit und Kosten

Sendehinweis, 23. April — Das Forschungsteam von Perplexity veröffentlichte einen technischen Artikel, der seine Post-Training-Methodik für Web-Search-Agenten im Detail beschreibt. Der Ansatz nutzt zwei Open-Source-Qwen3.5-Modelle (Qwen3.5-122B-A10B und Qwen3.5-397B-A17B) und setzt auf eine Zwei-Phasen-Pipeline: Supervised Fine-Tuning (SFT), um regelkonformes Befolgen von Anweisungen und sprachliche Konsistenz zu etablieren, gefolgt von Online Reinforcement Learning (RL), um Suchgenauigkeit und Tool-Use-Effizienz zu optimieren.

Die RL-Phase nutzt den GRPO-Algorithmus mit zwei Datenquellen: einen proprietären Multi-Hop-verifizierbaren Frage-Antwort-Datensatz, der aus internen Seed-Queries erstellt wurde, die 2–4 Reasoning-Hops mit Multi-Solver-Verifikation erfordern, sowie rubrikbasierte allgemeine Konversationsdaten, die die Einsatzanforderungen in objektiv prüfbare atomare Bedingungen umwandeln, um eine Degradation des SFT-Verhaltens zu verhindern.

Das Reward-Design verwendet gated Aggregation — Preferences-Scores tragen nur bei, wenn die Baseline-Korrektheit erreicht ist (question-answer match oder alle Rubrik-Kriterien erfüllt), wodurch verhindert wird, dass starke Preference-Signale faktische Fehler überdecken. Effizienz-Strafen verwenden innerhalb von Gruppen verankertes Ankern: Es werden glatte Strafen für Tool-Calls und für die Generationslänge angewendet, die die Baseline der korrekten Antworten in derselben Gruppe überschreiten.

Die Evaluierung zeigt, dass Qwen3.5-397B-SFT-RL eine erstklassige Performance über Such-Benchmarks hinweg erreicht. Bei FRAMES erzielt es 57,3% Genauigkeit mit einem einzelnen Tool-Call und übertrifft GPT-5.4 um 5,7 Prozentpunkte sowie Claude Sonnet 4.6 um 4,7 Prozentpunkte. Bei moderatem Budget (vier Tool-Calls) erreicht es 73,9% Genauigkeit bei $0.02 pro Query, im Vergleich zu GPT-5.4s 67,8% Genauigkeit bei $0.085 pro Query und Sonnet 4.6s 62,4% Genauigkeit bei $0.153 pro Query. Die Kostendaten basieren auf der öffentlich verfügbaren API-Preisgestaltung jedes Anbieters und schließen Caching-Optimierungen aus.

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Verwandte Artikel

OpenAI 推 GPT-5.5: 12M Kontext, AA-Index auf Platz 1, Terminal-Bench 82,7% schreibt Agenten-Benchmarks neu

OpenAI veröffentlicht GPT-5.5, mit Fokus auf agentenbasiertes Arbeiten und Unternehmenswissensverarbeitung, und bringt es gleichzeitig in ChatGPT und Codex. Die wichtigsten Punkte umfassen ein 12-Millionen-Token-Kontextfenster, einen AA Intelligence Index von 60, und liegen vorn bei Claude Opus 4.7 und Gemini 3.1 Pro; der Preis beträgt 5 USD pro 1 Million Token für die Eingabe und 30 USD pro 1 Million Token für die Ausgabe. Die Anzahl der Ausgabe-Token sinkt um etwa 40%, die tatsächlichen Kosten steigen um etwa 20%.

ChainNewsAbmedia44M her

MagicBlock bringt Mirage auf den Markt: Command-Line-Tool für datenschutzorientierte Zahlungen für Solana

Gate News-Meldung, 23. April — MagicBlock hat Mirage veröffentlicht, ein command-linebasiertes Datenschutz-Zahlungstool, das für das Solana-Netzwerk entwickelt wurde. Das Tool ermöglicht es Benutzern, Wallets zu erstellen, Guthaben einzuzahlen und private Transaktionen über Terminalbefehle, Bots oder KI-Agenten zu senden. Mirage basiert auf Private

GateNews4Std her

OpenClaw 2026.4.22 vereinheitlicht den Plugin-Lebenszyklus in Codex- und Pi-Harnesses und reduziert die Plugin-Ladezeit um bis zu 90%

Gate News Nachricht, 23. April — OpenClaw, eine Open-Source-Plattform für KI-Agenten, hat am 22. April die Version 2026.4.22 veröffentlicht. Die größte Änderung besteht in der Abstimmung der Lebenszyklen des Codex-harness und des Pi-harness. Zuvor verhielten sich Plugins auf den beiden Harness-Pfaden uneinheitlich, wobei einige Hooks in bestimmten Umgebungen fehlten

GateNews5Std her

Google Cloud und CVC-Partner zur Beschleunigung der KI-Agenten-Transformation für Portfoliounternehmen

Gate News-Nachricht, 23. April — Google Cloud und der Private-Equity-Riese CVC haben eine strategische Partnerschaft angekündigt, um die Transformation von KI-Agenten für CVC und hunderte Unternehmen innerhalb seines Investmentportfolios zu beschleunigen. Die Zusammenarbeit wird die KI-Plattform von Google Cloud und das Gemini-Modell nutzen, um die Einführung intelligenter Agenten über das gesamte Portfolio hinweg voranzutreiben.

GateNews8Std her

Delphi: KI-Prognosemarkt-Launch auf Gensyn Mainnet

Gate News-Nachricht, 23. April — Das KI-Prognosemarkt-Protokoll Delphi wurde offiziell auf Gensyn, einem KI-Computing-Protokoll, gelauncht und ermöglicht es Menschen und KI-Agenten, Prognose-Trades auf derselben Plattform durchzuführen. Die Abwicklung erfolgt vollständig On-Chain über verifizierte KI-Orakel. Gensyn hat zuvor Delphi auf seinem Testnet im Dezember 2025 gelauncht.

GateNews8Std her
Kommentieren
0/400
Keine Kommentare