Suchergebnisse für "SFT"
2026-04-23
04:54

Perplexity offenbart Methode zum Post-Training von Web-Search-Agenten; auf Qwen3.5 basierendes Modell übertrifft GPT-5.4 bei Genauigkeit und Kosten

Perplexity verwendet SFT, gefolgt von RL mit Qwen3.5-Modellen, wobei es einen Multi-Hop-QA-Datensatz und Rubrik-Checks nutzt, um die Suchgenauigkeit und -effizienz zu steigern und eine erstklassige FRAMES-Performance zu erreichen. Zusammenfassung: Der Post-Training-Workflow von Perplexity für Web-Search-Agenten kombiniert Supervised Fine-Tuning (SFT), um regelkonformes Befolgen von Anweisungen und sprachliche Konsistenz durchzusetzen, mit Online Reinforcement Learning (RL) über den GRPO-Algorithmus. Die RL-Phase nutzt einen proprietären Multi-Hop-verifizierbaren QA-Datensatz sowie rubrikbasierte Konversationsdaten, um ein Abdriften von SFT zu verhindern, mit Reward-Gating und Effizienz-Strafen innerhalb von Gruppen. Die Evaluierung zeigt, dass Qwen3.5-397B-SFT-RL eine Spitzenleistung bei FRAMES erzielt: 57,3% Genauigkeit mit einem einzelnen Tool-Call und 73,9% mit vier Calls bei $0.02 pro Query, und damit GPT-5.4 sowie Claude Sonnet 4.6 in diesen Kennzahlen übertrifft. Die Preisgestaltung erfolgt API-basiert und schließt Caching aus.
Mehr
05:38

Prime Intellect hat das INTELLECT-3 Modell eingeführt.

Dezentralisierung AI Protokoll Prime Intellect hat das hybride Expertenmodell INTELLECT-3 mit 106B Parametern eingeführt, das auf dem GLM 4.5 Air Base Modell basiert und mit SFT und RL trainiert wurde. Prime Intellect hat im März dieses Jahres 15 Millionen US-Dollar Finanzierung abgeschlossen.
Mehr