Publier le message d’actualité, 23 avril — L’équipe de recherche de Perplexity a publié un article technique décrivant sa méthodologie de post-formation pour les agents de recherche web. L’approche utilise deux modèles open source Qwen3.5 (Qwen3.5-122B-A10B et Qwen3.5-397B-A17B) et met en œuvre un pipeline en deux étapes : un fine-tuning supervisé (SFT) pour établir le respect des instructions et la cohérence linguistique, suivi d’un apprentissage par renforcement en ligne (RL) pour optimiser la précision de recherche et l’efficacité d’utilisation des outils.
La phase RL tire parti de l’algorithme GRPO avec deux sources de données : un jeu de données interne propriétaire vérifiable de questions-réponses multi-étapes construit à partir de requêtes de départ nécessitant 2 à 4 étapes de raisonnement avec vérification par plusieurs solveurs, et des données conversationnelles générales basées sur des grilles d’évaluation qui transforment les exigences de déploiement en conditions atomiques objectivement vérifiables afin de prévenir la dégradation du comportement de la SFT.
La conception des récompenses emploie une agrégation filtrée — les scores de préférence ne contribuent que lorsque la correction de base est atteinte (correspondance question-réponse de base) ou lorsque toutes les conditions de grille d’évaluation sont satisfaites (, empêchant des signaux de préférence élevés de masquer des erreurs factuelles. Les pénalités d’efficacité utilisent un ancrage au sein du groupe, en appliquant des pénalités progressives aux appels d’outils et à la longueur de génération dépassant la référence des réponses correctes dans le même groupe.
L’évaluation montre que Qwen3.5-397B-SFT-RL atteint les meilleures performances de sa catégorie sur des bancs d’essai de recherche. Sur FRAMES, il atteint 57,3 % d’exactitude avec un seul appel d’outil, dépassant GPT-5.4 de 5,7 points de pourcentage et Claude Sonnet 4.6 de 4,7 points de pourcentage. Dans un budget modéré )quatre appels d’outils, il obtient 73,9 % d’exactitude à 0,02 $ par requête, contre 67,8 % d’exactitude pour GPT-5.4 à 0,085 $ par requête et 62,4 % d’exactitude pour Sonnet 4.6 à 0,153 $ par requête. Les chiffres de coût reposent sur la tarification API publique de chaque fournisseur et excluent les optimisations de mise en cache.
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'
avertissement.
Articles similaires
Google Cloud et CVC s’associent pour accélérer la transformation par agents IA pour les sociétés du portefeuille
Message de Gate News, le 23 avril — Google Cloud et le géant du capital-investissement CVC ont annoncé un partenariat stratégique afin d’accélérer la transformation par agents IA pour CVC et des centaines d’entreprises au sein de son portefeuille d’investissement. La collaboration tirera parti de la plateforme d’intelligence artificielle de Google Cloud et
GateNewsIl y a 2h
Le lancement du marché de prédiction IA Delphi sur le mainnet Gensyn
Message de Gate News, 23 avril — Le protocole de marché de prédiction par IA Delphi a officiellement été lancé sur Gensyn, un protocole de calcul par IA, permettant aux humains et aux agents IA d’effectuer des transactions de prédiction sur la même plateforme. Le règlement est effectué on-chain via des oracles IA vérifiés.
Gensyn avait auparavant lancé D
GateNewsIl y a 2h
MetYa et Zypher Network s’associent pour construire une plateforme Web3 axée sur la confidentialité avec l’IA et des technologies à connaissance zéro
Message de Gate News, 23 avril — MetYa et Zypher Network ont annoncé hier un partenariat stratégique (22 avril) afin de faire avancer les expériences Web3 grâce à l’intégration de l’intelligence artificielle et des technologies à connaissance zéro. La collaboration vise à construire un environnement numérique axé sur la confidentialité
GateNewsIl y a 2h
OristaPay lance une passerelle de paiement IA Telegram avec TON et BytePlus
Message de Gate News, 23 avril — OristaPay, une marque sous Yuanbi Technology, a annoncé aujourd’hui, lors du TON AI Builders Day et du Sommet de co-création de l’écosystème IA de Telegram à Hong Kong, qu’elle a mis en place une solution de paiement de bout en bout pour les agents IA opérant au sein de l’écosystème Telegram.
Pendant une démonstration en direct
GateNewsIl y a 3h
GoPlus AgentGuard lance le mode Checkup pour renforcer la sécurité Web3 des agents IA
Message d’actualité Gate News, 23 avril — Le composant de sécurité GoPlus AI AgentGuard a officiellement publié sa fonctionnalité Checkup, conçue pour combler les angles morts en matière de sécurité dans la prise de décision autonome des agents IA et le contrôle des actifs, élevant la sécurité des agents IA de « interception fragmentée » à « mesure systématique
GateNewsIl y a 5h
Anthropic lance /ultrareview pour Claude Code : revue de code multi-agents basée sur le cloud
Message de Gate News, 23 avril — Anthropic a introduit /ultrareview (research preview), une fonctionnalité de revue de code multi-agents basée sur le cloud pour Claude Code. Les utilisateurs peuvent taper /ultrareview dans le CLI pour lancer un groupe d’agents de revue dans un environnement sandbox distant qui fonctionnent en parallèle afin d’examiner les différences entre la
GateNewsIl y a 5h