OpenAI a annoncé l’acquisition de la plateforme de sécurité AI Promptfoo, intégrant sa technologie à la plateforme Frontier, afin d’offrir aux entreprises des tests de red team automatisés et une protection contre les vulnérabilités lors du déploiement d’agents IA.
(Précédent contexte : Sam Altman est-il méprisable ? Juste après que Anthropic, récemment banni par le Pentagone, ait appelé à ce qu’OpenAI décroche un contrat avec le Département de la Défense américain)
(Informations complémentaires : Le Wall Street Journal a révélé : Trump aurait utilisé Claude AI pour cibler le Guide Spirituel iranien Khamenei, et OpenAI aurait pris le contrôle total des systèmes du Pentagone)
OpenAI a annoncé hier (le 9) l’acquisition de Promptfoo, une startup fondée en 2024 spécialisée dans les tests de vulnérabilité et les exercices de red team pour les grands modèles de langage (LLM), une forme de simulation de comportements de hackers réels pour la défense en cybersécurité.
Alors que l’IA évolue du simple chatbot à un « collègue IA » doté de capacités d’exécution, la question de comment empêcher ces agents d’être jailbreakés ou de transmettre accidentellement des données sensibles est devenue un défi central pour les entreprises qui déploient à grande échelle.
Selon l’annonce officielle d’OpenAI, la technologie de Promptfoo sera profondément intégrée à la plateforme d’entreprise Frontier, lancée en février 2026, pour soutenir les entreprises qui créent des agents sur Frontier :
Selon l’annonce, les outils open source de Promptfoo sont déjà adoptés par plus de 25 % des entreprises du Fortune 500, avec 350 000 utilisateurs développeurs. Cette équipe de seulement 23 personnes a levé 23 millions de dollars en financement, et après la dernière levée de fonds en juillet 2025, sa valorisation atteint 86 millions de dollars.
Les fondateurs de Promptfoo, Ian Webster et Michael D’Angelo, dirigeront toute l’équipe pour rejoindre OpenAI.
En résumé, l’agent IA évolue progressivement d’un « étudiant cherchant des informations » à un « assistant qui agit en ton nom avec ta signature ».
Ce changement fait passer le risque d’une fuite d’informations à un contrôle défaillant des actions. Lorsqu’on donne à l’IA l’autonomie pour exécuter des tâches, le danger n’est plus seulement qu’elle fasse des erreurs de langage, mais qu’elle déforme l’intention, ou qu’un hacker la manipule via des instructions cachées, pour effectuer des actions irréversibles comme des transferts d’argent erronés ou la suppression de fichiers critiques.
Dans un environnement où plusieurs IA collaborent, une erreur logique d’un agent peut déclencher une réaction en chaîne catastrophique.
Ainsi, la sécurité à l’ère des agents ne consiste pas à bloquer l’information, mais à « surveiller les comportements ». Il faut, comme pour gérer des employés, définir des limites claires de permissions et des mécanismes de vérification pour l’IA. Ce n’est qu’en rendant les actions de l’IA traçables en temps réel et ses permissions précises que cette puissance d’automatisation, si redoutable, ne deviendra pas la porte dérobée la plus difficile à défendre pour l’entreprise.