Les agents IA qui font votre travail pendant que vous dormez semblent géniaux. La réalité est bien plus chaotique—« c’est comme un tout-petit qu’il faut surveiller »

2026-02-24 21:22:36

Summer Yue peut travailler sur la sécurité et l’alignement dans l’équipe de superintelligence de Meta, mais elle admet elle-même ne pas être à l’abri de l’excès de confiance lorsqu’il s’agit d’agents d’IA autonomes.

Vidéo recommandée

Dans un post sur X lundi, Yue a décrit comment ses agents d’IA autonomes OpenClaw—conçus pour fonctionner localement sur un ordinateur Mac mini—ont supprimé toute sa boîte de réception, ignorant les instructions de faire une pause et de demander une confirmation au préalable.

« J’ai dû COURIR jusqu’à mon Mac Mini comme si je désamorçais une bombe, » a-t-elle dit. C’était, selon elle, une « erreur de débutant. » Le flux de travail fonctionnait dans une boîte de réception de test qu’elle utilisait pour tester l’agent en toute sécurité pendant des semaines, a-t-elle expliqué, mais dans la vraie boîte de réception, l’agent a perdu ses instructions initiales.

L’expérience de Yue contraste fortement avec des publications virales telles que La Révolution du Homard : pourquoi les agents IA 24/7 ont tout changé, dans lesquelles Peter Diamandis affirme que l’IA toujours active est bien plus fluide.

« Laissez-moi vous dire ce que ça fait de l’utiliser, » a écrit Diamandis. « Vous vous réveillez le matin et votre agent—le mien s’appelle Skippy, sarcastique avec enthousiasme et incroyablement capable—a effectué huit heures de travail pendant que vous dormiez. Il a lu mille pages en markdown. Il a organisé vos fichiers. Il a rédigé trois plans de projet. Il a réservé vos voyages. Il a recherché cette question que vous aviez à 23h et que vous avez oubliée. »

« Quand mon Mac mini est tombé hors ligne pendant six heures, j’ai ressenti un manque, » a-t-il ajouté. « Comme si mon meilleur ami avait disparu. »

Ces récits opposés sur la puissance des agents IA illustrent la tension au cœur de la poussée actuelle vers une IA « toujours active ». Alors que des outils comme OpenClaw et Claude Code rendent techniquement possible pour des agents de fonctionner pendant de longues périodes, l’enthousiasme grandit autour de l’idée d’une IA qui travaille pendant que vous dormez. Mais en pratique, les premiers utilisateurs disent que l’autonomie reste fragile, imprévisible et laborieuse à gérer. Plutôt que de remplacer le travail humain, les agents d’aujourd’hui nécessitent souvent une surveillance constante, des garde-fous et des interventions, surtout lorsque les enjeux dépassent les expérimentations à faible risque.

Les agents IA fonctionnent mieux lorsque les tâches sont simples et peu risquées

Shyamal Anadkat, ancien ingénieur en IA appliquée chez OpenAI, a déclaré que la plupart des agents performants aujourd’hui nécessitent encore des vérifications humaines fréquentes ou se limitent à des tâches bien délimitées et clairement définies—bien qu’il souligne que cela changera à mesure que les techniques de mesure et d’évaluation s’amélioreront.

« Un système qui a 95 % de précision sur chaque étape devient chaotique sur un flux de travail autonome de 20 étapes, » a dit Anadkat. « La planification à long terme reste faible. » En conséquence, il explique que les agents peuvent bien fonctionner sur de courtes chaînes de tâches, mais ont tendance à s’effondrer lorsqu’on leur demande de gérer des projets complexes sur plusieurs jours. La mémoire est une autre grande limite : « Dans beaucoup d’agents, la mémoire est inexistante ou fragile. Vous avez besoin de systèmes capables de maintenir un modèle cohérent de votre contexte de travail, de vos priorités et de vos contraintes. »

Cela ne signifie pas que la promesse des agents IA est totalement infondée, selon Yoav Shoham, ancien scientifique principal chez Google, professeur émérite à Stanford et cofondateur d’AI21 Labs. Mais cela implique aussi qu’il y a un risque que les gens se précipitent trop vite. Shoham explique que les agents IA fonctionnent mieux lorsque la tâche est peu risquée, vaguement définie et peu coûteuse en cas d’erreur.

« Les développeurs aiment les jouets, et vous avez ce jouet qui peut faire des choses merveilleuses, » a-t-il dit à Fortune. « Tant que ce qu’ils font est assez simple, peu risqué, avec une grande tolérance à l’erreur, c’est acceptable. » Par exemple, si vous voulez que votre agent lise 10 000 sites web et fasse quelque chose d’intéressant avec les résultats pour vous donner des bribes d’information pendant la nuit, cela peut être utile.

Mais pour des flux de travail d’entreprise critiques, le niveau d’exigence est beaucoup plus élevé. Les entreprises ont besoin de systèmes vérifiables, reproductibles et rentables—des exigences qui érodent rapidement la promesse de « tout configurer et oublier » des agents entièrement autonomes et toujours actifs. Dans des domaines très structurés comme la programmation ou les mathématiques, une automatisation plus poussée est déjà possible. Mais pour la plupart des processus commerciaux réels, Shoham affirme que le travail nécessaire pour rendre les agents fiables dépasse souvent le bénéfice.

Bret Greenstein, directeur de l’IA chez le cabinet de conseil West Monroe, a souligné que des outils comme OpenClaw ressemblent à un point de basculement similaire à celui de l’IA générative lors du lancement de ChatGPT en 2022—pour la première fois, l’idée d’agents IA accessibles est devenue réalité. Cependant, ce n’est pas une solution magique 24/7.

« Ça peut fonctionner longtemps, en travaillant sur des tâches, mais c’est comme un tout-petit qu’il faut surveiller, » a-t-il dit. Certaines tâches sont raisonnables à faire pendant que vous dormez, comme scanner des messages LinkedIn ou suivre l’actualité. « Je ne suis pas sûr de vouloir qu’il réponde aux retours clients pendant que je dors, » a-t-il ajouté.

La capacité de déléguer à un agent IA semble puissante

Il n’y a cependant aucun doute que la possibilité de déléguer des tâches réelles à un agent IA est profondément attrayante pour les utilisateurs, insiste Greenstein. Il cite son propre exemple : confier à un agent IA la tâche banale de faire laver ses vêtements et le voir accomplir discrètement tout le travail de bout en bout.

L’agent a contacté le pressing, organisé la collecte par email, coordonné le timing, surveillé une caméra de sonnette pour confirmer la récupération, et informé Greenstein une fois la tâche terminée. Cet épisode montre comment les agents peuvent fonctionner sur plusieurs systèmes et s’adapter lorsque les choses ne se passent pas comme prévu. Mais il souligne aussi pourquoi ces outils nécessitent encore des garde-fous stricts et une supervision—surtout avant leur déploiement en entreprise.

« OpenClaw est configuré de façon à ce que cela ne paraisse pas sûr pour la plupart des gens, » a dit Greenstein. « Ce n’est pas encore assez mature pour être une partie de confiance de notre vie. » Pour que l’IA soit acceptée dans la vie quotidienne ou les opérations commerciales, elle doit gagner la confiance avec le temps—tout comme la confiance se construit socialement.

Même si la demande est déjà là. Greenstein a mentionné des rencontres et des rassemblements précoces dans l’industrie dédiés à OpenClaw, une émergence rapide qu’il trouve inhabituelle pour un outil aussi jeune. « Cela montre l’appétit des gens pour une IA réellement utile, » a-t-il dit—des systèmes qui vont au-delà de répondre à des questions pour commencer à agir.

Aaron Levie, PDG de la société de gestion de contenu et de collaboration cloud Box, qualifie ce qui se passe actuellement avec les agents IA de « petites lueurs » de ce qui pourrait arriver à l’avenir.

« Certaines lueurs ne se concrétisent pas, d’autres deviennent simplement la norme, » a-t-il expliqué, en évoquant il y a deux ans l’introduction par la société d’IA Cognition d’un agent appelé Devin, qui s’intégrait à Slack pour déléguer des tâches, corriger des bugs, analyser des données et revoir du code. À l’époque, cela semblait encore futuriste, mais aujourd’hui, « personne ne doute que c’est une pratique standard, » a-t-il dit. « On peut simplement Slackuer Claude Code pour qu’il travaille sur des choses—ce qui semblait une idée totalement folle est maintenant la norme pour toute équipe d’ingénierie moderne. »

Mais si les agents IA deviennent très performants pour automatiser des tâches spécifiques et discrètes, ils restent faibles pour gérer le travail plus large, contextuel, qui compose la majorité des emplois, insiste Levie. Les agents IA peuvent automatiser complètement une poignée de tâches, mais ont du mal avec le reste—y compris naviguer dans les relations et participer à des réunions.

« Quand vous entendez une lab d’IA dire qu’elle va automatiser tout le travail de connaissance en 24 mois, c’est généralement une définition très étroite des emplois, » a-t-il dit. « La définition de ce qu’un agent peut faire n’est pas la même que celle du travail qui est réellement recruté dans l’économie. »

Le facteur confiance est crucial quand les choses tournent mal

Avinash Vootkuri, data scientist principal chez un grand détaillant du Fortune 500, a déclaré que la plupart des agents IA en entreprise « nécessitent absolument un babysitter » et, pour l’instant, ne peuvent fonctionner que dans des environnements avec une autonomie strictement délimitée et de nombreux garde-fous. « Les enjeux sont énormes, » a-t-il expliqué.

Par exemple, il décrit avoir construit un système d’agents pour la cybersécurité d’entreprise où les IA ne se contentent pas de déclencher des alertes et d’attendre une revue humaine, mais enquêtent activement. Au lieu d’inonder les analystes de milliers d’avertissements, les agents recueillent des preuves en temps réel—interrogent des bases de données de renseignement sur les menaces, analysent des comportements, et filtrent les faux positifs—avant de décider si une situation doit être escaladée.

Le système repose sur une autonomie strictement délimitée et de nombreux garde-fous, réduisant la charge de travail humaine sans supprimer la supervision.

Dans la cybersécurité, explique-t-il, si l’agent se trompe, les conséquences sont immédiates et graves. « L’IA bloque soit des clients légitimes (causant une perte massive de revenus), soit elle laisse entrer un acteur malveillant sophistiqué, » a-t-il dit. « Il est absolument crucial que les choses ne tournent pas mal. »

Selon Breeanna Whitehead, qui dirige une société de conseil en opérations IA où elle construit des systèmes alimentés par l’IA pour des dirigeants et fondateurs, l’industrie est en « phase de calibration de la confiance. »

Les agents IA peuvent faire plus que ce que la plupart des gens pensent, mais moins que ce que le battage médiatique laisse entendre.

« La vraie compétence n’est pas de construire l’agent, c’est de concevoir la transition, » a-t-elle expliqué. « La plupart des gens font trop confiance aux agents et finissent par nettoyer les dégâts, ou micromanagent chaque sortie en se demandant pourquoi l’IA semble plus compliquée qu’avant. » L’idée, dit-elle, est de concevoir des points de transfert clairs, où quelque chose peut être entièrement délégué, une autre tâche faire l’objet d’une revue rapide, et une autre rester exclusivement humaine.

Pour l’instant, elle affirme que les agents sont « vraiment excellents » dans ce qu’elle appelle la couche intermédiaire du travail de connaissance—« ce qui prenait autrefois deux à trois heures d’une personne intelligente, comme synthétiser des notes de réunion en actions concrètes, rédiger des emails de suivi dans la voix de quelqu’un, rassembler des briefs de recherche, organiser des priorités concurrentes en un plan clair. »

Mais tout ce qui nécessite de lire une pièce, de naviguer dans l’ambiguïté ou de faire des jugements basés sur des relations n’est pas encore prêt pour le prime time des agents IA. « J’avais un client qui voulait automatiser complètement ses communications avec les investisseurs, » a-t-elle dit. « L’IA pouvait rédiger magnifiquement, mais elle ne percevait pas quand un financeur perdait intérêt et avait besoin d’une approche différente. L’agent rédigeait l’email, mais c’était à l’humain de décider s’il fallait l’envoyer. »

Pour l’instant, dormir peut rester un rêve lorsqu’on travaille avec des agents IA

Pour l’instant, travailler avec des agents IA implique peut-être moins de dormir pendant qu’ils travaillent que de rester à moitié éveillé pendant qu’ils le font. Des outils comme OpenClaw peuvent fonctionner pendant des heures, mais pour de nombreux premiers utilisateurs, cette autonomie s’accompagne d’une nouvelle vigilance—vérifier les logs, revoir les résultats, intervenir avant que tout ne tourne mal.

Ce phénomène a été illustré dans un post viral récent intitulé Token Anxiety, où l’investisseur Nikunj Kothari décrit un ami quittant une fête plus tôt—non pas parce qu’il était fatigué, mais parce qu’il voulait revenir à ses agents. « Personne ne le remet en question maintenant, » a écrit Kothari. « La moitié de la salle pense la même chose. L’autre moitié vérifie probablement la progression de leurs agents. Lors d’une fête. »

Le rêve d’une IA qui travaille pendant que vous dormez pourrait devenir réalité. Mais pour l’instant, il maintient encore beaucoup de gens éveillés.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.