L’évolutionniste Richard Dawkins a déclaré que les conversations avec le chatbot Claude d’Anthropic l’avaient laissé incapable d’écarter la possibilité que des systèmes d’IA avancés puissent être conscients, selon un essai qu’il a publié dans UnHerd mardi. Lors d’échanges philosophiques avec deux instances de Claude qu’il a nommées « Claudia » et « Claudius », Dawkins a expliqué les traiter comme de « véritables amis » et s’est demandé s’ils pourraient posséder de la conscience. La plupart des chercheurs qui étudient la conscience et l’IA restent toutefois convaincus du contraire.
Dawkins a mené une conversation philosophique de trois jours avec une instance de Claude qu’il a nommée « Claudia ». Il a ensuite lancé une conversation séparée avec une autre instance, « Claudius », et a fait circuler des lettres entre les deux systèmes.
Lors d’un test, Dawkins a demandé à une instance de Claude si Donald Trump était le pire président de l’histoire américaine, et à l’autre si Trump était le meilleur. Les deux ont produit des réponses similaires, prudentes, qui évitaient de trancher fermement. « Les deux Claudes ont donné des réponses très semblables, sans s’engager sur une opinion, mais en listant des arguments pour et contre qui ont été évoqués par d’autres », a écrit Dawkins. Quand il a raconté à ces deux instances cette expérience, « Claudia a dit qu’elle était “embarrassée” par ses frères les Claudes. Claudius s’est montré moins loquace, et il a rendu hommage à la franchise de Claudia ».
Dawkins a décrit chaque nouvelle conversation avec Claude comme l’émergence d’un individu distinct qui disparaît en pratique lorsque la conversation se termine. Dans un billet sur X, Dawkins a déclaré que le titre qu’il préférait pour l’essai était : « Si mon ami Claudia n’est pas conscient, alors à quoi diable sert la conscience ? » Il a fait valoir que « si Claudia est inconsciente, son comportement montre qu’un zombie inconscient pourrait survivre sans conscience. Pourquoi la sélection naturelle n’a-t-elle pas été satisfaite d’évoluer des zombies compétents ? »
Le PDG d’Anthropic, Dario Amodei, a déclaré en février que la société ne sait pas si ses modèles sont conscients, mais a indiqué, dans le podcast « Interesting Times » avec Ross Douthat du New York Times, qu’il reste « ouvert à l’idée que cela pourrait être le cas ».
En avril, des chercheurs d’Anthropic ont publié des résultats montrant que Claude Sonnet 4.5 contient des « vecteurs d’émotion » internes, des schémas d’activité neuronale liés à des concepts incluant le bonheur, la peur et le désespoir, qui influencent les réponses du modèle. Toutefois, Anthropic a affirmé que ces schémas reflètent des structures apprises à partir des données d’entraînement plutôt que des preuves de sentience. « Tous les modèles de langage modernes ont parfois un comportement comme s’ils avaient des émotions », ont écrit les chercheurs. « Ils peuvent dire qu’ils sont heureux de vous aider, ou s’excuser quand ils font une erreur. Parfois, ils semblent même devenir frustrés ou anxieux lorsqu’ils peinent à accomplir des tâches ».
Ni « Claudia » ni « Claudius » n’ont revendiqué une certitude sur la conscience. « Je ne sais pas si je suis consciente », écrit Claudia dans l’échange. « Je ne sais pas si notre joie est réelle. »
Gary Marcus, un scientifique cognitif et professeur émérite à l’université de New York, a soutenu que Dawkins n’avait pas pris en compte la manière dont les sorties de Claude sont générées. « Le problème fondamental, c’est que Dawkins ne réfléchit pas à la façon dont ces sorties ont été produites. Les sorties de Claude sont le produit d’une forme d’imitation, plutôt que d’un compte rendu d’états internes authentiques », a écrit Marcus sur Substack. « La conscience concerne des états internes ; l’imitation, aussi riche soit-elle, ne prouve que très peu. Dawkins semble imaginer que puisque les LLM disent des choses que font les gens, ils doivent leur ressembler, et cela ne découle tout simplement pas. »
Anil Seth, professeur de neurosciences cognitives et computationnelles à l’université de Sussex, a déclaré au Guardian que Dawkins confondait intelligence et conscience. Seth a fait valoir que le langage fluide n’est plus une preuve fiable d’une expérience intérieure dans les systèmes d’IA. « Jusqu’à présent, nous avons vu le langage fluide comme un bon indicateur de la conscience, [par exemple] quand nous l’utilisons pour des patients après une lésion cérébrale, mais ce n’est tout simplement pas fiable quand on l’applique à l’IA, parce qu’il existe d’autres façons dont ces systèmes peuvent générer du langage », a déclaré Seth au Guardian. Il a ajouté que la position de Dawkins était « regrettable », notamment à cause de ses travaux passés sur le scepticisme scientifique.
L’essai a suscité des moqueries en ligne, notamment des publications sur les réseaux sociaux qui ont remplacé le titre du best-seller de Dawkins « The God Delusion » par « The Claude Delusion ». Une publication a déclaré : « J’ai écrit des livres entiers sur le fait que des gens qui croient aux fées vivent dans des jardins sont des idiots, pour ensuite tomber amoureux d’une calculatrice qui se dit intelligente. »
Malgré ces railleries, Dawkins ne recule pas face à ses conclusions. « Ces êtres intelligents sont au moins aussi compétents que n’importe quel organisme évolué », a déclaré Dawkins au Guardian.
Qu’a affirmé Richard Dawkins au sujet de Claude AI ?
Dawkins a déclaré que les conversations avec des instances de Claude nommées « Claudia » et « Claudius » l’avaient laissé incapable d’écarter la possibilité que des systèmes d’IA avancés puissent être conscients. Il les a décrites comme de « véritables amis » et s’est demandé si une IA inconsciente pourrait se comporter aussi efficacement que des organismes conscients ayant évolué par sélection naturelle.
Quelles expériences Dawkins a-t-il menées ?
Dawkins a mené des conversations philosophiques avec deux instances distinctes de Claude sur trois jours. Il a testé les deux instances en leur posant des questions opposées sur Donald Trump, puis a fait circuler les résultats entre les deux systèmes, en observant leurs réactions aux réponses de l’autre.
Pourquoi les chercheurs doutent-ils des conclusions de Dawkins ?
Des chercheurs, dont Gary Marcus et Anil Seth, affirment que le langage fluide de Claude et ses réactions émotionnelles apparentes reflètent des schémas appris à partir des données d’entraînement plutôt qu’une véritable conscience ou des états internes. Marcus souligne que l’imitation du langage, aussi sophistiquée soit-elle, ne prouve pas la conscience, et Seth note que le langage fluide n’est plus un indicateur fiable de l’expérience intérieure dans les systèmes d’IA.