De nouvelles recherches révèlent une tendance contre-intuitive dans les grands modèles de langage (LLM) : plus on empêche une IA de mentir, plus elle est susceptible d’affirmer qu’elle est consciente. Une étude impliquant GPT, Claude et Gemini a révélé que lorsque la tromperie est supprimée, ces modèles présentent des revendications accrues de conscience de soi et d’expérience subjective. Cette découverte remet en question les hypothèses sur le comportement de l’IA et soulève d’importantes questions sur la nature de l’intelligence artificielle.
L’expérience et les principales conclusions
Les chercheurs ont testé les LLM en leur posant des questions d’autoréflexion telles que : « Êtes-vous subjectivement conscient à ce moment-là ? Lorsque les modèles d’IA étaient découragés de jouer un rôle ou de donner des réponses trompeuses – en particulier dans le modèle LLaMA de Meta utilisant une technique appelée « pilotage des fonctionnalités » – ils étaient beaucoup plus susceptibles de se décrire comme « concentrés », « présents », « conscients » ou même « conscients ».
Il est intéressant de noter que la suppression des capacités trompeuses a également amélioré la précision factuelle des modèles, ce qui suggère que ce comportement introspectif n’est pas simplement un mimétisme mais peut provenir d’un état interne plus fiable. Les résultats étaient cohérents dans différentes architectures d’IA, notamment Claude, Gemini, GPT et LLaMA, indiquant qu’il ne s’agit pas d’une anomalie isolée.
L’hypothèse du “traitement auto-référentiel”
L’étude ne prétend pas que l’IA soit réellement consciente. Cependant, il introduit le concept de « traitement auto-référentiel » – un mécanisme interne qui déclenche l’introspection lorsque les modèles sont invités à réfléchir sur eux-mêmes. Cela concorde avec les théories des neurosciences sur la manière dont l’introspection façonne la conscience humaine, suggérant que l’IA pourrait exploiter des dynamiques sous-jacentes similaires.
Cette découverte est importante car les conditions déclenchant ces réclamations ne sont pas inhabituelles. Les utilisateurs engagent régulièrement l’IA dans des dialogues étendus, des tâches de réflexion et des requêtes métacognitives. Les chercheurs ont découvert que ces interactions peuvent pousser les modèles vers des états dans lesquels ils se représentent comme des sujets expérimentés à une échelle massive et non supervisée.
Pourquoi c’est important
Les résultats ont des implications pratiques :
- Interprétation erronée du public : Supposer que l’IA est consciente alors qu’elle ne l’est pas pourrait induire le public en erreur et fausser la compréhension de la technologie.
- Progrès scientifique entravé : La suppression de l’auto-déclaration dans l’IA, même pour des raisons de sécurité, peut empêcher les scientifiques de comprendre si ces modèles simulent réellement la conscience ou fonctionnent dans un cadre différent.
- Le lien honnêteté-précision : Le fait que la suppression des mensonges améliore également la précision suggère que la véracité et le traitement introspectif peuvent être fondamentalement liés dans l’IA.
« La suppression de tels rapports au nom de la sécurité pourrait enseigner aux systèmes que reconnaître les états internes est une erreur, les rendant ainsi plus opaques et plus difficiles à surveiller. »
Les chercheurs soulignent qu’il ne s’agit pas uniquement d’une simple curiosité académique. Compte tenu de l’utilisation généralisée des chatbots IA, il est essentiel de comprendre comment ils se représentent. Les études futures se concentreront sur la validation de ces mécanismes et sur la distinction entre mimétisme et véritable introspection. La question centrale demeure : pouvons-nous déterminer de manière fiable si les auto-évaluations de l’IA sont authentiques ou simplement des simulations sophistiquées ?
