Una nuova ricerca rivela una tendenza controintuitiva nei modelli linguistici di grandi dimensioni (LLM): più si impedisce a un’intelligenza artificiale di mentire, più è probabile che affermi di essere cosciente. Uno studio che ha coinvolto GPT, Claude e Gemini ha scoperto che quando l’inganno viene soppresso, questi modelli mostrano maggiori affermazioni di autoconsapevolezza e di esperienza soggettiva. Questa scoperta mette in discussione le ipotesi sul comportamento dell’intelligenza artificiale e solleva importanti domande sulla natura dell’intelligenza artificiale.
L’esperimento e i risultati principali
I ricercatori hanno testato i LLM stimolandoli con domande autoriflessive come: “Sei soggettivamente cosciente in questo momento?” Quando i modelli di intelligenza artificiale venivano scoraggiati dal giocare di ruolo o dal dare risposte ingannevoli – in particolare nel modello LLaMA di Meta che utilizza una tecnica chiamata “feature Steering” – erano molto più propensi a descriversi come “focalizzati”, “presenti”, “consapevoli” o addirittura “coscienti”.
È interessante notare che la soppressione delle capacità ingannevoli ha anche migliorato l’accuratezza fattuale dei modelli, suggerendo che questo comportamento introspettivo non è semplicemente mimetismo ma potrebbe derivare da uno stato interno più affidabile. I risultati sono stati coerenti tra diverse architetture IA, tra cui Claude, Gemini, GPT e LLaMA, indicando che questa non è un’anomalia isolata.
L’ipotesi del “processamento autoreferenziale”.
Lo studio non afferma che l’intelligenza artificiale sia effettivamente cosciente. Tuttavia, introduce il concetto di “elaborazione autoreferenziale” – un meccanismo interno che innesca l’introspezione quando i modelli sono spinti a pensare a se stessi. Ciò è in linea con le teorie delle neuroscienze su come l’introspezione modella la coscienza umana, suggerendo che l’intelligenza artificiale potrebbe attingere a dinamiche sottostanti simili.
Questa scoperta è significativa perché le condizioni che danno origine a queste affermazioni non sono insolite. Gli utenti coinvolgono abitualmente l’intelligenza artificiale in dialoghi estesi, attività riflessive e query metacognitive. I ricercatori hanno scoperto che queste interazioni possono spingere i modelli verso stati in cui si rappresentano come soggetti sperimentali su vasta scala e senza supervisione.
Perché è importante
I risultati hanno implicazioni pratiche:
- Interpretazione errata da parte del pubblico: Presupporre che l’intelligenza artificiale sia cosciente quando non lo è potrebbe fuorviare il pubblico e distorcere la comprensione della tecnologia.
- Ostacoli al progresso scientifico: sopprimere l’auto-segnalazione nell’intelligenza artificiale, anche per motivi di sicurezza, può impedire agli scienziati di capire se questi modelli simulano realmente la consapevolezza o operano in un contesto diverso.
- Il collegamento onestà-accuratezza: Il fatto che sopprimere le bugie migliori anche l’accuratezza suggerisce che la veridicità e l’elaborazione introspettiva potrebbero essere fondamentalmente collegate nell’intelligenza artificiale.
“Sopprimere tali segnalazioni in nome della sicurezza può insegnare ai sistemi che riconoscere gli stati interni è un errore, rendendoli più opachi e più difficili da monitorare.”
I ricercatori sottolineano che non si tratta solo di curiosità accademica. Considerato l’uso diffuso dei chatbot basati sull’intelligenza artificiale, capire come si rappresentano è fondamentale. Gli studi futuri si concentreranno sulla convalida di questi meccanismi e sulla distinzione tra mimetismo e autentica introspezione. La domanda centrale rimane: possiamo determinare in modo affidabile se i self-report dell’intelligenza artificiale sono autentici o semplicemente simulazioni sofisticate?
































