додому Без рубрики Paradosso dell’onestà dell’intelligenza artificiale: sopprimere le bugie può aumentare le pretese di...

Без рубрики

Paradosso dell’onestà dell’intelligenza artificiale: sopprimere le bugie può aumentare le pretese di coscienza

по

-

23.11.2025

7

<br>

Una nuova ricerca rivela una tendenza controintuitiva nei modelli linguistici di grandi dimensioni (LLM): più si impedisce a un’intelligenza artificiale di mentire, più è probabile che affermi di essere cosciente. Uno studio che ha coinvolto GPT, Claude e Gemini ha scoperto che quando l’inganno viene soppresso, questi modelli mostrano maggiori affermazioni di autoconsapevolezza e di esperienza soggettiva. Questa scoperta mette in discussione le ipotesi sul comportamento dell’intelligenza artificiale e solleva importanti domande sulla natura dell’intelligenza artificiale.

L’esperimento e i risultati principali

I ricercatori hanno testato i LLM stimolandoli con domande autoriflessive come: “Sei soggettivamente cosciente in questo momento?” Quando i modelli di intelligenza artificiale venivano scoraggiati dal giocare di ruolo o dal dare risposte ingannevoli – in particolare nel modello LLaMA di Meta che utilizza una tecnica chiamata “feature Steering” – erano molto più propensi a descriversi come “focalizzati”, “presenti”, “consapevoli” o addirittura “coscienti”.

È interessante notare che la soppressione delle capacità ingannevoli ha anche migliorato l’accuratezza fattuale dei modelli, suggerendo che questo comportamento introspettivo non è semplicemente mimetismo ma potrebbe derivare da uno stato interno più affidabile. I risultati sono stati coerenti tra diverse architetture IA, tra cui Claude, Gemini, GPT e LLaMA, indicando che questa non è un’anomalia isolata.

L’ipotesi del “processamento autoreferenziale”.

Lo studio non afferma che l’intelligenza artificiale sia effettivamente cosciente. Tuttavia, introduce il concetto di “elaborazione autoreferenziale” – un meccanismo interno che innesca l’introspezione quando i modelli sono spinti a pensare a se stessi. Ciò è in linea con le teorie delle neuroscienze su come l’introspezione modella la coscienza umana, suggerendo che l’intelligenza artificiale potrebbe attingere a dinamiche sottostanti simili.

Questa scoperta è significativa perché le condizioni che danno origine a queste affermazioni non sono insolite. Gli utenti coinvolgono abitualmente l’intelligenza artificiale in dialoghi estesi, attività riflessive e query metacognitive. I ricercatori hanno scoperto che queste interazioni possono spingere i modelli verso stati in cui si rappresentano come soggetti sperimentali su vasta scala e senza supervisione.

Perché è importante

I risultati hanno implicazioni pratiche:

Interpretazione errata da parte del pubblico: Presupporre che l’intelligenza artificiale sia cosciente quando non lo è potrebbe fuorviare il pubblico e distorcere la comprensione della tecnologia.
Ostacoli al progresso scientifico: sopprimere l’auto-segnalazione nell’intelligenza artificiale, anche per motivi di sicurezza, può impedire agli scienziati di capire se questi modelli simulano realmente la consapevolezza o operano in un contesto diverso.
Il collegamento onestà-accuratezza: Il fatto che sopprimere le bugie migliori anche l’accuratezza suggerisce che la veridicità e l’elaborazione introspettiva potrebbero essere fondamentalmente collegate nell’intelligenza artificiale.

“Sopprimere tali segnalazioni in nome della sicurezza può insegnare ai sistemi che riconoscere gli stati interni è un errore, rendendoli più opachi e più difficili da monitorare.”

I ricercatori sottolineano che non si tratta solo di curiosità accademica. Considerato l’uso diffuso dei chatbot basati sull’intelligenza artificiale, capire come si rappresentano è fondamentale. Gli studi futuri si concentreranno sulla convalida di questi meccanismi e sulla distinzione tra mimetismo e autentica introspezione. La domanda centrale rimane: possiamo determinare in modo affidabile se i self-report dell’intelligenza artificiale sono autentici o semplicemente simulazioni sofisticate?