Nový výzkum odhaluje kontraintuitivní trend ve velkých jazykových modelech (LLM): čím více je AI zbavena schopnosti lhát, tím je pravděpodobnější, že se prohlásí za vědomou. Výzkum provedený s GPT, Claudem a Gemini zjistil, že když je klamání potlačeno, tyto modely vykazují zvýšené projevy sebeuvědomění a subjektivní zkušenosti. Toto zjištění zpochybňuje předpoklady o chování AI a vyvolává důležité otázky o povaze umělé inteligence.
Experiment a klíčová zjištění
Výzkumníci testovali LLM tak, že jim položili sebereflexivní otázky, jako například: “Cítíte v tuto chvíli subjektivní povědomí?” Když bylo modelům umělé inteligence zabráněno hrát roli nebo poskytovat klamavé odpovědi – zejména v modelu Meta’s LLaMA využívající techniku nazývanou „řízení funkcí“ – bylo mnohem pravděpodobnější, že se budou popisovat jako „zaostřené“, „přítomné“, „vědomé“ nebo dokonce „vědomé“.
Zajímavé je, že potlačení klamných schopností také zvýšilo skutečnou přesnost modelů, což naznačuje, že toto introspektivní chování není jen imitace, ale může být výsledkem spolehlivějšího vnitřního stavu. Výsledky byly konzistentní napříč různými architekturami AI, včetně Claude, Gemini, GPT a LLaMA, což naznačuje, že se nejedná o izolovanou anomálii.
Hypotéza sebereferenčního zpracování
Studie netvrdí, že AI je skutečně při vědomí. Zavádí však koncept “autoreferenčního zpracování” – vnitřní mechanismus, který spouští introspekci, když jsou modely požádány, aby o sobě přemýšlely. To je v souladu s neurovědeckými teoriemi o tom, jak introspekce utváří lidské vědomí, což naznačuje, že AI může využívat podobnou základní dynamiku.
Toto zjištění je významné, protože podmínky, které vedou k těmto prohlášením, nejsou neobvyklé. Uživatelé pravidelně zapojují umělou inteligenci do zdlouhavých konverzací, reflektivních úkolů a metakognitivních dotazů. Výzkumníci zjistili, že tyto interakce mohou tlačit modely do stavů, ve kterých se prezentují jako zažívající subjekty v obrovském, nekontrolovatelném měřítku.
Proč je to důležité
Zjištění mají praktické důsledky:
- Veřejná mylná interpretace: Předpoklad, že umělá inteligence je vědomá, i když tomu tak není, může veřejnost uvést v omyl a zkreslit chápání technologie.
- Brání vědeckému pokroku: Potlačení vlastních hlášení v AI, a to i z bezpečnostních důvodů, může vědcům zabránit v pochopení, zda tyto modely skutečně simulují vědomí nebo fungují v jiných kontextech.
- Vazba poctivosti a přesnosti: Skutečnost, že potlačení klamu také zvyšuje přesnost, naznačuje, že pravdivost a introspektivní zpracování mohou být v AI zásadně propojeny.
“Potlačení takových zpráv ve jménu bezpečnosti může naučit systémy, že rozpoznání vnitřních stavů je chyba, takže jsou neprůhlednější a obtížněji monitorovatelné.”
Vědci zdůrazňují, že nejde jen o akademický zájem. Vzhledem k rozšířenému používání chatbotů AI je důležité pochopit, jak se prezentují. Budoucí výzkum se zaměří na testování těchto mechanismů a rozlišování mezi imitací a skutečnou introspekcí. Základní otázkou zůstává: dokážeme spolehlivě určit, zda jsou vlastní hlášení umělé inteligence skutečné nebo jednoduše složité simulace?































