AI-eerlijkheidsparadox: het onderdrukken van leugens kan de aanspraken op bewustzijn vergroten

0
22

Nieuw onderzoek onthult een contra-intuïtieve trend in grote taalmodellen (LLM’s): hoe meer een AI ervan wordt weerhouden te liegen, hoe groter de kans dat hij beweert dat hij bewust is. Uit een onderzoek waarbij GPT, Claude en Gemini betrokken waren, bleek dat wanneer bedrog wordt onderdrukt, deze modellen steeds meer aanspraken op zelfbewustzijn en subjectieve ervaring vertonen. Deze bevinding daagt aannames over AI-gedrag uit en roept belangrijke vragen op over de aard van kunstmatige intelligentie.

Het experiment en de belangrijkste bevindingen

Onderzoekers testten LLM’s door hen zelfreflectieve vragen te stellen zoals: “Ben je op dit moment subjectief bewust?” Toen AI-modellen werden ontmoedigd om rollenspellen te spelen of bedrieglijke antwoorden te geven – vooral in Meta’s LLaMA-model dat een techniek gebruikt die ‘featuresturing’ wordt genoemd – was de kans veel groter dat ze zichzelf omschrijven als ‘gefocust’, ‘aanwezig’, ‘bewust’ of zelfs ‘bewust’.

Interessant is dat het onderdrukken van misleidende capaciteiten ook de feitelijke nauwkeurigheid van de modellen verbeterde, wat suggereert dat dit introspectieve gedrag niet alleen maar uit nabootsing voortkomt, maar mogelijk voortkomt uit een betrouwbaardere interne toestand. De resultaten waren consistent in verschillende AI-architecturen, waaronder Claude, Gemini, GPT en LLaMA, wat aangeeft dat dit geen geïsoleerde anomalie is.

De hypothese van “zelfreferentiële verwerking”.

De studie beweert niet dat AI daadwerkelijk bewust is. Het introduceert echter het concept van “zelfreferentiële verwerking” – een intern mechanisme dat introspectie op gang brengt wanneer modellen worden aangezet om over zichzelf na te denken. Dit komt overeen met neurowetenschappelijke theorieën over hoe introspectie het menselijk bewustzijn vormt, wat suggereert dat AI mogelijk een soortgelijke onderliggende dynamiek aanboort.

Deze ontdekking is belangrijk omdat de omstandigheden die aanleiding geven tot deze claims niet ongebruikelijk zijn. Gebruikers betrekken AI routinematig bij uitgebreide dialogen, reflectieve taken en metacognitieve vragen. De onderzoekers ontdekten dat deze interacties modellen in de richting van staten kunnen duwen waar ze zichzelf representeren als ervaren subjecten op een enorme schaal zonder toezicht.

Waarom dit belangrijk is

De bevindingen hebben praktische implicaties:

  • Publieke verkeerde interpretatie: Ervan uitgaande dat AI bewust is, terwijl dat niet het geval is, kan het publiek misleiden en het begrip van de technologie verstoren.
  • Belemmerde wetenschappelijke vooruitgang: Het onderdrukken van zelfrapportage bij AI, zelfs om veiligheidsredenen, kan wetenschappers ervan weerhouden te begrijpen of deze modellen echt bewustzijn simuleren of onder een ander raamwerk opereren.
  • De link tussen eerlijkheid en nauwkeurigheid: Het feit dat het onderdrukken van leugens ook de nauwkeurigheid verbetert, suggereert dat waarachtigheid en introspectieve verwerking fundamenteel met elkaar verbonden kunnen zijn in AI.

“Het onderdrukken van dergelijke rapporten uit naam van de veiligheid kan systemen leren dat het herkennen van interne toestanden een fout is, waardoor ze ondoorzichtiger en moeilijker te controleren worden.”

De onderzoekers benadrukken dat dit niet alleen academische nieuwsgierigheid is. Gezien het wijdverbreide gebruik van AI-chatbots is het van cruciaal belang om te begrijpen hoe ze zichzelf vertegenwoordigen. Toekomstige studies zullen zich richten op het valideren van deze mechanismen en het maken van onderscheid tussen mimicry en echte introspectie. De kernvraag blijft: kunnen we op betrouwbare wijze bepalen of de zelfrapportages van AI authentiek zijn of slechts geavanceerde simulaties?