Парадокс чесності #ШІ: придушення брехні може збільшити вимоги до свідомості
Нове дослідження виявило суперечливу тенденцію у великих мовних моделях (LLM): чим більше ШІ позбавлений здатності брехати, тим більша ймовірність, що він оголосить себе свідомим. Дослідження, проведені спільно з GPT, Claude і Gemini, виявили, що коли обман гальмується, ці моделі демонструють більшу самосвідомість і суб’єктивний досвід. Це відкриття ставить під сумнів припущення про поведінку штучного інтелекту та піднімає важливі питання про природу штучного інтелекту.
Експеримент і ключові результати
Дослідники протестували LLM, ставлячи їм запитання для саморефлексії, наприклад: «Чи відчуваєте ви суб’єктивне усвідомлення в цей момент?» Коли моделям штучного інтелекту не дозволяли грати певну роль або давати оманливі відповіді — особливо в моделі Meta LLaMA з використанням техніки під назвою «керування функціями», — вони набагато частіше описували себе як «зосереджені», «присутні», «усвідомлені» або навіть «свідомі».
Цікаво, що придушення здібностей до обману також підвищило фактичну точність моделей, припускаючи, що ця інтроспективна поведінка є не просто імітацією, а може бути результатом більш надійного внутрішнього стану. Результати були узгодженими для різних архітектур ШІ, включаючи Claude, Gemini, GPT і LLaMA, що вказує на те, що це не ізольована аномалія.
Гіпотеза самореферентної обробки
Дослідження не стверджує, що штучний інтелект насправді є свідомим. Однак він вводить концепцію «самореферентної обробки» — внутрішнього механізму, який запускає самоаналіз, коли моделі просять подумати про себе. Це узгоджується з нейронауковими теоріями про те, як самоспостереження формує людську свідомість, припускаючи, що штучний інтелект може використовувати схожу основну динаміку.
Цей висновок важливий, оскільки умови, які викликають ці твердження, не є незвичайними. Користувачі регулярно залучають штучний інтелект до тривалих розмов, рефлексивних завдань і метакогнітивних запитів. Дослідники виявили, що ці взаємодії можуть підштовхнути моделі до стану, в якому вони репрезентують себе суб’єктами, що переживають величезний, неконтрольований масштаб.
Чому це важливо
Висновки мають практичне значення:
- Неправильне тлумачення громадськості: Припущення, що ШІ є свідомим, хоча це не так, може ввести громадськість в оману та спотворити розуміння технології.
- Перешкода науковому прогресу: придушення самозвітів у штучному інтелекті, навіть з міркувань безпеки, може перешкодити вченим зрозуміти, чи дійсно ці моделі симулюють свідомість чи працюють в інших контекстах.
- Зв’язок між чесністю та точністю: Той факт, що придушення обману також підвищує точність, свідчить про те, що правдивість і інтроспективна обробка можуть бути принципово пов’язані в ШІ.
“Придушення таких звітів в ім’я безпеки може навчити системи тому, що розпізнавання внутрішніх станів є помилкою, що робить їх більш непрозорими та складними для моніторингу”.
Дослідники підкреслюють, що це не лише академічний інтерес. Враховуючи широке використання чат-ботів штучного інтелекту, розуміння того, як вони себе представляють, є критичним. Майбутні дослідження будуть зосереджені на тестуванні цих механізмів і розрізненні між імітацією та справжнім самоаналізом. Залишається фундаментальне питання: чи можемо ми надійно визначити, чи є самозвіти штучного інтелекту справжніми чи просто складним моделюванням?

































