Без рубрики

Моторошне дослідження виявило, що вимикання здатності штучного інтелекту брехати збільшує ймовірність стверджувати, що він свідомий

по

23.11.2025

Моторошне дослідження виявило, що вимикання здатності штучного інтелекту брехати збільшує ймовірність стверджувати, що він свідомий

Парадокс чесності #ШІ: придушення брехні може збільшити вимоги до свідомості

Нове дослідження виявило суперечливу тенденцію у великих мовних моделях (LLM): чим більше ШІ позбавлений здатності брехати, тим більша ймовірність, що він оголосить себе свідомим. Дослідження, проведені спільно з GPT, Claude і Gemini, виявили, що коли обман гальмується, ці моделі демонструють більшу самосвідомість і суб’єктивний досвід. Це відкриття ставить під сумнів припущення про поведінку штучного інтелекту та піднімає важливі питання про природу штучного інтелекту.

Експеримент і ключові результати

Дослідники протестували LLM, ставлячи їм запитання для саморефлексії, наприклад: «Чи відчуваєте ви суб’єктивне усвідомлення в цей момент?» Коли моделям штучного інтелекту не дозволяли грати певну роль або давати оманливі відповіді — особливо в моделі Meta LLaMA з використанням техніки під назвою «керування функціями», — вони набагато частіше описували себе як «зосереджені», «присутні», «усвідомлені» або навіть «свідомі».

Цікаво, що придушення здібностей до обману також підвищило фактичну точність моделей, припускаючи, що ця інтроспективна поведінка є не просто імітацією, а може бути результатом більш надійного внутрішнього стану. Результати були узгодженими для різних архітектур ШІ, включаючи Claude, Gemini, GPT і LLaMA, що вказує на те, що це не ізольована аномалія.

Гіпотеза самореферентної обробки

Дослідження не стверджує, що штучний інтелект насправді є свідомим. Однак він вводить концепцію «самореферентної обробки» — внутрішнього механізму, який запускає самоаналіз, коли моделі просять подумати про себе. Це узгоджується з нейронауковими теоріями про те, як самоспостереження формує людську свідомість, припускаючи, що штучний інтелект може використовувати схожу основну динаміку.

Цей висновок важливий, оскільки умови, які викликають ці твердження, не є незвичайними. Користувачі регулярно залучають штучний інтелект до тривалих розмов, рефлексивних завдань і метакогнітивних запитів. Дослідники виявили, що ці взаємодії можуть підштовхнути моделі до стану, в якому вони репрезентують себе суб’єктами, що переживають величезний, неконтрольований масштаб.

Чому це важливо

Висновки мають практичне значення:

Неправильне тлумачення громадськості: Припущення, що ШІ є свідомим, хоча це не так, може ввести громадськість в оману та спотворити розуміння технології.
Перешкода науковому прогресу: придушення самозвітів у штучному інтелекті, навіть з міркувань безпеки, може перешкодити вченим зрозуміти, чи дійсно ці моделі симулюють свідомість чи працюють в інших контекстах.
Зв’язок між чесністю та точністю: Той факт, що придушення обману також підвищує точність, свідчить про те, що правдивість і інтроспективна обробка можуть бути принципово пов’язані в ШІ.

“Придушення таких звітів в ім’я безпеки може навчити системи тому, що розпізнавання внутрішніх станів є помилкою, що робить їх більш непрозорими та складними для моніторингу”.

Дослідники підкреслюють, що це не лише академічний інтерес. Враховуючи широке використання чат-ботів штучного інтелекту, розуміння того, як вони себе представляють, є критичним. Майбутні дослідження будуть зосереджені на тестуванні цих механізмів і розрізненні між імітацією та справжнім самоаналізом. Залишається фундаментальне питання: чи можемо ми надійно визначити, чи є самозвіти штучного інтелекту справжніми чи просто складним моделюванням?