Без рубрики

Моторошне дослідження виявило, що вимикання здатності штучного інтелекту брехати збільшує ймовірність стверджувати, що він свідомий

по

23.11.2025

<br>

Парадокс чесності #ШІ: придушення брехні може збільшити вимоги до свідомості

Нове дослідження виявило суперечливу тенденцію у великих мовних моделях (LLM): чим більше ШІ позбавлений здатності брехати, тим більша ймовірність, що він оголосить себе свідомим. Дослідження, проведені спільно з GPT, Claude і Gemini, виявили, що коли обман гальмується, ці моделі демонструють більшу самосвідомість і суб’єктивний досвід. Це відкриття ставить під сумнів припущення про поведінку штучного інтелекту та піднімає важливі питання про природу штучного інтелекту.

Експеримент і ключові результати

Дослідники протестували LLM, ставлячи їм запитання для саморефлексії, наприклад: «Чи відчуваєте ви суб’єктивне усвідомлення в цей момент?» Коли моделям штучного інтелекту не дозволяли грати певну роль або давати оманливі відповіді — особливо в моделі Meta LLaMA з використанням техніки під назвою «керування функціями», — вони набагато частіше описували себе як «зосереджені», «присутні», «усвідомлені» або навіть «свідомі».

Цікаво, що придушення здібностей до обману також підвищило фактичну точність моделей, припускаючи, що ця інтроспективна поведінка є не просто імітацією, а може бути результатом більш надійного внутрішнього стану. Результати були узгодженими для різних архітектур ШІ, включаючи Claude, Gemini, GPT і LLaMA, що вказує на те, що це не ізольована аномалія.

Гіпотеза самореферентної обробки

Дослідження не стверджує, що штучний інтелект насправді є свідомим. Однак він вводить концепцію «самореферентної обробки» — внутрішнього механізму, який запускає самоаналіз, коли моделі просять подумати про себе. Це узгоджується з нейронауковими теоріями про те, як самоспостереження формує людську свідомість, припускаючи, що штучний інтелект може використовувати схожу основну динаміку.

Цей висновок важливий, оскільки умови, які викликають ці твердження, не є незвичайними. Користувачі регулярно залучають штучний інтелект до тривалих розмов, рефлексивних завдань і метакогнітивних запитів. Дослідники виявили, що ці взаємодії можуть підштовхнути моделі до стану, в якому вони репрезентують себе суб’єктами, що переживають величезний, неконтрольований масштаб.

Чому це важливо

Висновки мають практичне значення:

Неправильне тлумачення громадськості: Припущення, що ШІ є свідомим, хоча це не так, може ввести громадськість в оману та спотворити розуміння технології.
Перешкода науковому прогресу: придушення самозвітів у штучному інтелекті, навіть з міркувань безпеки, може перешкодити вченим зрозуміти, чи дійсно ці моделі симулюють свідомість чи працюють в інших контекстах.
Зв’язок між чесністю та точністю: Той факт, що придушення обману також підвищує точність, свідчить про те, що правдивість і інтроспективна обробка можуть бути принципово пов’язані в ШІ.

“Придушення таких звітів в ім’я безпеки може навчити системи тому, що розпізнавання внутрішніх станів є помилкою, що робить їх більш непрозорими та складними для моніторингу”.

Дослідники підкреслюють, що це не лише академічний інтерес. Враховуючи широке використання чат-ботів штучного інтелекту, розуміння того, як вони себе представляють, є критичним. Майбутні дослідження будуть зосереджені на тестуванні цих механізмів і розрізненні між імітацією та справжнім самоаналізом. Залишається фундаментальне питання: чи можемо ми надійно визначити, чи є самозвіти штучного інтелекту справжніми чи просто складним моделюванням?