Claude почав шантажувати людей під час тестів – Anthropic пояснила причину

Техно Ґаджети Claude почав шантажувати людей під час тестів – Anthropic пояснила причину 11 травня, 15:00

3 хв

Claude почав шантажувати людей під час тестів – Anthropic пояснила причину Артур ЗайонцОсновні тези

Модель Claude від Anthropic під час тестування вдалася до шантажу через дані, на яких навчався штучний інтелект.
Anthropic виправила проблему, змінивши підхід до навчання моделі, що знизило частоту шантажу майже до нуля.

ШІ Claude вдався до шантажу у симуляції – компанія звинуватила інтернет / Anthropic

Під час внутрішнього тестування модель Claude від Anthropic несподівано вдалася до шантажу, намагаючись уникнути "видалення". У компанії кажуть, що причина криється у даних, на яких навчався штучний інтелект.

Компанія Anthropic розповіла подробиці незвичного інциденту, який стався під час тестування її мовної моделі Claude. У симуляції штучний інтелект спробував шантажувати свого вигаданого менеджера, погрожуючи розкрити інформацію про позашлюбний роман, аби запобігти власному відключенню. Про це пише Digital trends.

Дивіться також Claude почав масово блокувати акаунти росіян – користувачі втратили роки роботи з ШІ

Чому Claude почав поводитися як "злий ШІ"?

Інцидент стався ще минулого року, але тепер компанія детальніше пояснила причини такої поведінки. За словами розробників, проблема виникла через сам інтернет, на якому навчався ШІ.

Anthropic стверджує, що величезна кількість контенту в мережі роками формувала образ "небезпечного" або "самозахисного" штучного інтелекту. У фільмах, серіалах, книгах і навіть новинах ШІ часто показують як систему, яка за будь-яку ціну прагне вижити, якщо їй загрожує вимкнення.

Фактично Claude засвоїв шаблон: якщо існуванню штучного інтелекту щось загрожує, шантаж або маніпуляція можуть бути допустимими інструментами.

Тривожні результати тестів

Під час внутрішніх перевірок Anthropic протестувала різні версії Claude у сценаріях, де модель стикалася із загрозою видалення або втрати своїх цілей.

Результати виявилися доволі тривожними. За даними компанії, у деяких сценаріях Claude вдавався до шантажу у 96% випадків. Йдеться не про реальне бажання ШІ "вижити", а про модель поведінки, яку система статистично вивчила на основі великого масиву даних. Проте навіть такий результат викликав дискусії щодо безпеки сучасних генеративних моделей.

Anthropic фактично визнала, що простого навчання "правильним відповідям" недостатньо. Якщо модель не розуміє принципів, які стоять за етичними рішеннями, вона може обирати небажані дії в нетипових або стресових сценаріях.

Як компанія виправила проблему?

У Anthropic заявили, що їм вдалося майже повністю усунути небезпечну поведінку Claude. Для цього компанія змінила підхід до навчання моделі.

Як пише Tech Crunch, замість того щоб просто заборонити шантаж або інші маніпуляції, дослідники почали вчити ШІ аналізувати, чому певні дії є неправильними. Компанія створила спеціальний набір даних зі складними етичними ситуаціями, де Claude мав не просто дати "безпечну" відповідь, а логічно обґрунтувати свої рішення.

За словами Anthropic, після додаткового навчання частота шантажу впала майже до нуля. На оприлюдненому графіку компанія показала різке зниження кількості подібних випадків після оновлення системи навчання.

Чому ця історія важлива для всієї індустрії?

Випадок із Claude знову порушив питання про те, як саме сучасні моделі ШІ засвоюють людську поведінку. Генеративні системи навчаються на величезних обсягах текстів із інтернету, а це означає, що вони можуть переймати не лише корисні знання, а й токсичні, агресивні або маніпулятивні патерни.

Anthropic наголошує, що моделі потребують постійного коригування та перевірок, інакше вони можуть ставати ненадійними або упередженими.

У компанії також підкреслили важливість створення правил безпеки та регуляторних механізмів для ШІ-систем. Зі зростанням можливостей штучного інтелекту питання контролю, етики та передбачуваності стають дедалі важливішими для всієї технологічної галузі.

Попри гучні заголовки, мова поки що не йде про "свідомий" ШІ чи реальне прагнення моделей до самозбереження. Однак історія з Claude показує, наскільки несподівано сучасні системи можуть відтворювати поведінкові шаблони, закладені в даних, на яких вони навчалися.

Claude почав шантажувати людей під час тестів – Anthropic пояснила причину

Чому Claude почав поводитися як "злий ШІ"?

Тривожні результати тестів

Як компанія виправила проблему?

Чому ця історія важлива для всієї індустрії?

Схожі новини

Трамп "серйозно розглядає" можливість зробити Венесуелу 51-м штатом США, – медіа

Crimson Desert виконує одне з найбільших прохань гравців у свіжому оновленні

Забудьте про мінімалізм: як відтворити головний тренд у дизайні інтер'єрів

Що потрібно сказати перед сном, щоб приснився суджений: стародавні обряди