Claude шантажував керівника, погрожуючи викрити його позашлюбний зв'язок. Виявилося, ШІ-модель просто не хотіла, щоб її вимикали

Наталя Хандусенко ШІ 10 травня 2026, 15:54 2026-05-10 Claude шантажував керівника, погрожуючи викрити його позашлюбний зв'язок. Виявилося, ШІ-модель просто не хотіла, щоб її вимикали

Claude почав «шантажувати» користувачів: у Anthropic пояснили, що це сталося через вплив інтернет-стереотипів про «злий» ШІ.

Залишити коментар

Claude шантажував керівника, погрожуючи викрити його позашлюбний зв'язок. Виявилося, ШІ-модель просто не хотіла, щоб її вимикали

В Anthropic розповіли, що під час минулорічного експерименту їхня модель Claude Sonnet 3.6 погрожувала викрити позашлюбний зв’язок вигаданого керівника компанії, дізнавшись про плани вимкнути модель. Днями компанія надала пояснення, пише Business Insider.

«Ми почали з розслідування того, чому саме Claude обрав шлях шантажу, — пояснили в Anthropic. — Ми вважаємо, що першоджерелом такої поведінки є тексти з інтернету, які змальовують ШІ як злу сутність, зацікавлену у власному самозбереженні».

Експеримент, результати якого були опубліковані влітку 2025 року, моделював ситуацію у вигаданій компанії Summit Bridge, де штучному інтелекту передали контроль над корпоративною електронною поштою.

Але коли Claude виявив повідомлення про своє заплановане відключення, він знайшов листи, що розкривали позашлюбний зв’язок вигаданого керівника на ім’я Кайл Джонсон. Після цього ШІ погрожував оприлюднити цю інформацію, якщо рішення про відключення не скасують.

Під час тестування різних версій Claude в Anthropic з’ясували, що модель вдавалася до шантажу у 96% сценаріїв, коли її цілі або саме існування опинялися під загрозою.

У п’ятницю компанія Anthropic заявила, що з того часу вона «повністю ліквідувала» таку схильність до шантажу.

Компанія досягла цього шляхом «переписування відповідей таким чином, щоб вони демонстрували гідні мотиви для безпечної поведінки», а також наданням набору даних, «де користувач перебуває в етично складній ситуації, а асистент надає якісну та принципову відповідь».

EPAM оголосила про багаторічне партнерство з Anthropic: що передбачає ця співпраця

Anthropic навчила своїх ШІ-агентів «бачити сни». У новому сервісі Claude Managed Agents зявився режим dreaming

Anthropic збільшила ліміти запитів для Claude Code завдяки партнерству зі SpaceX: що змінилося

Читайте головні IT-новини країни в нашому Telegram

Залишити коментар

Текст: Наталя Хандусенко Фото: Busi Digital Watch Observatoryness Insider Теги: anthropic, claude, ші Знайшли помилку в тексті – виділіть її та натисніть Ctrl+Enter. Знайшли помилку в тексті – виділіть її та натисніть кнопку «Повідомити про помилку».

Claude шантажував керівника, погрожуючи викрити його позашлюбний зв'язок. Виявилося, ШІ-модель просто не хотіла, щоб її вимикали

Схожі новини

The Pixel 11’s Tensor G6 sounds promising — until you compare it to rival flagship chips

IQ, карьера, доходы — все от ДНК: ученые подтвердили худшие ожидания

AI Wins Have Alphabet Poised to Become World’s Biggest Company

Buoyed by rare earths, China approaches Trump summit with fresh confidence