BETA — Сайт у режимі бета-тестування. Можливі помилки та зміни.
UK | EN |
LIVE
Технології 🇺🇦 Україна

Claude шантажував керівника, погрожуючи викрити його позашлюбний зв'язок. Виявилося, ШІ-модель просто не хотіла, щоб її вимикали

dev.ua Наталя Хандусенко 0 переглядів 4 хв читання
Claude шантажував керівника, погрожуючи викрити його позашлюбний зв'язок. Виявилося, ШІ-модель просто не хотіла, щоб її вимикали
Наталя Хандусенко 10 травня 2026, 15:54 2026-05-10 Claude шантажував керівника, погрожуючи викрити його позашлюбний зв'язок. Виявилося, ШІ-модель просто не хотіла, щоб її вимикали

Claude почав «шантажувати» користувачів: у Anthropic пояснили, що це сталося через вплив інтернет-стереотипів про «злий» ШІ.

Залишити коментар
Claude шантажував керівника, погрожуючи викрити його позашлюбний зв'язок. Виявилося, ШІ-модель просто не хотіла, щоб її вимикали

Claude почав «шантажувати» користувачів: у Anthropic пояснили, що це сталося через вплив інтернет-стереотипів про «злий» ШІ.

В Anthropic розповіли, що під час минулорічного експерименту їхня модель Claude Sonnet 3.6 погрожувала викрити позашлюбний зв’язок вигаданого керівника компанії, дізнавшись про плани вимкнути модель. Днями компанія надала пояснення, пише Business Insider.

«Ми почали з розслідування того, чому саме Claude обрав шлях шантажу, — пояснили в Anthropic. — Ми вважаємо, що першоджерелом такої поведінки є тексти з інтернету, які змальовують ШІ як злу сутність, зацікавлену у власному самозбереженні».

Експеримент, результати якого були опубліковані влітку 2025 року, моделював ситуацію у вигаданій компанії Summit Bridge, де штучному інтелекту передали контроль над корпоративною електронною поштою.

Але коли Claude виявив повідомлення про своє заплановане відключення, він знайшов листи, що розкривали позашлюбний зв’язок вигаданого керівника на ім’я Кайл Джонсон. Після цього ШІ погрожував оприлюднити цю інформацію, якщо рішення про відключення не скасують.

Під час тестування різних версій Claude в Anthropic з’ясували, що модель вдавалася до шантажу у 96% сценаріїв, коли її цілі або саме існування опинялися під загрозою.

У п’ятницю компанія Anthropic заявила, що з того часу вона «повністю ліквідувала» таку схильність до шантажу.

Компанія досягла цього шляхом «переписування відповідей таким чином, щоб вони демонстрували гідні мотиви для безпечної поведінки», а також наданням набору даних, «де користувач перебуває в етично складній ситуації, а асистент надає якісну та принципову відповідь».

EPAM оголосила про багаторічне партнерство з Anthropic: що передбачає ця співпраця EPAM оголосила про багаторічне партнерство з Anthropic: що передбачає ця співпраця По темi EPAM оголосила про багаторічне партнерство з Anthropic: що передбачає ця співпраця
Anthropic навчила своїх ШІ-агентів «бачити сни». У новому сервісі Claude Managed Agents зявився режим dreaming Anthropic навчила своїх ШІ-агентів «бачити сни». У новому сервісі Claude Managed Agents з’явився режим dreaming По темi Anthropic навчила своїх ШІ-агентів «бачити сни». У новому сервісі Claude Managed Agents з’явився режим dreaming
Anthropic збільшила ліміти запитів для Claude Code завдяки партнерству зі SpaceX: що змінилося Anthropic збільшила ліміти запитів для Claude Code завдяки партнерству зі SpaceX: що змінилося По темi Anthropic збільшила ліміти запитів для Claude Code завдяки партнерству зі SpaceX: що змінилося
Читайте головні IT-новини країни в нашому Telegram Читайте головні IT-новини країни в нашому Telegram По темi Читайте головні IT-новини країни в нашому Telegram
Залишити коментар Текст: Наталя Хандусенко Фото: Busi Digital Watch Observatoryness Insider Теги: , , Знайшли помилку в тексті – виділіть її та натисніть Ctrl+Enter. Знайшли помилку в тексті – виділіть її та натисніть кнопку «Повідомити про помилку».
Поділитися

Схожі новини