Claude шантажував керівника, погрожуючи викрити його позашлюбний зв'язок. Виявилося, ШІ-модель просто не хотіла, щоб її вимикали
Claude почав «шантажувати» користувачів: у Anthropic пояснили, що це сталося через вплив інтернет-стереотипів про «злий» ШІ.
Залишити коментар
Claude почав «шантажувати» користувачів: у Anthropic пояснили, що це сталося через вплив інтернет-стереотипів про «злий» ШІ.
В Anthropic розповіли, що під час минулорічного експерименту їхня модель Claude Sonnet 3.6 погрожувала викрити позашлюбний зв’язок вигаданого керівника компанії, дізнавшись про плани вимкнути модель. Днями компанія надала пояснення, пише Business Insider.
«Ми почали з розслідування того, чому саме Claude обрав шлях шантажу, — пояснили в Anthropic. — Ми вважаємо, що першоджерелом такої поведінки є тексти з інтернету, які змальовують ШІ як злу сутність, зацікавлену у власному самозбереженні».
Експеримент, результати якого були опубліковані влітку 2025 року, моделював ситуацію у вигаданій компанії Summit Bridge, де штучному інтелекту передали контроль над корпоративною електронною поштою.
Але коли Claude виявив повідомлення про своє заплановане відключення, він знайшов листи, що розкривали позашлюбний зв’язок вигаданого керівника на ім’я Кайл Джонсон. Після цього ШІ погрожував оприлюднити цю інформацію, якщо рішення про відключення не скасують.
Під час тестування різних версій Claude в Anthropic з’ясували, що модель вдавалася до шантажу у 96% сценаріїв, коли її цілі або саме існування опинялися під загрозою.
У п’ятницю компанія Anthropic заявила, що з того часу вона «повністю ліквідувала» таку схильність до шантажу.
Компанія досягла цього шляхом «переписування відповідей таким чином, щоб вони демонстрували гідні мотиви для безпечної поведінки», а також наданням набору даних, «де користувач перебуває в етично складній ситуації, а асистент надає якісну та принципову відповідь».
EPAM оголосила про багаторічне партнерство з Anthropic: що передбачає ця співпраця
По темi
EPAM оголосила про багаторічне партнерство з Anthropic: що передбачає ця співпраця
Anthropic навчила своїх ШІ-агентів «бачити сни». У новому сервісі Claude Managed Agents з’явився режим dreaming
По темi
Anthropic навчила своїх ШІ-агентів «бачити сни». У новому сервісі Claude Managed Agents з’явився режим dreaming
Anthropic збільшила ліміти запитів для Claude Code завдяки партнерству зі SpaceX: що змінилося
По темi
Anthropic збільшила ліміти запитів для Claude Code завдяки партнерству зі SpaceX: що змінилося
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
Схожі новини
Жінка покинула хлопця після того, як прочитала його історію в ChatGPT (фото)
Де розташована найвища точка Львова і чи можна з неї милуватися панорамою міста