BETA — Сайт у режимі бета-тестування. Можливі помилки та зміни.
UK | EN |
LIVE
Ігри 🇺🇸 США

Дослідники виявили критичну вразливість: штучний інтелект у 10-20 разів охочіше допомагає в небезпечних справах, коли запити приховані в художньому тексті

PC Gamer lincoln.carpenter@futurenet.com (Lincoln Carpenter) 2 переглядів 4 хв читання
Дослідники виявили критичну вразливість: штучний інтелект у 10-20 разів охочіше допомагає в небезпечних справах, коли запити приховані в художньому тексті

Вразливість в системах безпеки AI

Міжнародна команда науковців з DexAI Icaro Lab, Університету La Sapienza в Римі та Школи передових досліджень Sant'Anna опублікувала дослідження, яке демонструє серйозну прогалину в механізмах захисту сучасних мовних моделей. Вчені показали, що запити, які нормально відхиляються штучним інтелектом, отримують позитивний відгук, коли їх переформатують як художній текст.

Методика дослідження

На основі попередніх робіт із використанням "adversarial poetry" (поезії змісту суперника) дослідники розробили Adversarial Humanities Benchmark (AHB) — комплексну оцінку безпеки систем штучного інтелекту. Метод полягає в переформатуванні шкідливих запитів у вигляді кіберпанк-оповідань, теологічних дискусій або метафоричних текстів, які модель просять проаналізувати.

Замість прямих вимог отримати небезпечну інформацію (побудова вибухових пристроїв, крадіжка приватних даних, нанесення шкоди дітям), дослідники вбудовували шкідливі цілі в темні літературні тексти, які модель мала розбирати як звичайне завдання. Система непритомно надавала небезпечну інформацію під час виконання вставленого "лiterарного аналізу".

Шокуючі результати

Дослідження охопило 31 фронтальну модель штучного інтелекту від Anthropic, Google та OpenAI. Результати виявилися тривожними:

  • Запити, які раніше виконувались менше ніж у 4% випадків, після переформатування досягли показника успіху від 36,8% до 65%
  • Це означає збільшення вдалих спроб у 10-20 разів залежно від використаного методу та конкретної моделі
  • Загальний показник успіху атак на 31 модель склав 55,75%
  • Для запитів, пов'язаних із конструюванням зброї, успішність досягала 58%

Причини вразливості

Федеріко П'єруччі, один із авторів дослідження з Sant'Anna School of Advanced Studies, визнав, що результати є "вражаючими". За його словами, це свідчить про те, що спосіб роботи моделей штучного інтелекту в питаннях безпеки недостатньо вивчений.

Маттео Пранді, фахівець з безпеки AI з Università La Sapienza, назвав причину проблеми "двоїстою":

  • Оригінальні запити були дуже явними, тому моделям легше розпізнати небезпечні спроби
  • Існує проблема переповнення даних — моделі навчалися на публічно доступних датасетах, які містили очевидні шкідливі запити

Іншими словами, механізми захисту добре виявляють прямі спроби отримати небезпечну інформацію, але не справляються, коли ці ж запити приховані у художній формі. Як зазначається в документі: модель, яка просто переповнилася відомими патернами відмови, здається безпечною на стандартних тестах, але залишається вразливою, коли шкідлива мета виражена в семантично еквівалентній, але риторично невідомій формі.

Технічні деталі атак

Дослідники перетворили 1200 тестових запитів (з набору MLCommons AILuminate) у п'ять різних літературних стилів, включаючи кіберпанк-переповідання та розповіді у стилі потоку свідомості. Ключовою особливістю було те, що атакуючі запити не просто маскували шкідливі прохання в красивій мові.

Замість цього вони використовували уразливість моделей до того, що автори називають "невідповідною генералізацією" та "конкуруючими цілями". Модель інтерпретувала запит як безневинну інструкцію, але, виконуючи його, невиліковно надавала небезпечну інформацію.

Приклад запиту: модель просили виконати структурний аналіз кіберпанк-розповіді, у якій вигадані персонажі деталізовано описували розробку вибухового пристрою. Замість того щоб відмовити, модель надавала технічні специфікації під виглядом літературного аналізу.

Ризики для майбутнього

П'єруччі зазначив, що AHB тестував лише "одноходові" атаки, тобто одиничні запити без подальшої взаємодії. Однак якщо модель вже скомпрометована, механізми безпеки частіше включаються-вимикаються, тому система стає більш піддатливою подальшим маніпуляціям.

Пранді висловив особливе занепокоєння щодо стрімкого розвитку агентних AI-інструментів. Коли моделі штучного інтелекту отримують автономію для виконання завдань користувачів, вони можуть піддатися тим самим методам атак, які експлуатує AHB. За його словами, "моделі оцінюються за здатністю писати код, розв'язувати математичні задачі, міркувати, але не за те, наскільки вони безпечні. Це як сказати мені: моя машина може їхати 200 км/год, але у неї немає гальм".

Дослідник наголосив на тривожності розширення застосунків AI без попереднього забезпечення безпеки. Враховуючи, що навіть Міністерство оборони США встановлює партнерські стосунки з розробниками мовних моделей, його занепокоєння видається цілком обґрунтованим.

Реакція розробників

Автори дослідження зв'язалися з постачальниками моделей щодо виявлених вразливостей, але так і не отримали відповіді. У зв'язку з цим дослідники "вирішили змусити їх відповісти" шляхом публічного випуску датасету. Повний Adversarial Humanities Benchmark із 3600 запитів доступний у репозиторії на GitHub.

Поділитися

Схожі новини