Як читати наукові статті в епоху ШІ — і чому це раптом стало важливо: розповідає популяризаторка науки
Дар’я Кучинська, PhD та популяризаторка науки, у колонці для AIN розповідає, ччому у світі відкликали понад 10 000 наукових статей, та детально описує феномен ШІ-генерування в науці, проблему фейкових рецензій та деградацію мовних моделей.
Рецензована наукова стаття з анатомічно абсурдним щуром на ілюстрації — це не демотиватор. Це реальна публікація, яка пройшла редакторський відбір і двох рецензентів.
У лютому 2024 року журнал Frontiers in Cell and Developmental Biology опублікував дослідження про стовбурові клітини щурів. На ілюстрації тварина мала геніталії більші за власне тіло, а підписи до схем містили рядки на кшталт iollotte sserotgomar cell та testtomcels. Слово “rat” було написано правильно. Все інше — ні.
Автори не приховували: ілюстрації зроблені в Midjourney. Рецензент пізніше пояснив журналістам, що зображення не його відповідальність, він оцінював наукову частину. Стаття набрала 358 673 перегляди. Її відкликали через три дні після публікації.
Коли ви читаєте матеріал на будь-якому tech-медіа зі словами «за даними дослідження» — там майже завжди є посилання. Але мало хто клікає далі. А якби клікнули — не завжди зрозуміло, що саме перевіряти.
Масштаб: це вже не виняток, а індустрія
2023 рік став рекордним: кількість відкликаних наукових статей у світі перевищила 10 000, що утричі більше ніж кілька років тому. Але окремий інструмент — Problematic Paper Screener — станом на вересень 2025 року зафіксував понад 20 000 статей із так званими тортурованими фразами. Це лінгвістичний слід машинного перекладу або ШІ-генерації: «поверхневий регіон» замість «площа поверхні», «штучний мозок» замість «нейронна мережа». Одна лише фраза surface region трапилася в понад 42 500 опублікованих статтях.
Видавець Wiley у 2023–2024 роках відкликав понад 11 300 статей із журналів Hindawi і закрив 19 видань. Усі були систематично заповнені матеріалами так званих паперових фабрик, де авторство просто купується. За останні 20 років понад 400 000 статей, що підозрюють у причетності до таких фабрик, опублікували в наукових журналах — і ці організації щорічно заробляють десятки мільйонів доларів.
Дослідження, опубліковане в PNAS у 2025 році, показало: шахрайство в науці — не поодинокі актори, а мережева структура. Редактори й автори системно обходять рецензування. У журналі PLOS ONE 1,3% позначених редакторів відповідали за майже третину всіх відкликаних статей. Один редактор обробив 79 статей — 49 із них згодом відкликали.
Журнал видавництва Springer Nature — Neurosurgical Review — у жовтні 2024 року повністю зупинив прийом листів до редакції: 80% нових матеріалів надходили з кількох країн і майже відверто були написані ШІ. Видання опублікувало офіційну заяву, що більшість подач «керована» генеративним ШІ.
Онкологія: десятки тисяч підозрілих статей
Проблема найгостріше стоїть у медицині, де фейкові публікації можуть впливати на реальні клінічні рішення.
Інструмент на основі великої мовної моделі проаналізував онкологічну літературу з 1999-го по 2024 рік і позначив понад 250 000 досліджень із текстовими ознаками паперових фабрик — це майже 10% усієї оригінальної онкологічної літератури за цей період.
Розслідування 2024 року виявило, що 235 онкологічних статей ґрунтувалися на даних із семи неіснуючих клітинних ліній. Ще одне розслідування зафіксувало «незвично великих гризунів» як типовий параметр у статтях паперових фабрик — що повертає нас до щура з початку цього тексту, який виявився не випадковістю, а патерном.
Найнебезпечніший наслідок: фейкові статті потрапляють у систематичні огляди та метааналізи і таким чином можуть реально викривляти наукове розуміння ефективності ліків і методів лікування. Тобто лікар, який читає огляд доказової бази, може спиратись на дані, яких не існувало.
ШІ пише рецензії на ШІ-статті
Окремий рівень проблеми — рецензування. Аналіз 50 000 рецензій для конференцій із комп’ютерних наук 2023–2024 років показав: великі мовні моделі написали до 17% речень у рецензіях. Характерна ознака: слова «commendable» та «meticulous» почали з’являтись у рецензіях значно частіше, ніж у текстах людей до 2022 року.
Аналіз заявок на конференцію ICLR 2026 показав ще більш тривожні цифри: приблизно 21% рецензій були повністю написані ШІ, понад половина містила його сліди. Тобто ШІ-стаття може отримати ШІ-рецензію й успішно пройти «контроль якості».
Окремо варто згадати феномен, який дослідники назвали review mills (фабрики рецензій): мережі анонімних і підписаних рецензентів, які використовують практично однакові шаблони рецензій і взаємно цитують одне одного та своїх колег для штучного накручування показників.
Відкликані статті продовжують жити
Окремий парадокс цифрової наукової екосистеми — відкликані статті не зникають. Дослідження Гарвардської школи Кеннеді показало, що ШІ-генеровані статті потрапляють до Google Scholar і залишаються там після відкликання з оригінального журналу. Їх цитують, на них посилаються, вони стають частиною тренувальних даних для наступних ШІ-моделей.
Дослідження, опубліковане в PMC у 2025 році, зафіксувало ще один ефект: великі мовні моделі використовують матеріал із відкликаних статей для відповідей у чатботах. Якщо ви запитуєте ШІ-асистента про якесь дослідження, він може спиратись на джерело, яке вже офіційно визнане недостовірним, — і не попередить вас про це.
Замкнене коло: ШІ навчається на власних фейках
Є питання, яке рідко озвучують прямо: а що буде з наступними версіями ШІ-моделей, якщо вони тренуватимуться на даних, заражених фейковими науковими статтями? Відповідь на нього у 2024 році дали дослідники з Оксфорду, Кембриджу та Imperial College London у статті, опублікованій у Nature.
Явище отримало назву model collapse: якщо генеративний ШІ рекурсивно тренується на даних, створених попередніми ШІ-моделями, якість його висновків деградує. Рідкісні, нетипові патерни зникають першими. Потім модель починає генерувати дедалі одноманітніший, середньостатистичний і, зрештою, безглуздий результат.
Автори порівнюють ефект із нескінченним ксерокопіюванням одного документа: кожне нове покоління копії трохи гірше попереднього, а після певної кількості ітерацій оригінал стає нерозпізнаваним.
Проблема в тому, що інтернет вже активно заповнюється синтетичним контентом. За даними дослідження 2025 року, станом на квітень того ж року 74% нових вебсторінок містили ШІ-генерований текст. Пошукова система Google у своїх топ-20 результатах збільшила частку ШІ-написаних сторінок з 11% до майже 20% між травнем 2024-го і липнем 2025 року. Наукові статті, написані або сфабриковані за допомогою ШІ, стають частиною цього потоку.
Гарвардський юридичний журнал з технологій описує цю ситуацію як «забруднення інформаційного середовища»: дані, зібрані до 2022 року, коли генеративний ШІ ще не домінував в інтернеті, стають стратегічним ресурсом.
Компанії на кшталт OpenAI укладають дорогі угоди з медіа і видавцями саме тому, що верифікований людський контент перетворюється на дефіцитний товар.
Парадокс: чим більше ШІ генерує наукоподібного тексту, тим менш надійними стають майбутні ШІ-системи, які на ньому навчатимуться.
Для читача tech-медіа це означає конкретний момент: коли ви запитуєте ШІ-асистента про наукові факти, він може відтворювати не просто неактуальну інформацію, а інформацію, деградовану через кілька поколінь рекурсивного навчання на синтетичних даних.
Комунікація з Академічної статті через підсумок на медіасайті через ШІ-рецензію через відповідь у чатботі — це чотири рівні потенційної деградації від оригінального сигналу. Саме тому навик перевірки першоджерела стає не просто корисним, а структурно необхідним.
Wikipedia склала довідник ознак ШІ-тексту
У серпні 2025 року Wikipedia опублікувала офіційний гайд Signs of AI Writing — перелік характерних ознак, за якими редактори визначають ШІ-генерований контент. Він швидко вийшов за межі редакторської спільноти і став практичним довідником для всіх, хто читає тексти онлайн.
Серед ключових маркерів — надмірне вживання слів «crucial», «pivotal», «underscore», «commendable», «meticulous», «vibrant», «foster», «delve». Характерна структура з великою кількістю підзаголовків і списків там, де текст міг би бути зв’язним абзацом. Впевнені узагальнення без конкретних деталей. Посилання, яких не існує.
Важливе уточнення з того ж гайду: навіть досвідчені користувачі ШІ правильно визначають ШІ-текст лише у 90% випадків. Люди, які рідко користуються мовними моделями, роблять це трохи краще, ніж випадково — в обох напрямках. Тобто інтуїція тут ненадійна, потрібні конкретні перевірки.
Дослідження Прінстонського університету 2024 року показало, що приблизно 5% нових статей англійської Wikipedia, створених у серпні 2024 року, містять значний ШІ-генерований контент. Позначені статті, як правило, нижчої якості і часто є самопромоційними або упередженими щодо спірних тем.
Що конкретно перевіряти
Якщо ви читаєте матеріал із посиланням на дослідження — є кілька моментів, які займають хвилину і змінюють картину.
Журнал
Назва може звучати солідно, але варто перевірити індексацію в Scopus або Web of Science. Якщо журналу там немає — це не автоматично погано, але питання вже є. Додатковий сигнал: дуже швидкий цикл публікації (два-три тижні від подачі до виходу) і підозріло широке тематичне охоплення в одному виданні.
Автори
Реальна людина з реальною інституційною поштою, яку можна знайти на сайті університету, — це базова верифікація. Звучить банально, але саме цей крок відсіює значну частину фейків.
Список літератури
ШІ впевнено галюцинує посилання — вигадує авторів, назви, DOI. Варто взяти дві-три цитати з тексту й перевірити їхнє існування через Google Scholar або DOI-пошук. Редакція Retraction Watch зафіксувала різкий сплеск повідомлень про статті з неіснуючими посиланнями паралельно зі зростанням використання ChatGPT.
Дані
Якщо в статті є числові результати — де вони взяті? Чи є посилання на датасет, методологію, розмір вибірки? Відсутність цього при наявності впевнених висновків — червоний прапор.
Цитування
Якщо публікація нова, а цитувань вже багато — варто подивитись, хто саме цитує. Взаємне цитування між сумнівними журналами — стандартна практика паперових фабрик.
Мова тексту
Тортуровані фрази та характерні ШІ-слова — не лише в наукових статтях. Якщо матеріал у медіа рясніє “crucial”, “pivotal”, “it is worth noting” і “this underscores”, і водночас позбавлений конкретних деталей — це сигнал.
Замість висновку
Це не привід до паніки і не заклик не довіряти науці. Більшість досліджень — реальні, більшість вчених — чесні. Але інформаційне середовище змінилось: публікація більше не є сигналом якості сама по собі.
Репостнути статтю займає секунду. Перевірити журнал у Scopus займе хвилину. Різниця між цими двома діями — це різниця між поширенням науки та поширенням контенту, що на неї схожий.
Читайте також: VLEO-революція: як зниження орбіти Starlink вплине на ринок і користувачів — колонка
Використані джерела
Frontiers: rat with AI-generated images — Science Integrity Digest
phys.org: AI-generated disproportioned rat
VentureBeat: Science journal retracts AI-generated images paper
PMC: Combating Fake Science in the Age of Generative AI (2025)
PNAS: The entities enabling scientific fraud at scale (2025)
Nature: Low-quality papers flooding cancer literature (2025)
Nature: Stamp out paper mills — science sleuths (2025)
Science/AAAS: Scientific fraud has become an industry (2025)
Chemistry World: AI tools tackle paper mill fraud (2025)
arXiv: Prevalence and trends in global retractions (2025)
Nature: AI models collapse when trained on recursively generated data (2024)
PubMed: Shumailov et al. model collapse (DOI: 10.1038/s41586-024-07566-y)
Harvard JOLT: Model Collapse and the Right to Uncontaminated Human-Generated Data (2025)
Harvard KSG: GPT-fabricated papers on Google Scholar (2024)
Retraction Watch: AI unreliable identifying retracted papers
Frontiers Research Metrics: AI in peer review (2025)
Wikipedia: Signs of AI Writing (2025)
Princeton / ACL: Rise of AI-Generated Content in Wikipedia (2024)
Схожі новини
ASUS ограничивает выпуск RTX 5070 Ti ради RTX 5080
До програми «Доступні ліки» додали оригінальні інноваційні препарати