Коли ШІ «клікає» по вебсайту, він витрачає у 45 разів більше токенів, ніж під час звернення через API
Компанії, які використовують ШІ-агентів для автоматизації процесів, ризикують переплачувати, якщо їхні цифрові помічники просто копіюють те, як людина взаємодіє з екраном. Такого висновку дійшли за результатами дослідження, у межах якого порівняли роботу візуальних та API-агентів.
Залишити коментар
Компанії, які використовують ШІ-агентів для автоматизації процесів, ризикують переплачувати, якщо їхні цифрові помічники просто копіюють те, як людина взаємодіє з екраном. Такого висновку дійшли за результатами дослідження, у межах якого порівняли роботу візуальних та API-агентів.
Дослідження проводила платформа корпоративних рішень Reflex, повідомляє The Register.
Візуальний агент у цьому контексті — це ШІ-агент, який імітує людську взаємодію, покладаючись на обробку зображень та оптичне розпізнавання символів (OCR) для роботи з додатком. У цьому випадку це модель Claude Sonnet, що керує інтерфейсом вебдодатка через browser-use 0.12 — інструмент для автоматизованого управління браузером.
API-агент тут означає Claude Sonnet, що взаємодіє з вебдодатком через спеціальні інструменти та API. Агент викликає ті самі механізми обробки, що й графічний інтерфейс (UI), і отримує у відповідь структуровані дані, а не скриншот вебсторінки, який потребує аналізу.
«Два агенти працюють із тим самим активним додатком: один керує інтерфейсом через скриншоти та кліки, а інший звертається до HTTP-ендпоїнтів додатка напряму», — пояснив Палаш Авасті, керівник відділу розвитку Reflex. «Та сама модель Claude Sonnet, той самий закріплений набір даних, те саме завдання. Єдина змінна — це інтерфейс».
Перед кожним агентом поставили таке завдання: «Клієнт на прізвище Сміт поскаржився на нещодавнє замовлення. Знайдіть Сміта з найбільшою кількістю замовлень, прийміть усі його відкладені відгуки та позначте останнє замовлення як доставлене».
За словами Авасті, API-агент виконав завдання лише за вісім викликів. Він вивів список відкладених відгуків, прийняв їх і позначив замовлення як доставлене.
Натомість візуальний агент знайшов лише один із чотирьох відгуків, оскільки не зміг прокрутити сторінку до місця, де були приховані інші три відгуки.
Візуальний аналіз та інтерпретація вебсторінки є фундаментально складнішим завданням для ШІ-моделі, ніж взаємодія з API-викликами та інструментами.
Навіть коли промпт було скориговано, щоб допомогти візуальній моделі працювати краще, агенту знадобилося близько 17 хвилин — це значно довше порівняно з API-агентом, який впорався за приблизно 20 секунд. Візуальний агент також використав набагато більше токенів — приблизно у 45 разів.
Компанія зробила цей тест доступним як бенчмарк для тих, хто зацікавлений у відтворенні результатів.
Авасті зазначив, що різниця у вартості між цими двома підходами зумовлена самою архітектурою: візуальним агентам потрібно «бачити», а це дорого — обробка кожного скриншоту потребує тисяч вхідних токенів.
За оцінками Anthropic, обробка зображення розміром 1000×1000 пікселів моделлю Claude Sonnet 4.6 споживає близько 1334 токенів.
Агент зору витратив близько 500 000 вхідних токенів та близько 38 000 вихідних токенів для виконання свого завдання. Агент API використав близько 12 150 вхідних токенів та близько 934 вихідних токенів.
Для Авасті урок полягає в тому, що хоча агенти візуального аналізу можуть бути необхідними для взаємодії з програмами, які ви не контролюєте, агенти, орієнтовані на всередину, повинні орієнтуватися на API.
Як зекономити ШІ-токени? Добірка інструментів, які створили айтівці, щоб відстежувати витрати у Claude Code
По темi
Як зекономити ШІ-токени? Добірка інструментів, які створили айтівці, щоб відстежувати витрати у Claude Code
ШІ-токени стають частиною винагороди в IT — новий тренд у Кремнієвій долині
По темi
ШІ-токени стають частиною винагороди в IT — новий тренд у Кремнієвій долині
СЕО Nvidia вигадав нову «фішку» для переманювання ІТ-фахівців — токени
По темi
СЕО Nvidia вигадав нову «фішку» для переманювання ІТ-фахівців — токени
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
Схожі новини
MUFG to form strategic partnership with Google
‘Monarch: Legacy of Monsters’ loses its human touch in sprawling second season
Несыгранная роль Робина Уильямса: как Disney потеряла фильм о расстройстве личности