Живе мовлення, переклад і транскрипція. OpenAI представила нові голосові ШІ-моделі
OpenAI представила нове покоління аудіомоделей для API, які дозволяють створювати голосові ШІ-сервіси з перекладом у реальному часі, транскрипцією та підтримкою складних діалогів.
Про це йдеться в повідомленні OpenAI.
Компанія анонсувала три нові моделі: GPT-Realtime-2, GPT-Realtime-Translate і GPT-Realtime-Whisper.
В OpenAI заявили, що нові моделі мають зробити голосову взаємодію з ШІ більш природною та функціональною.
GPT-Realtime-2: покращений діалог
GPT-Realtime-2 — це перша голосова модель компанії з «рівнем міркування GPT-5». Вона може підтримувати довші розмови, працювати з інструментами під час діалогу, реагувати на зміни контексту та обробляти складніші запити.
Серед нових можливостей моделі:
- контекстне вікно збільшили з 32Kб до 128Kб;
- модель може одночасно запускати кілька інструментів;
- ШІ навчився краще реагувати на перебивання та помилки;
- розробники можуть окремо налаштовувати рівень reasoning — від minimal до high;
- модель краще працює зі спеціалізованою термінологією, власними назвами та медичними термінами.
OpenAI зазначає, що GPT-Realtime-2 показала кращі результати в тестах Big Bench Audio та Audio MultiChallenge порівняно з попередньою версією GPT-Realtime-1.5.
GPT-Realtime-Translate: переклад у реальному часі
Компанія також представила GPT-Realtime-Translate — модель для миттєвого голосового перекладу.
Вона підтримує понад 70 мов введення та 13 мов виведення. За задумом OpenAI, модель можна використовувати для підтримки клієнтів, міжнародних дзвінків, освіти, заходів або багатомовних ШІ-асистентів.
Наприклад, у компанії Deutsche Telekom тестують модель для голосової підтримки клієнтів різними мовами.
А стартап BolnaAI заявив, що GPT-Realtime-Translate показала нижчий рівень помилок у роботі з індійськими мовами, ніж інші протестовані рішення.
GPT-Realtime-Whisper: нова модель для транскрипції
Третя модель — GPT-Realtime-Whisper — призначена для стримінгового speech-to-text.
Вона транскрибує мовлення в режимі реального часу та може використовуватися для субтитрів, нотаток під час дзвінків, роботи голосових агентів або автоматизації підтримки клієнтів.
Усі три моделі вже доступні через Realtime API.
OpenAI повідомила, що:
- GPT-Realtime-2 коштує $32 за 1 млн аудіотокенів на вході та $64 — на виході;
- GPT-Realtime-Translate — $0,034 за хвилину;
- GPT-Realtime-Whisper — $0,017 за хвилину.
Читайте також: Anthropic, Blackstone та інші компанії готують спільне ШІ-підприємство за $1,5 млрд, орієнтоване на бізнес