10 терабайтів інформації. Укрдержархів передав дані для навчання українського ШІ «Сяйво»
Державна архівна служба України передала 10 терабайтів даних для навчання національної мовної моделі «Сяйво». Йдеться про історичні матеріали, документи та наукові тексти.
Про це повідомили в Міністерстві цифрової трансформації.
Передача даних відбулася вперше, адже раніше Укрдержархів не надавав таких матеріалів для розвитку цифрових сервісів.
Обсяг переданої інформації еквівалентний приблизно 70 тисячам книжок. До даних, які передали входять історичні джерела, рукописи, державні документи, закони, судові рішення, медіаматеріали та словники.
У Мінцифри зазначають, що більшість глобальних ШІ-помічників генерують відповіді англійською мовою з подальшим перекладом українською, а це може призводити до втрати контексту.
Наразі до збору даних для української LLM долучилися понад 50 партнерів, серед яких медіа, університети та бібліотеки. Повний перелік учасників планують оприлюднити після запуску моделі.
Що відомо про український ШІ
1 грудня стало відомо, що Міністерство цифрової трансформації обрали Gemma 3 від Google як базову модель для створення національної української великої мовної моделі (LLM).
Навчання LLM відбувається на основі сімейства моделей Gemma від Google з подальшою адаптацією під українську мову та національний контекст.
Заступниця міністра цифрової трансформації Валерія Коваль у колонці для AIN розповіла, що мовну модель насамперед використовуватимуть у державному секторі для автоматизації та покращення якості послуг.
За її словами, це дозволить користувачам отримувати відповіді на складні запити миттєво, а самі сервіси стануть більш персоналізованими та зрозумілими. Також «Сяйво» залучатимуть до реалізації важливих оборонних рішень.
Запустити відкрите бета-тестування планують наприкінці цієї весни. Насамперед доступ матимуть державні інституції та науковці.
Детальніше про українську LLM читайте у колонці: «Сяйво»: нова назва українського ШІ. Чому важливий запуск національної LLM — розповідає Мінцифра