DeepSeek випустив "найпотужнішу" ШІ-модель із відкритим кодом
Китайський стартап DeepSeek випустив прев'ю-версії нової флагманської ШІ-моделі V4.
DeepSeek назвав її найпотужнішою моделлю з відкритим вихідним кодом (open source), відзначивши високі результати V4 у програмуванні та значний прогрес у галузях міркувань (reasoning) і виконання агентських завдань.
Модель має дві лінійки – V4 Flash і V4 Pro. У них реалізовані архітектурні та оптимізаційні поліпшення, повідомила компанія на платформі Hugging Face.
Бюджетна Flash має 284 млрд параметрів, включно з 13 млрд активних, просунута Pro – 1,6 трлн параметрів (49 млрд активних), ідеться в її повідомленні в соцмережі X.
Версія Pro порівнянна за результатами з найкращими світовими моделями із закритим кодом, заявляє DeepSeek. При цьому вартість її експлуатації (інференсу) значно нижча, ніж у аналогів.
V4 заснована на так званій архітектурі гібридної уваги (Hybrid Attention Architecture), що поліпшує здатність запам'ятовувати запити в рамках довгих діалогів. Вона також підтримує контекст завдовжки до 1 млн токенів (одиниць текстової або іншої інформації, 100 токенів еквівалентні приблизно 75 англійським словам – ІФ-У), що дає змогу обробляти довгі документи або цілі бази коду за один прийом.
DeepSeek у WeChat вказує на надзвичайно обмежену наявність обчислювальних потужностей для обслуговування V4 Pro, але прогнозує значне зниження цін на модель після запуску комп'ютерних кластерів на чипах Huawei Ascend 950 у другому півріччі.
Після цього повідомлення акції основного чипмейкера Huawei – Semiconductor Manufacturing International Corp. (SMIC) – підскочили на 9,4% у Гонконзі. Інший чипмейкер – Hua Hong Semiconductor – наростив капіталізацію більш ніж на 13%. Папери компанії Knowledge Atlas Technology (колишня Zhipu), яка конкурує з DeepSeek, впали на 8%.
Наразі DeepSeek обговорює залучення капіталу від Tencent і Alibaba в рамках свого першого інвестраунду, пише Bloomberg.
DeepSeek здобула широку популярність на початку минулого року після виходу моделі R1. Порівняно з розробками OpenAI, ця модель вимагала набагато менше витрат на навчання, що спричинило сильні зміни котирувань на світових ринках акцій, обваливши вартість Nvidia за одну сесію майже на $600 млрд.
Теги: #ші #deepseek #модельСхожі новини
Iranian foreign minister arrives in Pakistan, Trump expects offer satisfying U.S. demands
США запровадили санкції проти китайського нафтопереробного гіганта та "тіньового флоту" Ірану
Коли садити троянди, щоб вони швидко прижилися і рясно цвіли