DeepSeek випускає серію відкритих моделей V4 із 1,6T параметрів і ліцензією MIT

Повідомлення Gate News, 24 квітня — DeepSeek випустила серію V4 відкритих моделей із відкритим вихідним кодом під ліцензією MIT, а ваги тепер доступні на Hugging Face та ModelScope. Серія включає дві (MoE) моделі mixture-of-experts: V4-Pro із 1,6 трильйона загальних параметрів і 49 мільярдів активованих на токен, та V4-Flash із 284 мільярдами загальних параметрів і 13 мільярдами активованих на токен. Обидві підтримують контекстне вікно на 1 мільйон токенів.

Архітектура містить три ключові оновлення: гібридний механізм уваги, що поєднує стиснену розріджену attention (CSA) та сильно стиснену attention (HCA), який суттєво зменшує накладні витрати для довгого контексту—FLOPs інференсу V4-Pro для 1M контексту становить лише 27% від V3.2, а KV cache (VRAM для зберігання історичної інформації під час інференсу) — лише 10% від V3.2; manifold-constrained hyperconnections (mHC) замінюють традиційні residual-з’єднання, щоб підвищити стабільність поширення сигналу між шарами; і оптимізатор Muon для швидшого збігання під час тренування. Попереднє навчання використовувало понад 32 трильйони токенів даних.

Післянавчання застосовує двоетапний підхід: спочатку тренування доменно-специфічних експертів через supervised fine-tuning (SFT) та reinforcement learning GRPO, потім об’єднання їх в єдину модель через online distillation. V4-Pro-Max (найвищий режим інференсу) стверджує, що це найсильніша відкрита модель із топовими бенчмарками з кодування та суттєво звуженими розривами з закритими моделями на фронтирі в задачах міркувань і агентів. V4-Flash-Max досягає рівня Pro у міркуваннях за достатнього бюджету обчислень, але обмежується масштабом параметрів у чистих задачах знань і складних задачах агентів. Ваги зберігаються у змішаній точності FP4+FP8.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Anthropic запроваджує виборчі запобіжники для Claude перед проміжними виборами 2026 року

Anthropic у п’ятницю оголосила низку заходів із забезпечення цілісності виборів, розроблених, щоб не допустити використання її чат-бота Claude на базі ШІ як зброї для поширення дезінформації або маніпулювання виборцями напередодні проміжних виборів у США 2026 року та інших великих змагань у всьому світі цього року. Базована в Сан-Франциско

CryptoFrontier1год тому

DeepRoute.ai покращена допоміжна система керування прориває 300 тис. транспортних засобів у розгортанні: ціль на 2026 рік — 1 млн міського автопарку NOA

DeepRoute.ai оголосила, що її вдосконалена система допомоги водієві в Китаї накопичила понад 300 тисяч одиниць розгорнутого автопарку; протягом минулого року вона допомогла уникнути понад 180 тисяч потенційних інцидентів. Ціль на 2026 рік — автопарк міських NOA досягти 1 мільйона автомобілів, а рівень використання перевищити 50%; це розглядається як ключ до масштабної комерціалізації Robotaxi. Це свідчить про те, що китайське автономне водіння вже перейшло до повсякденного використання, а також водночас формує розбіжність із вертикально інтегрованим шляхом у США, впливаючи на часові рамки азійсько-тихоокеанського ланцюга постачання.

ChainNewsAbmedia2год тому

DeepSeek випускає моделі V4-Pro і V4-Flash із 98% нижчою вартістю, ніж у GPT-5.5 Pro від OpenAI

Повідомлення Gate News, 25 квітня — DeepSeek випустила прев’ю-версії V4-Pro та V4-Flash 24 квітня; обидві — моделі з відкритими вагами з контекстними вікнами на один мільйон токенів. V4-Pro має 1,6 трильйона загальних параметрів, але активує лише 49 мільярдів за один прохід виведення, використовуючи архітектуру Mixture-of-Experts.

GateNews7год тому

Суддя відхиляє звинувачення у шахрайстві в позові Ілона Маска проти OpenAI; справа просувається до суду з двома залишеними твердженнями

Новини Gate, 24 квітня — Федеральний суддя відхилив звинувачення у шахрайстві з позову Ілона Маска проти OpenAI, Сема Альтмана, Грега Брокмана та Microsoft, відкривши шлях для розгляду справи в суді за двома залишеними твердженнями: порушення благодійної довіри та безпідставне збагачення. США.

GateNews11год тому

Гендиректор OpenAI Сем Альтман вибачається за те, що не повідомив поліції про заборонений акаунт стрільця в школі

Повідомлення Gate News, 25 квітня — генеральний директор OpenAI Сем Альтман вибачився перед громадою Тамборін у Канаді за те, що компанія не повідомила поліцію про заборонений акаунт, пов’язаний із Джессі Ван Рутселараром, який у лютому вбив восьмеро людей у школі, а потім наклав на себе руки. OpenAI

GateNews11год тому

ОАЕ оголошують перехід до моделі AI-держави протягом наступних двох років

Його Високість шейх Мохаммед бін Рашид Аль Мактум заявив, що метою було забезпечити роботу 50% державних секторів через автономний агентний ШІ. Перехід також включатиме навчання федеральних працівників, щоб «опанувати ШІ», і перебуватиме під наглядом шейха Мансура бін Зайєда. Ключові висновки:

Coinpedia11год тому
Прокоментувати
0/400
Немає коментарів