Повідомлення Gate News, 24 квітня — DeepSeek випустила серію V4 відкритих моделей із відкритим вихідним кодом під ліцензією MIT, а ваги тепер доступні на Hugging Face та ModelScope. Серія включає дві (MoE) моделі mixture-of-experts: V4-Pro із 1,6 трильйона загальних параметрів і 49 мільярдів активованих на токен, та V4-Flash із 284 мільярдами загальних параметрів і 13 мільярдами активованих на токен. Обидві підтримують контекстне вікно на 1 мільйон токенів.

Архітектура містить три ключові оновлення: гібридний механізм уваги, що поєднує стиснену розріджену attention (CSA) та сильно стиснену attention (HCA), який суттєво зменшує накладні витрати для довгого контексту—FLOPs інференсу V4-Pro для 1M контексту становить лише 27% від V3.2, а KV cache (VRAM для зберігання історичної інформації під час інференсу) — лише 10% від V3.2; manifold-constrained hyperconnections (mHC) замінюють традиційні residual-з’єднання, щоб підвищити стабільність поширення сигналу між шарами; і оптимізатор Muon для швидшого збігання під час тренування. Попереднє навчання використовувало понад 32 трильйони токенів даних.

Післянавчання застосовує двоетапний підхід: спочатку тренування доменно-специфічних експертів через supervised fine-tuning (SFT) та reinforcement learning GRPO, потім об’єднання їх в єдину модель через online distillation. V4-Pro-Max (найвищий режим інференсу) стверджує, що це найсильніша відкрита модель із топовими бенчмарками з кодування та суттєво звуженими розривами з закритими моделями на фронтирі в задачах міркувань і агентів. V4-Flash-Max досягає рівня Pro у міркуваннях за достатнього бюджету обчислень, але обмежується масштабом параметрів у чистих задачах знань і складних задачах агентів. Ваги зберігаються у змішаній точності FP4+FP8.

Переглянути джерело

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Anthropic запроваджує виборчі запобіжники для Claude перед проміжними виборами 2026 року

Новини індустрії ШІ

Anthropic у п’ятницю оголосила низку заходів із забезпечення цілісності виборів, розроблених, щоб не допустити використання її чат-бота Claude на базі ШІ як зброї для поширення дезінформації або маніпулювання виборцями напередодні проміжних виборів у США 2026 року та інших великих змагань у всьому світі цього року. Базована в Сан-Франциско

CryptoFrontier1год тому

DeepRoute.ai покращена допоміжна система керування прориває 300 тис. транспортних засобів у розгортанні: ціль на 2026 рік — 1 млн міського автопарку NOA

Новини індустрії ШІ

DeepRoute.ai оголосила, що її вдосконалена система допомоги водієві в Китаї накопичила понад 300 тисяч одиниць розгорнутого автопарку; протягом минулого року вона допомогла уникнути понад 180 тисяч потенційних інцидентів. Ціль на 2026 рік — автопарк міських NOA досягти 1 мільйона автомобілів, а рівень використання перевищити 50%; це розглядається як ключ до масштабної комерціалізації Robotaxi. Це свідчить про те, що китайське автономне водіння вже перейшло до повсякденного використання, а також водночас формує розбіжність із вертикально інтегрованим шляхом у США, впливаючи на часові рамки азійсько-тихоокеанського ланцюга постачання.

ChainNewsAbmedia2год тому

DeepSeek випускає моделі V4-Pro і V4-Flash із 98% нижчою вартістю, ніж у GPT-5.5 Pro від OpenAI

Новини індустрії ШІ

Повідомлення Gate News, 25 квітня — DeepSeek випустила прев’ю-версії V4-Pro та V4-Flash 24 квітня; обидві — моделі з відкритими вагами з контекстними вікнами на один мільйон токенів. V4-Pro має 1,6 трильйона загальних параметрів, але активує лише 49 мільярдів за один прохід виведення, використовуючи архітектуру Mixture-of-Experts.

GateNews7год тому

Суддя відхиляє звинувачення у шахрайстві в позові Ілона Маска проти OpenAI; справа просувається до суду з двома залишеними твердженнями

Новини індустрії ШІ

Новини Gate, 24 квітня — Федеральний суддя відхилив звинувачення у шахрайстві з позову Ілона Маска проти OpenAI, Сема Альтмана, Грега Брокмана та Microsoft, відкривши шлях для розгляду справи в суді за двома залишеними твердженнями: порушення благодійної довіри та безпідставне збагачення. США.

GateNews11год тому

Гендиректор OpenAI Сем Альтман вибачається за те, що не повідомив поліції про заборонений акаунт стрільця в школі

Новини індустрії ШІ

Повідомлення Gate News, 25 квітня — генеральний директор OpenAI Сем Альтман вибачився перед громадою Тамборін у Канаді за те, що компанія не повідомила поліцію про заборонений акаунт, пов’язаний із Джессі Ван Рутселараром, який у лютому вбив восьмеро людей у школі, а потім наклав на себе руки. OpenAI

GateNews11год тому

ОАЕ оголошують перехід до моделі AI-держави протягом наступних двох років

AI Agent Новини індустрії ШІ

Його Високість шейх Мохаммед бін Рашид Аль Мактум заявив, що метою було забезпечити роботу 50% державних секторів через автономний агентний ШІ. Перехід також включатиме навчання федеральних працівників, щоб «опанувати ШІ», і перебуватиме під наглядом шейха Мансура бін Зайєда. Ключові висновки:

Coinpedia11год тому

Прокоментувати

0/400

Немає коментарів