Сообщение Gate News, 24 апреля — DeepSeek выпустила серию моделей V4 с открытым исходным кодом под лицензией MIT; веса теперь доступны на Hugging Face и ModelScope. В серии есть две модели (MoE) с экспертами-смесителями: V4-Pro с 1,6 трлн общих параметров и 49 млрд активируемых на токен, и V4-Flash с 284 млрд общих параметров и 13 млрд активируемых на токен. Обе поддерживают контекстное окно в 1 млн токенов.
Архитектура включает три ключевых улучшения: гибридный механизм внимания, сочетающий сжатое разреженное внимание (CSA) и сильно сжатое внимание (HCA), что существенно снижает издержки для длинного контекста — FLOPs инференса V4-Pro для контекста 1M составляют всего 27% от V3.2, а KV-кэш (VRAM для хранения исторической информации во время инференса) равен лишь 10% от V3.2; manifold-constrained гиперсвязи (mHC) вместо традиционных residual-связей для повышения устойчивости распространения сигнала между слоями; и оптимизатор Muon для более быстрой сходимости обучения. Предобучение использовало более 32 трлн токенов данных.
Постобучение применяет двухэтапный подход: сначала обучение предметно-ориентированных экспертов с помощью supervised fine-tuning (SFT) и reinforcement learning через GRPO, затем объединение их в единую модель посредством онлайн-дистилляции. V4-Pro-Max (highest inference mode) заявляет, что это самая сильная открытая модель с топовыми бенчмарками по кодированию и существенно сократившимися разрывами с закрытыми моделями фронтира по задачам рассуждения и агентным задачам. V4-Flash-Max достигает уровня рассуждений Pro при достаточном вычислительном бюджете, но ограничена масштабом параметров в чисто знаниях и сложных агентных задачах. Веса хранятся в смешанном формате точности FP4+FP8.
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к
Отказу от ответственности.
Связанные статьи
DeepSeek добивается финансирования на $1.8B при оценке $20B Valuation на фоне исхода талантов
Сообщение Gate News, 25 апреля — DeepSeek планирует привлечь $1.8 млрд, оценивая компанию примерно в $20 billion, сообщает со ссылкой на источники, знакомые с ситуацией. По данным источников, усилия по привлечению средств предпринимаются на фоне существенной текучести кадров: несколько ключевых исследователей уходят, чтобы присоединиться к ByteDance, Tencent, Xiaomi и компании в сфере автономного вождения Horizon Robotics.
GateNews50м назад
Судья отклонил обвинения во мошенничестве в иске Илона Маска к OpenAI; дело продвигается к суду с двумя оставшимися требованиями
Сообщение Gate News, 24 апреля — федеральный судья отклонил обвинения во мошенничестве из иска Илона Маска против OpenAI, Сэма Альтмана, Грега Брокмана и Microsoft, открыв путь к тому, чтобы дело перешло к судебному разбирательству по двум оставшимся эпизодам: нарушение благотворительного доверия и необоснованное обогащение. США.
GateNews4ч назад
Генеральный директор OpenAI Сэм Альтман приносит извинения за то, что не сообщил в полицию о запрещённом аккаунте школьного стрелка
Сообщение Gate News, 25 апреля — генеральный директор OpenAI Сэм Альтман извинился перед сообществом Тамборин в Канаде за то, что компания не уведомила полицию о запрещённом аккаунте, связанном с Джесси Ван Рутселаром, который в феврале убил восемь человек в школе, а затем покончил с собой. OpenAI
GateNews4ч назад
ОАЭ объявляют о переходе к модели AI-госуправления в ближайшие два года
Его Высочество шейх Мохаммед бин Рашид Аль Мактум заявил, что цель заключается в том, чтобы 50% государственных секторов работали через автономный агентный ИИ. Переход также будет включать обучение федеральных сотрудников, чтобы «освоить ИИ», и будет контролироваться шейхом Мансуром бин Заидом.
Основные выводы:
Coinpedia4ч назад
Торговая платформа с ИИ Fere AI привлекла $1,3 млн при лидерстве Ethereal Ventures
Новостное сообщение Gate, 25 апреля — Fere AI, платформа для торговли цифровыми активами с использованием ИИ, объявила о завершении раунда финансирования на $1,3 млн под руководством Ethereal Ventures, при участии Galaxy Vision Hill и Kosmos Ventures, согласно Globenewswire.
Платформа поддерживает кроссчейн-сети
GateNews5ч назад
Google удваивает ставку: инвестирует $40 млрд в Anthropic: сначала $10 млрд, затем $30 млрд — по результатам, выделяя вычислительные мощности TPU на 5 ГВт
Alphabet удваивает ставку на Anthropic до 40 млрд долларов, в два этапа: первая транш 10 млрд долларов в виде денежных средств, оценка 380 млрд долларов; оставшиеся 30 млрд долларов будут поэтапно высвобождены после достижения целевых показателей. Google Cloud в течение пяти лет предоставляет вычислительные ресурсы TPU в объеме 5 GW; параллельно Amazon также объявила о максимальных инвестициях в размере 25 млрд долларов, что демонстрирует, что вычислительная мощность и поддержка капиталом Anthropic одновременно усиливаются.
ChainNewsAbmedia6ч назад