DeepSeek发布V4开源模型系列,参数达1.6T并采用MIT许可证

Gate News消息,4月24日——DeepSeek已在MIT许可证下发布V4系列开源模型,权重现已在Hugging Face和ModelScope提供。该系列包含两个混合专家 (MoE) 模型:V4-Pro 总参数达1.6万亿,且每token激活49亿,以及V4-Flash 总参数达2840亿,且每token激活130亿。两者都支持100万token的上下文窗口。

该架构带来三项关键升级:一种混合注意力机制,将压缩稀疏注意力 (CSA) 与高度压缩注意力 (HCA) 结合,大幅降低长上下文开销——V4-Pro在1M上下文下的推理FLOPs仅为V3.2的27%,用于在推理过程中存储历史信息的KV缓存 (VRAM) 也仅为V3.2的10%;用流形约束的超连接 (mHC) 替代传统的残差连接,以增强跨层信号传播的稳定性;并采用Muon优化器以实现更快的训练收敛。预训练使用了超过32万亿tokens的数据。

后训练采用两阶段方案:首先通过监督微调 (SFT) 和GRPO强化学习训练领域特定专家,然后通过在线蒸馏将它们合并为单一模型。V4-Pro-Max (最高推理模式) 宣称在顶级代码基准上拥有最强的开源模型实力,并且在推理和智能体任务上与闭源前沿模型之间的差距显著缩小。V4-Flash-Max在足够的计算预算下实现Pro级推理性能,但在纯知识和复杂智能体任务上受限于参数规模。权重以混合FP4+FP8精度存储。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

DeepSeek 以 $20B 估值寻求 18 亿美元融资,伴随人才流失

Gate 新闻消息,4月25日——据知情人士透露,DeepSeek 正计划融资 18 亿美元,估值约为 $20 billion。随着这家 AI 初创公司面临严重的人才流失,多位核心研究人员离职加入字节跳动、腾讯、小米,以及自动驾驶公司 Horizon Robotics,推动了本轮融资的进程。

GateNews3小时前

法官驳回埃隆·马斯克在其 OpenAI 诉讼中的欺诈指控;案件进入审判,仍剩两项指控

Gate News 消息,4月24日——一名联邦法官驳回了埃隆·马斯克针对 OpenAI 提起的诉讼中的欺诈指控(被告包括 OpenAI、山姆·奥特曼、格雷格·布罗克曼和微软),从而为案件就两项仍然存续的指控进入审判铺平道路:违反慈善信托和不当得利。美国

GateNews6小时前

OpenAI首席执行官萨姆·奥特曼就未向警方报告校园枪手的被禁账户道歉

通告新闻,4月25日——OpenAI首席执行官萨姆·奥特曼(Sam Altman)因公司未能就与杰西·范·罗特塞拉尔(Jesse Van Rootselaar)相关的被禁账户通知警方,向加拿大的坦博琳(Tamborine)社区道歉。该账户相关人员在2月份于一所学校杀害了8人,随后自杀。OpenAI

GateNews6小时前

阿联酋宣布在未来两年内转向 AI 政府模式

谢赫·穆罕默德·本·拉希德·阿勒马克图姆殿下表示,目标是让50%的政府部门通过自治的代理式AI运作。转型还将包括培训联邦雇员以“精通AI”,并将由谢赫·曼苏尔·本·扎耶德监督。 要点:

Coinpedia7小时前

AI 交易平台 Fere AI 融资 130 万美元,融资由 Ethereal Ventures 牵头

Gate News 消息,4 月 25 日——据 Globenewswire 报道,由 Ethereal Ventures 牵头、Galaxy Vision Hill 和 Kosmos Ventures 参与的 130 万美元融资轮已完成,Fere AI(一个由人工智能驱动的数字资产交易平台)宣布了该消息。 该平台支持跨链

GateNews7小时前

Google 加码 400 亿美元投资 Anthropic:先付 100 亿、再依业绩释放 300 亿,配 5GW TPU 算力

Alphabet 向 Anthropic 追加 400 亿美元,分两阶段:首笔 100 亿美元现金注入、估值 3,800 亿美元;剩余 300 亿美元在业绩达标后分阶段释放。Google Cloud 在五年内提供 5 GW TPU 计算资源;同期 Amazon 也宣布最高 250 亿美元投资,显示 Anthropic 的算力与资本支持同步增强。

鏈新聞abmedia8小时前
评论
0/400
暂无评论