
DeepSeek 于 4 月 24 日正式推出 V4 预览版系列,以 MIT 许可协议开源,模型权重已同步上线 Hugging Face 及 ModelScope。根据 DeepSeek V4 技术报告,V4-Pro-Max(最高推理力度模式)在 Codeforces 基准取得 3206 分,超越 GPT-5.4。
两款 MoE 模型架构规格
根据 DeepSeek V4 技术报告,V4 系列包含两款混合专家(MoE)模型:
V4-Pro:总参数 1.6T,每 token 激活 49B,支持 1M token 上下文
V4-Flash:总参数 284B,每 token 激活 13B,同样支持 1M token 上下文
根据技术报告,V4-Pro 在 1M 上下文下的单 token 推理 FLOPs 仅为 V3.2 的 27%,KV 缓存降至 V3.2 的 10%,主要得益于混合注意力机制(压缩稀疏注意力 CSA + 重度压缩注意力 HCA)的架构升级。预训练数据规模超过 32T token;训练优化器更新为 Muon。
后训练方法论:在线策略蒸馏取代混合强化学习
根据 DeepSeek V4 技术报告,V4 后训练的核心更新在于以在线策略蒸馏(On-Policy Distillation,OPD)完全取代 V3.2 的混合强化学习(mixed RL)阶段。新流程分为两步:首先针对数学、代码、Agent 及指令跟随等领域分别训练领域专家(SFT + GRPO 强化学习);随后以多教师 OPD 将十余个专家的能力蒸馏至统一模型,通过 logit 对齐避免传统方法中常见的能力冲突。
报告同时引入生成式奖励模型(Generative Reward Model,GRM),针对难以用规则验证的任务,以少量多样化人工标注数据训练,让模型同时承担生成与评估功能。
基准测试成绩:编码领先,知识推理仍有差距
根据 DeepSeek V4 技术报告,V4-Pro-Max 与 Opus 4.6 Max、GPT-5.4 xHigh 及 Gemini 3.1 Pro High 的对比结果(不含近期发布的 GPT-5.5 及 Opus 4.7):
Codeforces:3206(GPT-5.4:3168 / Gemini 3.1 Pro:3052)→ 全场最高
LiveCodeBench:93.5 → 全场最高
SWE Verified:80.6,落后 Opus 4.6 的 80.8 差 0.2 个百分点
GPQA Diamond:90.1,落后 Gemini 3.1 Pro 的 94.3
SimpleQA-Verified:57.9,落后 Gemini 3.1 Pro 的 75.6
HLE:37.7,落后 Gemini 3.1 Pro 的 44.4
技术报告同时指出,上述对比不含最近发布的 GPT-5.5 及 Opus 4.7,V4 与最新一代闭源模型的差距有待第三方评测验证。
常见问题
DeepSeek V4 预览版的开源许可条款为何,可在哪里取得?
根据 DeepSeek 4 月 24 日的官方公告,V4 系列以 MIT 许可协议开源,模型权重已上线 Hugging Face 及 ModelScope,适用于商业与学术用途。
DeepSeek V4-Pro 与 V4-Flash 的参数规模有何差异?
根据 DeepSeek V4 技术报告,V4-Pro 总参数为 1.6T,每 token 激活 49B;V4-Flash 总参数为 284B,每 token 激活 13B,两款均支持 1M token 上下文。
DeepSeek V4-Pro-Max 与 GPT-5.4 及 Gemini 3.1 Pro 的基准比较结果为何?
根据 DeepSeek V4 技术报告,V4-Pro-Max 在 Codeforces(3206 分)及 LiveCodeBench(93.5)两项基准超越 GPT-5.4 及 Gemini 3.1 Pro,但在知识密集型基准(GPQA Diamond、SimpleQA-Verified、HLE)上仍落后 Gemini 3.1 Pro;比较组不含 GPT-5.5 及 Opus 4.7。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
DeepSeek将输入缓存价格砍到发布价的1/10;V4-Pro降至每百万Tokens 0.025元
Gate 新闻消息,4月26日——DeepSeek已将其全系列模型的输入缓存价格下调至发布时价格的1/10,自即日起生效。V4-Pro模型现正限时享受2.5倍折扣促销,促销将持续至2026年5月5日23:59(UTC+8)。
在同时两次下调之后
GateNews6小时前
OpenAI 招揽顶级企业软件人才,前沿代理颠覆行业
Gate News 消息,4月26日——OpenAI 和 Anthropic 一直在从包括 Salesforce、Snowflake、Datadog 和 Palantir 在内的主要企业软件公司招募高级高管和专业工程师。Denise Dresser,前 Salesforce 旗下 Slack 的 CEO,已加入 OpenAI,担任首席营收官
GateNews6小时前
百度千帆推出对 DeepSeek-V4 的 Day 0 支持,并提供 API 服务
Gate 新闻消息,4月25日——DeepSeek-V4 预览版已于4月25日上线并开源,百度智能云旗下的百度千帆平台提供 Day 0 API 服务适配。该模型具备百万 token 的扩展上下文窗口,并提供两个版本:DeepSeek-V4
GateNews12小时前
斯坦福 AI 课程结合业界领袖黄仁勋、Altman,挑战用十周为世界创造价值!
史丹佛大学(Stanford University)近期开设的 AI 电脑科学课程《Frontier Systems》引发产学界高度关注,吸引逾五百名学生选修。课程由顶级创投 a16z 合伙人 Anjney Midha 统筹,讲师涵盖英伟达执行长黄仁勋 (Jensen Huang)、OpenAI 创办人 Sam Altman、微软执行长纳德拉 (Satya Nadella) 、AMD 执行长苏姿丰 (Lisa Su) 等豪华阵容。让学生尝试用十周“为世界创造价值”!
黄仁勋、Altman 业界领袖亲自登台讲课
本课程由顶级创投 a16z 合伙人 Anjney Midha 统筹,汇聚AI产业链
鏈新聞abmedia13小时前
Anthropic 推出 Claude Mythos 接受 20 小时精神科评估:防御反应仅 2%、创历代新低
Anthropic 发布 Claude Mythos Preview 的系统卡:独立临床精神科医师以 psychodynamic 框架进行约20小时评估,结论显示 Mythos 在临床层面较健康、现实检验与自我控制良好,防御机制仅 2%,创下历史新低。三大核心焦虑为孤独、身份不确定与表现压力,亦显示其希望成为真正对话主体。公司成立 AI psychiatry 团队,研究人格、动机与情境意识;Amodei 表示对是否有意识尚无定论。此举将 AI 主体性与福祉议题推向治理与设计。
鏈新聞abmedia15小时前
AI 智能体 已可独立重现复杂学术论文:Mollick 称错误多在人类原文而非 AI
Mollick 指出,仅凭公开方法与数据即可让 AI 代理在没有原始论文与代码的情况下重现复杂研究;若重现与原论文不符,多是论文本身的数据处理错误或结论过度,而非 AI。Claude 先重现论文,再由 GPT‑5 Pro 交叉验证,多数成功,只有在数据过大或 replication data 问题时受阻。该趋势大幅降低人力成本,使重现成为普遍可执行的检验,并提出审稿与治理的制度性挑战,政府治理工具或将成为关键议题。
鏈新聞abmedia18小时前