Gate News 消息,4月24日——DeepSeek V4 已发布来自形式化数学推理评测的结果,在 Putnam-2025 上获得满分 120/120,与 Axiom 并列第一。
在使用 LeanExplore 和受约束采样的实际模式下,V4-Flash-Max 在 Putnam-200 Pass@8 基准测试中得分 81.00,显著优于 Seed-2.0-Prover (35.50)、Gemini 3 Pro (26.50) 和 Seed-1.5-Prover (26.50)。前沿模式的结果显示,V4 在 Seed-1.5-Prover (110/120) 与 Aristotle (100/120) 之前。
V4 采用混合的形式化-非形式化推理方法:非形式化推理生成候选自然语言解答,自我验证用于筛选结果,而形式化智能体在 Lean 中完成严格证明。前沿结果采用了大规模计算扩展,而实际模式分数更能反映标准部署能力。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
Gentrace 联合创始人 Doug Safreno 和 Vivek Nair 加入 Anthropic,AI 评估工具关闭之后
Gate News 消息,4月27日——AI评估与可观测性平台 Gentrace 的联合创始人兼CEO Doug Safreno 在 X 上宣布,他已加入 Anthropic。Gentrace 帮助企业测试和监控 LLM 输出质量,获得了由 Matrix 领投的 $8 百万美元 A 轮融资
GateNews21 分钟前
加州法院审理马斯克对 OpenAI 诉讼,微软 CEO 将出庭作证
埃隆·马斯克(Elon Musk)就 OpenAI 涉嫌背弃非营利创始承诺提起的诉讼,于 4 月 27 日在加州法院启动陪审团遴选,审判法官为 Yvonne Gonzalez Rogers。根据法庭文件,微软执行长萨蒂亚·纳德拉(Satya Nadella)列为审判期间的出庭作证人,于 5 月中旬前作出最终裁决。
Market Whisper44 分钟前
三星 SDS 在韩国获得出售 OpenAI 的 ChatGPT Edu 权利
Gate News 消息,4月27日——三星集团旗下的 IT 服务部门三星 SDS(Samsung SDS)宣布,它已获得出售 OpenAI 的 ChatGPT Edu 的相关权利。该公司正在与韩国国家广播与通信大学(National Korea Broadcasting and Communications University)开展概念验证,覆盖约 90,000 名学生、
GateNews48 分钟前
印度在班加罗尔启动 $650M AI 城市项目,目标到 2030 年吸引 25,000 名研究人员
Gate News 消息,4月27日——印度正在班加罗尔开发一个 $650 百万美元的 AI 城市,配备一座占地 500,000 平方英尺的设施,旨在成为全球首个用于代理式 AI 的实体实验室。该项目为四家主要 AI 云服务提供商提供 400 Gbps 的连接,并计划在
GateNews58 分钟前
Sam Altman 阐述 OpenAI 的五项运营原则,暗示为安全可能实施的未来模型能力限制
Gate News 消息,4月27日——OpenAI 首席执行官 Sam Altman 以其个人署名发布了公司五项运营原则,表明 OpenAI 可能会在某些时期限制用户访问模型能力,以优先考虑安全。在声明中,Altman 描述了一个潜在的未来情景,即公司需要“在牺牲部分赋能以换取更强韧性”的情况下推进。
GateNews1小时前
DeepSeek 延迟 V4 推出 以优化适配华为的昇腾芯片
Gate News 消息,4月27日——DeepSeek 推迟了其 V4 模型的发布,以便对其软件堆栈进行微调以适配华为的昇腾芯片,反映出北京更广泛的举措:随着对先进外国半导体的获取日益受限,推动建设本土 AI 供应链。
DeepSe
GateNews2小时前