小米披露 MiMo-V2-Pro 训练细节:1T 模型参数,部署成千上万台 GPU

Gate News 消息,4月24日——小米的大语言模型团队负责人罗福丽在一场深入采访中透露,MiMo-V2-Pro 模型的总参数量达到 1 万亿,并且训练过程中需要成千上万台 GPU。她表示,1T 规模代表要实现接近 Claude Opus 4.6 等级的性能,并为下一阶段 AI 智能体抢占具备竞争力的入场券所达到的最低门槛

从技术层面看,Pro 版本采用极端稀疏注意力机制,在全局注意力与滑动窗口注意力之间的比例为 7:1,从而在长上下文处理时控制推理成本。模型还保留了 MTP (Multi-Token Prediction) 架构,以利用富余的计算能力实现更快的推理。

在管理层面,100 人规模的 MiMo 团队中,直接参与核心迭代的只有 30-40 人。团队在没有正式层级或明确子分组划分的情况下运作,也没有交付截止期限。遇到诸如训练损失突增这类不稳定的数值问题时,团队会优先考虑停止训练以进行排查,即使这意味着停止业务一到两周,并产生数百万美元的计算成本。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

Anthropic 在 2026 年中期选举前为 Claude 部署选举保障措施

Anthropic 周五宣布了一系列选举诚信举措,旨在防止其 Claude AI 聊天机器人被武器化,用于传播虚假信息或操纵选民,以应对 2026 年美国中期选举以及今年全球其他重大选举。总部位于旧金山的

Crypto Frontier2小时前

DeepRoute.ai 进阶辅助驾驶系统突破 30 万车辆部署:2026 目标 100 万城市 NOA 车队

DeepRoute.ai 宣布其先进辅助驾驶在中国累计部署逾30万辆,过去一年协助避免逾18万次潜在事故。2026 年目标为城市 NOA 车队达100 万辆、使用率超过 50%,被视为 Robotaxi 大规模商用化的关键。此举显示中国自动驾驶已进入常态化使用,同时与美国垂直整合路径形成分野,影响亚太供应链时序。

鏈新聞abmedia3小时前

DeepSeek 以比 OpenAI 的 GPT-5.5 Pro 低 98% 成本发布 V4-Pro 和 V4-Flash 模型

Gate News 消息,4月25日——DeepSeek 于 4月24日发布了 V4-Pro 和 V4-Flash 的预览版本;两者均为开源权重模型,拥有一百万 token 的上下文窗口。V4-Pro 具备 1.6 万亿的总参数,但在每次推理时仅激活 490亿,采用了 Mixture-of-Experts(混合专家)架构。

GateNews8小时前

法官驳回埃隆·马斯克在其 OpenAI 诉讼中的欺诈指控;案件进入审判,仍剩两项指控

Gate News 消息,4月24日——一名联邦法官驳回了埃隆·马斯克针对 OpenAI 提起的诉讼中的欺诈指控(被告包括 OpenAI、山姆·奥特曼、格雷格·布罗克曼和微软),从而为案件就两项仍然存续的指控进入审判铺平道路:违反慈善信托和不当得利。美国

GateNews12小时前

OpenAI首席执行官萨姆·奥特曼就未向警方报告校园枪手的被禁账户道歉

通告新闻,4月25日——OpenAI首席执行官萨姆·奥特曼(Sam Altman)因公司未能就与杰西·范·罗特塞拉尔(Jesse Van Rootselaar)相关的被禁账户通知警方,向加拿大的坦博琳(Tamborine)社区道歉。该账户相关人员在2月份于一所学校杀害了8人,随后自杀。OpenAI

GateNews12小时前

阿联酋宣布在未来两年内转向 AI 政府模式

谢赫·穆罕默德·本·拉希德·阿勒马克图姆殿下表示,目标是让50%的政府部门通过自治的代理式AI运作。转型还将包括培训联邦雇员以“精通AI”,并将由谢赫·曼苏尔·本·扎耶德监督。 要点:

Coinpedia12小时前
评论
0/400
暂无评论