Google DeepMind 发布了全新的机器人基础模型 Gemini Robotics ER 1.6,其中 ER 代表 Embodied Reasoning(具身推理)。该模型在视觉与空间推理方面达到了当前最佳水平(SOTA),并已通过 Gemini API 开放使用。Google AI 开发者关系负责人 Logan Kilpatrick 在社交媒体上公布了这项消息。(来源)
什么是 Embodied Reasoning?
Embodied Reasoning 是指 AI 模型理解并推理物理世界的能力。与传统的语言模型不同,具身推理模型需要处理三维空间中的物体位置、形状、材质与物理交互关系。Gemini Robotics ER 1.6 专门针对这类任务进行优化,使机器人能够更准确地理解周围环境并做出适当的动作决策。
核心能力
Gemini Robotics ER 1.6 的主要优势集中在两个方面:
能力 说明 视觉推理 能够从影像与视频中识别物体、理解场景结构,并据此进行决策 空间推理 理解三维空间中物体的相对位置、距离与方向,支持复杂的操作规划
这两项能力的结合让机器人能够处理更复杂的现实世界任务。例如,在仓储环境中,机器人需要同时识别不同形状的物品,并计算最佳的抓取角度与放置位置——这正是 Gemini Robotics ER 1.6 所擅长的场景。
通过 Gemini API 使用
与过去许多仅停留在论文阶段的机器人模型不同,Gemini Robotics ER 1.6 已经通过 Gemini API 提供访问。这意味着开发者与硬件厂商可以直接将这款模型整合到自己的机器人系统中,无需从零开始训练模型。
API 的开放也降低了机器人 AI 的开发门槛。过去,要开发一套具备视觉与空间推理能力的机器人系统需要大量的数据收集与模型训练工作。现在,开发者可以专注于硬件设计与应用场景的开发上,把底层的推理能力交给 Gemini Robotics ER 1.6 来处理。
Google 的机器人 AI 布局
Gemini Robotics ER 1.6 是 Google DeepMind 在机器人领域的最新成果。从早期的 RT-2 到现在的 Gemini Robotics 系列,Google 持续将大型语言模型的能力延伸到物理世界的交互中。ER 1.6 版本在前代基础上进一步提升了推理精度,尤其在需要精细操作的场景中表现更为出色。
随着机器人产业进入新一轮成长期,具备强大视觉与空间推理能力的基础模型将成为关键基础设施。想了解更多 Gemini 生态系统的发展,可以参考 Gemini 完整指南。
这篇文章 Google 推出 Gemini Robotics ER 1.6:SOTA 机器人模型,擅长视觉与空间推理 最早出现在 链新闻 ABMedia。
相关文章