Google DeepMind 發表全新的機器人基礎模型 Gemini Robotics ER 1.6,其中 ER 代表 Embodied Reasoning(具身推理)。這款模型在視覺與空間推理方面達到當前最佳水準(SOTA),並已透過 Gemini API 開放使用。Google AI 開發者關係負責人 Logan Kilpatrick 在社群媒體上公布了這項消息。(來源)
什麼是 Embodied Reasoning?
Embodied Reasoning 是指 AI 模型理解並推理物理世界的能力。與傳統的語言模型不同,具身推理模型需要處理三維空間中的物體位置、形狀、材質與物理互動關係。Gemini Robotics ER 1.6 專門針對這類任務進行優化,使機器人能夠更準確地理解周圍環境並做出適當的動作決策。
核心能力
Gemini Robotics ER 1.6 的主要優勢集中在兩個面向:
能力 說明 視覺推理 能夠從影像與影片中辨識物體、理解場景結構,並據此進行決策 空間推理 理解三維空間中物體的相對位置、距離與方向,支援複雜的操作規劃
這兩項能力的結合讓機器人能夠處理更複雜的現實世界任務。例如,在倉儲環境中,機器人需要同時辨識不同形狀的物品,並計算最佳的抓取角度與放置位置 — 這正是 Gemini Robotics ER 1.6 所擅長的場景。
透過 Gemini API 使用
與過去許多僅停留在論文階段的機器人模型不同,Gemini Robotics ER 1.6 已經透過 Gemini API 提供存取。這意味著開發者與硬體廠商可以直接將這款模型整合到自己的機器人系統中,無需從零開始訓練模型。
API 的開放也降低了機器人 AI 的開發門檻。過去,開發一套具備視覺與空間推理能力的機器人系統需要大量的資料收集與模型訓練工作。現在,開發者可以專注在硬體設計與應用場景的開發上,將底層的推理能力交給 Gemini Robotics ER 1.6 處理。
Google 的機器人 AI 布局
Gemini Robotics ER 1.6 是 Google DeepMind 在機器人領域的最新成果。從早期的 RT-2 到現在的 Gemini Robotics 系列,Google 持續將大型語言模型的能力延伸到物理世界的互動中。ER 1.6 版本在前代基礎上進一步提升了推理精度,特別是在需要精細操作的場景中表現更為出色。
隨著機器人產業進入新一輪成長期,具備強大視覺與空間推理能力的基礎模型將成為關鍵基礎設施。想了解更多 Gemini 生態系的發展,可以參考 Gemini 完整指南。
這篇文章 Google 推出 Gemini Robotics ER 1.6:SOTA 機器人模型,擅長視覺與空間推理 最早出現於 鏈新聞 ABMedia。
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo
Tuyên bố miễn trừ trách nhiệm.
Bài viết liên quan
Fere AI Hoàn Tất Vòng Gọi Vốn 1,3 Triệu USD Được Dẫn Dắt Bởi Ethereal Ventures
Tin tức từ Gate, ngày 24 tháng 4 — Fere AI, một nền tảng tác nhân giao dịch tài sản kỹ thuật số được hỗ trợ bởi AI, đã công bố hoàn tất vòng gọi vốn trị giá 1,3 triệu USD do Ethereal Ventures dẫn dắt, với Galaxy Vision Hill và Kosmos Ventures tham gia.
Nền tảng hỗ trợ các mạng xuyên chuỗi bao gồm Ethereum,
GateNews16phút trước
Anthropic Hoàn Nguyên Thay Đổi Claude Code Sau Khi Chất Lượng Suy Giảm; Tất Cả Các Sửa Chữa Đã Xong
Tin tức Cổng, ngày 24 tháng 4 — Anthropic đã thừa nhận sự sụt giảm gần đây về chất lượng của Claude Code và xác nhận rằng tất cả các vấn đề liên quan đã được khắc phục thông qua các lần hoàn nguyên (rollbacks) và sửa lỗi. Các vấn đề bắt nguồn từ ba điều chỉnh về sản phẩm và lời nhắc (prompt) được thực hiện trong giai đoạn từ đầu đến giữa tháng 4.
Vào ngày 4 tháng 3, the
GateNews1giờ trước
Đồng sáng lập NeoSoul Kaelan: Ngành AI nên cho phép sự tồn tại của đồ chơi, đổi mới thường bắt đầu từ các sản phẩm thử nghiệm
Tin tức Gate, ngày 24 tháng 4 — Tại một diễn đàn gần đây ở Hồng Kông về tài chính mã hóa thông minh, đồng sáng lập NeoSoul Kaelan đã chia sẻ những hiểu biết về việc đánh giá các dự án AI ở giai đoạn đầu, trong ngành AI phát triển nhanh chóng và liên tục thay đổi. Ngoài việc đánh giá các sản phẩm hiện tại, các nhóm phải chứng minh khả năng bắt kịp với các năng lực của mô hình nền tảng, ông cho biết. Kaelan nhấn mạnh rằng khởi nghiệp AI cần cả sự vững nền và tầm nhìn: vững nền nghĩa là có năng lực về triển khai kỹ thuật, thiết kế sản phẩm và hiểu biết thị trường để tạo ra các sản phẩm hữu hình; tầm nhìn nghĩa là xây dựng phù hợp với các xu hướng phát triển của các mô hình ngôn ngữ lớn.
Kaelan lập luận rằng dù một số sản phẩm AI giai đoạn đầu có thể trông như đồ chơi, những hình thức như vậy nên được cho phép trong các ngành công nghiệp đang hình thành. Nhiều mô hình hoàn toàn mới thực sự lần đầu tiên xuất hiện dưới dạng sản phẩm thử nghiệm trước khi đạt đến độ trưởng thành.
GateNews2giờ trước
Meta sẽ triển khai hàng chục triệu chip AWS Graviton5 trong thỏa thuận đa năm trị giá hàng tỷ đô la
Tin tức Gate, ngày 24 tháng 4 — Meta đã ký một thỏa thuận nhiều năm với Amazon Web Services để triển khai hàng chục triệu bộ xử lý Graviton5 cho cơ sở hạ tầng AI của mình, khiến Meta trở thành một trong những khách hàng Graviton lớn nhất của AWS trên toàn cầu. Thỏa thuận này kéo dài từ ba đến năm năm, được định giá lên tới hàng tỷ đô la, theo Phó Chủ tịch AWS Nafea Bshara.
GateNews2giờ trước
DeepSeek V4-Flash lên Ollama Cloud, máy chủ Mỹ: Claude Code, OpenClaw tích hợp một lần
Ollama Cloud đã niêm yết DeepSeek V4-Flash, suy luận trên máy chủ tại Mỹ, cung cấp ba bộ lệnh một lần để kết nối Claude Code, OpenClaw, Hermes. V4-Flash/V4-Pro sử dụng kiến trúc MoE, hỗ trợ nguyên sinh ngữ cảnh 1M, và giảm chi phí bằng nén theo Token-wise + chú ý thưa DSA; trong bối cảnh 1M, FLOPs cho mỗi token giảm 27%, bộ nhớ đệm KV giảm 10%. API tương thích với OpenAI ChatCompletions và Anthropic, giúp chuyển đổi dễ dàng giữa nhiều quy trình làm việc, đồng thời giảm chi phí và rủi ro về chủ quyền dữ liệu.
ChainNewsAbmedia3giờ trước
Web3 AI Infrastructure AIW3 huy động $2M trong vòng seed do Buffalo Capital dẫn dắt
Tin tức từ Gate, ngày 24 tháng 4 — Nền tảng hạ tầng Web3 AI AIW3 thông báo hoàn tất vòng gọi vốn seed trị giá $2 triệu đô la. Vòng này do Buffalo Capital dẫn dắt, với GalaXin Capital và Three-stones Ventures tham gia với vai trò đồng đầu tư.
AIW3 đang chuyển dịch sang mô hình thực thi trên chuỗi Agent-as-a-Service
GateNews4giờ trước