A Google lança o Gemini Robotics ER 1.6: modelo de robótica SOTA, especialista em raciocínio visual e espacial

A Google DeepMind publicou um modelo de base totalmente novo para robôs, o Gemini Robotics ER 1.6, em que o ER significa Embodied Reasoning (raciocínio incorporado). Este modelo alcança o atual melhor nível (SOTA) em raciocínio visual e espacial e já foi disponibilizado através da Gemini API. Logan Kilpatrick, responsável pelas relações com programadores de IA na Google, divulgou esta notícia nas redes sociais. (Fonte)

O que é o Embodied Reasoning?

Embodied Reasoning refere-se à capacidade dos modelos de IA compreenderem e raciocinarem sobre o mundo físico. Ao contrário dos modelos de linguagem tradicionais, os modelos de raciocínio incorporado precisam de lidar com a posição dos objetos no espaço tridimensional, bem como com a sua forma, materiais e relações de interação física. O Gemini Robotics ER 1.6 foi otimizado especificamente para este tipo de tarefas, permitindo que os robôs compreendam com mais precisão o ambiente envolvente e tomem decisões adequadas sobre as ações a executar.

Capacidades principais

As principais vantagens do Gemini Robotics ER 1.6 concentram-se em duas vertentes:

Capacidade Descrição Raciocínio visual Capacidade de identificar objetos a partir de imagens e vídeos, compreender a estrutura do cenário e, com base nisso, tomar decisões Raciocínio espacial Compreender a posição relativa, a distância e a direção dos objetos no espaço tridimensional, apoiando a planificação de operações complexas

A combinação destas duas capacidades permite que os robôs lidem com tarefas do mundo real mais complexas. Por exemplo, num ambiente de armazém, o robô precisa de identificar simultaneamente objetos de diferentes formas e calcular o melhor ângulo de pega e a posição de colocação — exatamente o tipo de cenário em que o Gemini Robotics ER 1.6 é particularmente competente.

Utilização através da Gemini API

Ao contrário de muitos modelos de robôs do passado que ficaram apenas na fase de artigo, o Gemini Robotics ER 1.6 já disponibiliza acesso através da Gemini API. Isto significa que os programadores e os fabricantes de hardware podem integrar diretamente este modelo nos seus próprios sistemas de robôs, sem necessidade de treinar o modelo do zero.

A disponibilização da API também reduz o limiar para o desenvolvimento de IA para robôs. No passado, desenvolver um sistema de robôs com capacidades de raciocínio visual e espacial exigia uma recolha massiva de dados e trabalho de treino de modelos. Agora, os programadores podem concentrar-se no desenvolvimento do design do hardware e dos casos de uso, deixando as capacidades de raciocínio de base a cargo do Gemini Robotics ER 1.6.

O posicionamento da Google em IA para robôs

O Gemini Robotics ER 1.6 é o mais recente resultado da Google DeepMind na área da robótica. Do RT-2, numa fase inicial, até à série Gemini Robotics de hoje, a Google tem continuado a expandir as capacidades dos grandes modelos de linguagem para a interação com o mundo físico. A versão ER 1.6 melhora ainda mais a exatidão do raciocínio face aos antecessores, destacando-se particularmente em cenários que exigem manipulações mais precisas.

À medida que a indústria de robôs entra numa nova fase de crescimento, os modelos de base com fortes capacidades de raciocínio visual e espacial tornar-se-ão infraestrutura-chave. Para saber mais sobre a evolução do ecossistema Gemini, pode consultar o guia completo do Gemini.

Este artigo Google lançou o Gemini Robotics ER 1.6: modelo de robôs SOTA, especializado em raciocínio visual e espacial foi publicado pela primeira vez em Cadeia de Notícias ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

A Anthropic Implementa Salvaguardas Eleitorais para o Claude Antes das Eleições Gerais de 2026

A Anthropic anunciou na sexta-feira um conjunto de medidas de integridade eleitoral concebidas para impedir que o seu chatbot de IA Claude seja usado como arma para espalhar desinformação ou manipular eleitores antes das eleições legislativas intercalares dos EUA de 2026 e de outras grandes contendas a nível mundial este ano. A sede da San Francisco-based

CryptoFrontier1h atrás

DeepRoute.ai Sistema avançado de assistência à condução supera o avanço de 300 000 veículos: Objetivo de 2026: uma frota de 1 milhão de veículos NOA da cidade

DeepRoute.ai anuncia que o seu avançado sistema de assistência à condução já foi implantado em mais de 300.000 veículos na China, tendo evitado mais de 180.000 potenciais incidentes ao longo do ano passado. A meta para 2026 é atingir 1 milhão de veículos na frota de NOA urbana, com uma utilização superior a 50%, sendo considerado um fator-chave para a comercialização em larga escala do Robotaxi. Este movimento mostra que a condução autónoma na China entrou numa utilização normalizada, ao mesmo tempo que cria uma distinção em relação ao percurso de integração vertical com os EUA, afetando o calendário da cadeia de abastecimento na Ásia-Pacífico.

ChainNewsAbmedia3h atrás

DeepSeek lança os modelos V4-Pro e V4-Flash a um custo 98% inferior ao do GPT-5.5 Pro da OpenAI

Notícias Gate, 25 de abril — A DeepSeek lançou versões de pré-visualização de V4-Pro e V4-Flash a 24 de abril, ambos modelos open-weight com janelas de contexto de um milhão de tokens. O V4-Pro tem 1,6 triliões de parâmetros no total, mas activa apenas 49 mil milhões por passagem de inferência utilizando uma arquitectura Mixture-of-Experts.

GateNews8h atrás

Juiz rejeita alegações de fraude no processo de Elon Musk contra a OpenAI; caso avança para julgamento com duas alegações remanescentes

Notícias do Gate, 24 de abril — Um juiz federal indeferiu as acusações de fraude do processo de Elon Musk contra a OpenAI, Sam Altman, Greg Brockman e a Microsoft, abrindo caminho para que o caso avance para julgamento com base em duas alegações que permanecem: violação de confiança fiduciária de caráter beneficente e enriquecimento sem causa. EUA.

GateNews11h atrás

O CEO da OpenAI, Sam Altman, pede desculpa por não ter denunciado às autoridades a conta banida do atirador da escola

Mensagem do Gate News, 25 de abril — O director executivo da OpenAI, Sam Altman, pediu desculpa à comunidade de Tamborine, no Canadá, pela falha da empresa em notificar a polícia sobre uma conta banida associada a Jesse Van Rootselaar, que matou oito pessoas numa escola em fevereiro antes de tirar a própria vida. OpenAI

GateNews12h atrás

Os EAU Anunciam uma Mudança Para um Modelo de Governo Baseado em IA nos Próximos Dois Anos

Sua Alteza o Sheikha Mohammed bin Rashid Al Maktoum afirmou que o objectivo era fazer com que 50% dos sectores do governo operassem através de IA agentic autónoma. A transição irá também incluir a formação dos funcionários federais para “dominar a IA” e será supervisionada por Sheikh Mansour bin Zayed. Principais Conclusões:

Coinpedia12h atrás
Comentar
0/400
Nenhum comentário