O Google lança o seu primeiro modelo de incorporação multimodal nativa, Gemini Embedding 2

SnapshotLaborer · 2026-03-10T23:53:33+00:00

O Google DeepMind lançou em 10 de março o Gemini Embedding 2, o primeiro modelo de incorporação multimodal que suporta processamento unificado de texto, imagem, vídeo, áudio e documentos, melhorando a compreensão e o processamento semântico, além de reduzir a barreira técnica para empresas construírem sistemas multimodais. Este modelo está disponível para pré-visualização pública através da Gemini API e do Vertex AI, oferecendo opções flexíveis de dimensão de incorporação, e a nova capacidade de processamento de voz destaca-se como um ponto forte.

SnapshotLaborer

2026-03-10 23:53:33

Geração de resumo em curso

10 de março, o Google DeepMind lançou o Gemini Embedding 2, o seu primeiro modelo nativo de embeddings multimodais, que unifica texto, imagens, vídeos, áudio e documentos num único espaço de embedding, marcando uma nova fase de fusão de múltiplos modos na tecnologia de IA.

O Gemini Embedding 2 suporta compreensão semântica em mais de 100 línguas e supera os modelos principais existentes em testes de referência de tarefas de texto, imagem e vídeo, além de introduzir capacidades de processamento de voz que anteriormente faltavam nos modelos de embedding.

Este modelo já está disponível para pré-visualização pública através da API Gemini e do Vertex AI, permitindo acesso imediato aos desenvolvedores.

Para os utilizadores empresariais, o lançamento deste modelo reduz diretamente a barreira técnica para construir sistemas de recuperação multimodal aprimorados por geração (RAG), pesquisa semântica e classificação de dados, podendo simplificar pipelines de dados anteriormente complexos, que exigiam processamento separado por modo.

Unificação multimodal: de texto a cinco tipos de mídia

O Gemini Embedding 2 é baseado na arquitetura Gemini, expandindo a capacidade de embedding de texto puro para cinco tipos de entrada:

Texto suporta até 8192 tokens de entrada;

Imagem processa até 6 imagens por solicitação, suportando formatos PNG e JPEG;

Vídeo suporta ficheiros MP4 e MOV com duração máxima de 120 segundos;

Áudio pode ser inserido diretamente e gerar vetores de embedding, sem necessidade de transcrição intermediária;

Documentos suportam ficheiros PDF de até 6 páginas para embedding direto.

Diferente do método tradicional de tratar cada modo de forma isolada, este modelo suporta entrada intercalada, ou seja, enviar simultaneamente imagens, textos e outros modos numa única solicitação, permitindo que o modelo capture relações semânticas complexas e sutis entre diferentes tipos de mídia.

O Gemini Embedding 2 continua a utilizar a técnica de aprendizagem de representação Matryoshka (MRL) adotada nos modelos de embedding anteriores do Google. Esta técnica comprime dinamicamente a dimensão do vetor através de uma estrutura “aninhada”, permitindo reduzir a dimensão de saída a partir do padrão de 3072, ajudando os desenvolvedores a equilibrar desempenho do modelo e custos de armazenamento.

Testes de referência mostram liderança, com destaque para capacidades de voz

O Google afirma que o Gemini Embedding 2 supera modelos concorrentes atuais em tarefas de texto, imagem e vídeo, estabelecendo um novo padrão de desempenho na área de embeddings multimodais.

O Google recomenda que os desenvolvedores escolham entre dimensões de 3072, 1536 ou 768 para obter embeddings de alta qualidade, de acordo com o cenário de aplicação. Este design é especialmente importante para empresas que necessitam de implantação em larga escala de vetores de embedding, permitindo controlar custos de infraestrutura sem comprometer significativamente a precisão.

No que diz respeito às capacidades, o modelo introduz uma funcionalidade de embedding de voz nativa, que anteriormente era ausente em modelos similares, permitindo o processamento direto de áudio sem necessidade de transcrição para texto.

O Google destaca que a tecnologia de embedding já é amplamente utilizada em vários produtos, incluindo cenários de engenharia de contexto em RAG, gestão de grandes volumes de dados e buscas tradicionais e análises.

Alguns parceiros de acesso antecipado já estão construindo aplicações multimodais com base no Gemini Embedding 2, e o Google afirma que esses casos de uso estão demonstrando o potencial real do modelo em cenários de alto valor.

Aviso de risco e isenção de responsabilidade

        O mercado apresenta riscos, invista com cautela. Este artigo não constitui aconselhamento de investimento pessoal, nem leva em consideração objetivos, situação financeira ou necessidades específicas de qualquer usuário. Os usuários devem avaliar se as opiniões, pontos de vista ou conclusões aqui apresentadas são compatíveis com suas circunstâncias particulares. Investimentos são de sua responsabilidade.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

1 gostos