Google merilis model penyisipan multimodal asli pertama mereka, Gemini Embedding 2

SnapshotLaborer · 2026-03-10T23:53:33+00:00

Google DeepMind merilis Gemini Embedding 2 pada 10 Maret, ini adalah model embedding multimodal pertama yang mendukung pemrosesan teks, gambar, video, audio, dan dokumen secara bersamaan, meningkatkan pemahaman dan kemampuan pemrosesan semantik, serta menurunkan ambang teknologi bagi perusahaan dalam membangun sistem multimodal. Model ini tersedia melalui Gemini API dan Vertex AI dalam pratinjau publik, dengan opsi dimensi embedding yang fleksibel, dan kemampuan pemrosesan suara yang baru menjadi sorotan.

SnapshotLaborer

2026-03-10 23:53:33

Pembuatan abstrak sedang berlangsung

Pada 10 Maret 2023, Google DeepMind meluncurkan Gemini Embedding 2, model embedding multimodal asli pertama perusahaan ini, yang menggabungkan teks, gambar, video, audio, dan dokumen ke dalam satu ruang embedding tunggal, menandai tahap baru dalam teknologi embedding AI yang mengarah ke integrasi semua modality secara menyeluruh.

Gemini Embedding 2 mendukung pemahaman semantik lebih dari 100 bahasa, dan dalam pengujian standar untuk tugas teks, gambar, dan video, model ini melampaui model utama yang ada saat ini, sekaligus memperkenalkan kemampuan pengolahan suara yang sebelumnya kurang dalam model embedding.

Model ini kini telah tersedia dalam tahap pratinjau publik melalui Gemini API dan Vertex AI, sehingga pengembang dapat mengaksesnya secara langsung.

Bagi pengguna perusahaan, peluncuran model ini secara langsung menurunkan hambatan teknis dalam membangun sistem pencarian multimodal yang diperkuat dengan generasi (RAG), pencarian semantik, dan klasifikasi data, serta berpotensi menyederhanakan pipeline data yang sebelumnya harus diproses secara terpisah antar modality.

Unified Multimodal: Dari Teks ke Lima Jenis Media

Gemini Embedding 2 dibangun berdasarkan arsitektur Gemini, memperluas kemampuan embedding dari teks murni ke lima bentuk input:

Teks mendukung hingga 8192 token input;

Gambar dapat memproses hingga 6 gambar per permintaan, mendukung format PNG dan JPEG;

Video mendukung file MP4 dan MOV dengan durasi maksimal 120 detik;

Audio dapat langsung diinput dan menghasilkan vektor embedding tanpa perlu transkripsi teks perantara;

Dokumen mendukung embedding langsung untuk file PDF hingga 6 halaman.

Berbeda dari metode tradisional yang memproses satu modality secara terpisah, model ini mendukung input bergantian, yaitu mengirimkan kombinasi berbagai modality seperti gambar dan teks dalam satu permintaan, sehingga model dapat menangkap hubungan semantik yang kompleks dan halus antar berbagai jenis media.

Gemini Embedding 2 melanjutkan penggunaan teknologi pembelajaran representasi Matryoshka (MRL) yang sebelumnya digunakan dalam model embedding Google. Teknologi ini secara dinamis mengompresi dimensi vektor melalui “penyusunan bertingkat” (nested), sehingga dimensi output dapat disesuaikan dari default 3072 secara fleksibel, membantu pengembang menyeimbangkan antara performa model dan biaya penyimpanan.

Pengujian Standar Terdepan, Kemampuan Suara sebagai Fitur Baru

Google menyatakan bahwa Gemini Embedding 2 mengungguli model kompetitor utama dalam pengujian standar untuk tugas teks, gambar, dan video, dan menempatkannya sebagai tolok ukur baru dalam bidang embedding multimodal.

Google menyarankan pengembang memilih dari tiga tingkat dimensi: 3072, 1536, atau 768, untuk mendapatkan embedding terbaik sesuai kebutuhan aplikasi. Desain ini sangat penting bagi perusahaan yang membutuhkan deployment besar vektor embedding, karena dapat mengontrol biaya infrastruktur secara efektif tanpa mengorbankan akurasi secara signifikan.

Dalam hal cakupan kemampuan, model ini memperkenalkan kemampuan embedding suara asli yang sebelumnya umum hilang pada model sejenis, sehingga dapat langsung memproses data audio tanpa perlu konversi suara ke teks melalui proses perantara.

Google menegaskan bahwa teknologi embedding telah banyak digunakan dalam berbagai produk mereka, termasuk dalam skenario RAG untuk engineering konteks, pengelolaan data skala besar, serta pencarian dan analisis tradisional.

Saat ini, beberapa mitra awal yang memiliki akses mulai membangun aplikasi multimodal berbasis Gemini Embedding 2, dan Google menyatakan bahwa penggunaan kasus ini sedang menunjukkan potensi nyata model dalam skenario bernilai tinggi.

Peringatan Risiko dan Ketentuan Penafian

Pasar memiliki risiko, investasi harus dilakukan dengan hati-hati. Artikel ini tidak merupakan saran investasi pribadi, dan tidak mempertimbangkan tujuan investasi, kondisi keuangan, atau kebutuhan khusus pengguna. Pengguna harus menilai apakah pendapat, pandangan, atau kesimpulan dalam artikel ini sesuai dengan kondisi mereka. Segala risiko dan tanggung jawab sepenuhnya menjadi tanggung jawab pengguna.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka