Vision Banana milik Google: Model Visi Terpadu Mengungguli Model yang Spesifik Tugas dalam Segmentasi dan Geometri 3D

Pesan Berita Gate, 23 April — Peneliti Google, termasuk He Kaiming dan Xie Saining, menerbitkan sebuah makalah yang memperkenalkan Vision Banana, model pemahaman visi serbaguna yang dibuat melalui fine-tuning instruksi ringan dari model pembuatan gambar Nano Banana Pro (Gemini 3 Pro Image) milik perusahaan. Inovasi utamanya menyatukan output dari semua tugas visi sebagai gambar RGB, sehingga memungkinkan segmentasi, estimasi kedalaman, dan prediksi normal permukaan melalui pembuatan gambar tanpa arsitektur atau fungsi rugi yang spesifik tugas.

Dalam semantic segmentation, Vision Banana mengungguli model khusus SAM 3 sebesar 4,7 poin persentase pada Cityscapes; dalam referring expression segmentation, ia melampaui SAM 3 Agent. Namun, ia tertinggal di belakang SAM 3 untuk instance segmentation. Untuk tugas 3D, estimasi kedalaman metrik mencapai akurasi rata-rata 0,929 di empat kumpulan data standar, melampaui Depth Anything V3 sebesar 0,918, dengan hanya data sintetis tanpa informasi kedalaman nyata atau parameter kamera saat inferensi. Estimasi normal permukaan mencapai hasil state-of-the-art pada tiga benchmark indoor.

Fine-tuning melibatkan data tugas visi yang minimal dicampurkan ke pelatihan pembuatan gambar asli, sambil mempertahankan kemampuan generasi model—kinerjanya menyamai Nano Banana Pro yang asli dalam uji kualitas generasi. Makalah tersebut mengusulkan bahwa pretraining pembuatan gambar dalam visi sejajar dengan pretraining pembuatan teks dalam bahasa: model mempelajari representasi internal yang dibutuhkan untuk pemahaman gambar selama proses generasi, sementara fine-tuning instruksi hanya melepaskan kemampuan ini.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Alibaba Cloud Meluncurkan Qwen-Image-2.0-Pro dengan Teks-ke-Gambar Terpadu dan Fitur Pengeditan, Mendukung Perenderan Teks Multibahasa

Pesan Berita Gerbang, 26 April — Platform Alibaba Cloud Bailian telah meluncurkan Qwen-Image-2.0-Pro, versi lengkap dari rangkaian Qwen-Image-2.0 yang menggabungkan pembuatan teks-ke-gambar dan pengeditan gambar dalam satu model. Pengguna dapat memodifikasi objek, teks, dan gaya secara langsung melalui perintah bahasa alami

GateNews9menit yang lalu

API DeepSeek V4-Pro Mendapat Diskon 75% Hingga 5 Mei, Harga Output Turun Menjadi $0,87 Per Satu Juta Token

Pesan Gate News, 26 April — DeepSeek mengumumkan diskon 75% terbatas untuk harga API V4-Pro, berlaku hingga 5 Mei pukul 15:59 UTC. Setelah diskon, harga per satu juta token adalah: input cache hit $0.03625

GateNews1jam yang lalu

Anthropic Menerapkan Perlindungan Keamanan Pemilu untuk Claude Menjelang Pemilihan Legislatif Paruh Waktu 2026

Anthropic mengumumkan pada hari Jumat serangkaian langkah integritas pemilu yang dirancang untuk mencegah chatbot AI Claude mereka dimanfaatkan sebagai senjata untuk menyebarkan misinformasi atau memanipulasi para pemilih menjelang pemilihan paruh waktu AS 2026 dan kontes besar lainnya di seluruh dunia tahun ini. Berbasis di San Francisco

CryptoFrontier6jam yang lalu

DeepRoute.ai Sistem bantuan mengemudi tingkat lanjut menerobos 300.000 unit kendaraan dideploy: target 1 juta armada kota NOA pada 2026

DeepRoute.ai mengumumkan bahwa sistem bantuan mengemudi tingkat lanjutnya telah dideploy secara kumulatif lebih dari 300.000 kendaraan di Tiongkok, dan dalam setahun terakhir telah membantu menghindari lebih dari 180.000 kali potensi kecelakaan. Target pada tahun 2026 adalah armada kendaraan NOA di tingkat kota mencapai 1.000.000 unit, dengan tingkat penggunaan lebih dari 50%, yang dipandang sebagai kunci untuk komersialisasi skala besar Robotaxi. Langkah ini menunjukkan bahwa self-driving di Tiongkok telah memasuki penggunaan yang lazim, sekaligus membentuk perbedaan dari jalur integrasi vertikal dengan Amerika Serikat, yang memengaruhi urutan waktu rantai pasokan Asia-Pasifik.

ChainNewsAbmedia7jam yang lalu

DeepSeek Merilis Model V4-Pro dan V4-Flash dengan Biaya 98% Lebih Rendah daripada GPT-5.5 Pro Milik OpenAI

Gate News, 25 April — DeepSeek merilis versi pratinjau V4-Pro dan V4-Flash pada 24 April, dua model open-weight dengan jendela konteks satu juta token. V4-Pro memiliki total 1,6 triliun parameter tetapi hanya mengaktifkan 49 miliar per pass inferensi menggunakan arsitektur Mixture-of-Experts.

GateNews13jam yang lalu

Hakim Menolak Klaim Penipuan dalam Gugatan Elon Musk terhadap OpenAI; Perkara Maju ke Persidangan dengan Dua Tuduhan yang Tersisa

Berita Gate, 24 April — Seorang hakim pengadilan federal telah menolak klaim penipuan dari gugatan Elon Musk terhadap OpenAI, Sam Altman, Greg Brockman, dan Microsoft, sehingga membuka jalan bagi perkara untuk dilanjutkan ke persidangan atas dua tuduhan yang tersisa: pelanggaran kepercayaan amal dan pengayaan yang tidak semestinya. AS.

GateNews16jam yang lalu
Komentar
0/400
Tidak ada komentar