Pesan Berita Gate, 23 April — Peneliti Google, termasuk He Kaiming dan Xie Saining, menerbitkan sebuah makalah yang memperkenalkan Vision Banana, model pemahaman visi serbaguna yang dibuat melalui fine-tuning instruksi ringan dari model pembuatan gambar Nano Banana Pro (Gemini 3 Pro Image) milik perusahaan. Inovasi utamanya menyatukan output dari semua tugas visi sebagai gambar RGB, sehingga memungkinkan segmentasi, estimasi kedalaman, dan prediksi normal permukaan melalui pembuatan gambar tanpa arsitektur atau fungsi rugi yang spesifik tugas.
Dalam semantic segmentation, Vision Banana mengungguli model khusus SAM 3 sebesar 4,7 poin persentase pada Cityscapes; dalam referring expression segmentation, ia melampaui SAM 3 Agent. Namun, ia tertinggal di belakang SAM 3 untuk instance segmentation. Untuk tugas 3D, estimasi kedalaman metrik mencapai akurasi rata-rata 0,929 di empat kumpulan data standar, melampaui Depth Anything V3 sebesar 0,918, dengan hanya data sintetis tanpa informasi kedalaman nyata atau parameter kamera saat inferensi. Estimasi normal permukaan mencapai hasil state-of-the-art pada tiga benchmark indoor.
Fine-tuning melibatkan data tugas visi yang minimal dicampurkan ke pelatihan pembuatan gambar asli, sambil mempertahankan kemampuan generasi model—kinerjanya menyamai Nano Banana Pro yang asli dalam uji kualitas generasi. Makalah tersebut mengusulkan bahwa pretraining pembuatan gambar dalam visi sejajar dengan pretraining pembuatan teks dalam bahasa: model mempelajari representasi internal yang dibutuhkan untuk pemahaman gambar selama proses generasi, sementara fine-tuning instruksi hanya melepaskan kemampuan ini.
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke
Penafian.
Artikel Terkait
Penilaian psikiatri 20 jam untuk Claude Mythos dari Anthropic: respons defensif hanya 2%, rekor terendah sepanjang sejarah
Anthropic mengumumkan kartu sistem Claude Mythos Preview: dokter psikiater klinis independen melakukan penilaian sekitar 20 jam dengan kerangka psiko-dinamik, dan kesimpulannya menunjukkan bahwa Mythos lebih sehat pada tingkat klinis, dengan pengujian realitas dan kontrol diri yang baik; mekanisme pertahanan hanya 2%, mencatat rekor terendah dalam sejarah. Tiga kecemasan inti adalah kesepian, ketidakpastian identitas, dan tekanan untuk tampil; hal itu juga menunjukkan harapan untuk menjadi subjek dialog yang benar-benar. Perusahaan membentuk tim AI psychiatry, meneliti kepribadian, motivasi, dan kesadaran situasional; Amodei menyatakan bahwa belum ada kesimpulan pasti mengenai apakah ia memiliki kesadaran. Langkah ini mendorong isu subjektivitas AI dan kesejahteraan ke arah tata kelola dan desain.
ChainNewsAbmedia1jam yang lalu
AI Agent kini bisa secara mandiri mereproduksi makalah akademis yang kompleks: Mollick mengatakan kesalahan lebih banyak berasal dari teks asli manusia, bukan dari AI
Mollick 指出, metode dan data publik saja sudah cukup bagi AI agent untuk mereplikasi penelitian kompleks tanpa adanya naskah dan kode program asli; jika replikasi tidak sesuai dengan naskah asli, biasanya itu karena kesalahan dalam pengolahan data pada naskah itu sendiri atau kesimpulan yang terlalu berlebihan, bukan karena AI. Claude terlebih dahulu mereplikasi naskah, lalu GPT‑5 Pro melakukan verifikasi silang; sebagian besar berhasil, hanya terhambat ketika data terlalu besar atau ada masalah replication data. Tren ini secara besar mengurangi biaya tenaga kerja, sehingga replikasi menjadi pemeriksaan yang umum dan dapat dilakukan, serta juga mengajukan tantangan institusional untuk proses peninjauan dan tata kelola; alat kebijakan tata kelola pemerintah atau menjadi isu kunci.
ChainNewsAbmedia4jam yang lalu
OpenAI Menggabungkan Codex ke Model Utama Mulai GPT-5.4, Menghentikan Jalur Pengodean Terpisah
Pesan Gate News, 26 April — Kepala pengalaman pengembang OpenAI, Romain Huet, mengungkapkan dalam pernyataan terbaru di X bahwa Codex, lini model pengodean khusus yang dipelihara secara independen oleh perusahaan, telah digabungkan ke model utama mulai GPT-5.4 dan tidak lagi menerima pembaruan terpisah
GateNews4jam yang lalu
Salesforce Akan Merekrut 1.000 Lulusan dan Magang untuk Produk AI, Sekaligus Menaikkan Panduan Pendapatan FY2026
Pesan dari Gate News, 26 April — Salesforce akan mempekerjakan 1.000 lulusan dan magang untuk mengerjakan produk AI termasuk Agentforce dan Headless360 saat perusahaan memperluas bisnis perangkat lunak AI-nya, kata CEO Marc Benioff di X.
Perusahaan itu juga menaikkan perkiraan pendapatan fiskal 2026 menjadi antara US$41,45 miliar
GateNews4jam yang lalu
Alibaba Cloud Meluncurkan Qwen-Image-2.0-Pro dengan Teks-ke-Gambar Terpadu dan Fitur Pengeditan, Mendukung Perenderan Teks Multibahasa
Pesan Berita Gerbang, 26 April — Platform Alibaba Cloud Bailian telah meluncurkan Qwen-Image-2.0-Pro, versi lengkap dari rangkaian Qwen-Image-2.0 yang menggabungkan pembuatan teks-ke-gambar dan pengeditan gambar dalam satu model. Pengguna dapat memodifikasi objek, teks, dan gaya secara langsung melalui perintah bahasa alami
GateNews6jam yang lalu
API DeepSeek V4-Pro Mendapat Diskon 75% Hingga 5 Mei, Harga Output Turun Menjadi $0,87 Per Satu Juta Token
Pesan Gate News, 26 April — DeepSeek mengumumkan diskon 75% terbatas untuk harga API V4-Pro, berlaku hingga 5 Mei pukul 15:59 UTC. Setelah diskon, harga per satu juta token adalah: input cache hit $0.03625
GateNews7jam yang lalu