Berita Gate, 27 April — Logan Kilpatrick, manajer produk senior di Google DeepMind dan pemimpin produk untuk Google AI Studio, menyatakan di X bahwa setiap perusahaan yang membangun produk berbasis AI harus menetapkan tolok ukur kustomnya sendiri untuk mengukur performa model AI. Ia menyebutnya sebagai cara untuk membuat peningkatan model “memberi manfaat yang secara tidak proporsional bagi perusahaan Anda” dan mendesak para pendiri serta pemimpin bisnis untuk “mulai besok.”
Kebanyakan perusahaan saat ini mengandalkan papan peringkat publik untuk memilih model AI, tetapi papan peringkat ini mengukur kemampuan umum yang sering tidak selaras dengan skenario bisnis tertentu. Kilpatrick mencontohkan perusahaan peninjau kontrak yang paling peduli pada akurasi ekstraksi klausul—sebuah kemampuan yang tidak ada dalam tolok ukur publik, sehingga tidak mungkin menilai performa model pada tugas tersebut. Tolok ukur kustom menawarkan dua keunggulan utama: pertama, tolok ukur ini memungkinkan perusahaan mengevaluasi setiap pembaruan model terhadap tugas bisnis mereka sendiri dan memilih model yang berkinerja terbaik pada kasus penggunaan mereka yang sebenarnya, bukan model dengan peringkat tertinggi secara keseluruhan; kedua, tolok ukur ini memungkinkan perusahaan membagikan set pengujian tersebut kepada penyedia model, sehingga mendorong optimasi berkelanjutan di area yang penting bagi bisnis mereka.
Kilpatrick mencatat bahwa perusahaan seperti Zapier dan Sierra sudah menerapkan pendekatan ini, dengan mengatakan bahwa “ada banyak alpha yang bisa diciptakan di sini.”
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke
Penafian.
Artikel Terkait
OpenAI's Greg Brockman: AI Shifting from Chat to Autonomous Task Execution
Gate News message, April 27 — Greg Brockman, president and co-founder of OpenAI, says the next wave of artificial intelligence will move users from chatting with AI bots to assigning real-world tasks. This shift requires enterprises to rethink operational workflows and establish new protocols for se
GateNews1menit yang lalu
B.AI Meningkatkan Infrastruktur, Meluncurkan Fitur Keahlian Utama
Pesan Berita Gate, 27 April — B.AI mengumumkan berbagai kemajuan produk dan ekosistem minggu ini. Halaman pendaratan BAIclaw menerima perombakan total dari segi visual dan interaksi, dengan dukungan multibahasa situs web diperluas hingga 10 bahasa, sehingga memperkuat kegunaan globalnya.
Dalam hal infrastruktur
GateNews15menit yang lalu
Beijing menerapkan larangan perdagangan menuntut pencabutan transaksi! Meta menggagalkan rencana akuisisi perusahaan rintisan AI China, Manus, senilai 2 miliar dolar AS
Komisi Pembangunan dan Reformasi Nasional Tiongkok hari ini (27 April) secara resmi merilis pengumuman bahwa kantor mekanisme peninjauan keamanan investasi asing “secara sah dan sesuai peraturan mengambil keputusan melarang investasi terhadap akuisisi proyek Manus oleh modal asing, serta meminta pihak terkait untuk membatalkan transaksi akuisisi tersebut”. Ini adalah salah satu dari sedikit kasus sejak penerapan “Peraturan Peninjauan Keamanan Investasi Asing” Tiongkok yang menggunakan tingkat penanganan tertinggi untuk melakukan tindakan “melarang investasi” dan meminta agar transaksi yang sudah terjadi dibatalkan.
Meta menggelontorkan 2 miliar dolar AS, membeli aplikasi AI termurah
Waktunya kembali ke 29 Desember 2025. Meta mengumumkan akuisisi startup AI agen baru Manus di Tiongkok, dan pasar memperkirakan harga berada di kisaran 2 hingga 3 miliar dolar AS. Manus adalah AI umum yang dikembangkan oleh Beijing Butterfly Effect Technology Development, setelah diluncurkan pada 6 Maret 2025, karena performa yang menonjol dalam benchmark GAIA, dalam semalam
ChainNewsAbmedia29menit yang lalu
Saham IPO Xizhi Technology-P Melonjak Lebih dari 360% di Pasar Gelap, Kenaikan Menyempit hingga 320%
Gate News pesan, 27 April — Xizhi Technology-P (01879.HK), sebuah perusahaan chip AI yang terdaftar di Hong Kong, melihat sahamnya melonjak lebih dari 360% di pasar gelap (dark market) lebih awal hari ini, meskipun kenaikannya sejak itu menyempit menjadi 320%.
Saham tersebut diperdagangkan menjelang pencatatan IPO resmi Hong Kong
GateNews42menit yang lalu
Tingkatkan produktivitas dengan AI atau turunkan biaya? Efisiensi seratus kali lipat tidak menghasilkan pendapatan seratus kali lipat, tetapi di Silicon Valley tidak ada yang berani mengatakannya untuk dihentikan
Mitra di Fiveyuan Capital, Meng Xing, baru-baru ini menerbitkan laporan kunjungan observasinya ke Silicon Valley, dan mengajukan sebuah penilaian yang bahkan membuatnya sendiri mengubah kebiasaan mencatat: Silicon Valley sedang memasuki tahap di mana bahkan orang yang mencoba “membuat gelombang” pun bisa tersapu oleh gelombang. Kecepatan iterasi AI telah berubah dari “per bulan” menjadi “per minggu”; bahkan Silicon Valley sendiri sudah tidak bisa mengejar kecepatan dirinya sendiri.
Ketika AI melipatgandakan produktivitas sebuah tim sampai lima kali, Anda dapat mengurangi delapan puluh persen tenaga kerja untuk mempertahankan output semula, atau mempertahankan jumlah orang untuk melakukan lima kali lebih banyak pekerjaan. Observasi Meng Xing kali ini di Silicon Valley, setara dengan memberikan draf awal jawaban di tempat kejadian: ketika efisiensi 100 kali tidak menghasilkan pendapatan 100 kali, ketika anggaran token mendekati biaya tenaga kerja, ketika mesin uap belum bisa melampaui kereta kuda tetapi tak ada yang berani berhenti, Silicon Valley sekarang memilih “yang penting dorong dulu kecepatannya”. Namun pada akhirnya, jalan ini akan mengarah ke “kemampuan untuk melakukan ekspansi” atau “menekan biaya”, saat ini belum ada kesimpulan.
YC beralih dari indikator terdepan menjadi indikator tertinggal
Meng Xing tahun ini
ChainNewsAbmedia1jam yang lalu