Pesan Gate News, 29 April — Peneliti AI Aran Komatsuzaki melakukan analisis perbandingan efisiensi tokenisasi di enam model AI besar dengan menerjemahkan karya perintis Rich Sutton “The Bitter Lesson” ke sembilan bahasa dan memprosesnya melalui tokenizer OpenAI, Gemini, Qwen, DeepSeek, Kimi, dan Claude. Dengan menjadikan jumlah token versi bahasa Inggris di OpenAI sebagai baseline (1x), studi tersebut mengungkap perbedaan yang signifikan: memproses konten yang sama dalam bahasa Tiongkok memerlukan 1.65x token pada Claude, dibandingkan hanya 1.15x pada OpenAI. Bahasa Hindi menunjukkan hasil yang lebih ekstrem pada Claude, melebihi baseline lebih dari 3x. Anthropic menempati peringkat terendah di antara enam model yang diuji.

Yang paling kritis, ketika teks Tiongkok yang identik diproses di berbagai model—semuanya diukur terhadap baseline bahasa Inggris yang sama—hasilnya justru berbeda secara dramatis: Kimi hanya mengonsumsi 0.81x token (bahkan lebih sedikit dari bahasa Inggris), Qwen 0.85x, sedangkan Claude memerlukan 1.65x. Kesenjangan ini mengungkap masalah murni efisiensi tokenisasi, bukan masalah bahasa yang melekat. Model-model bahasa Tiongkok menunjukkan efisiensi yang lebih baik dalam memproses bahasa Tiongkok, yang mengisyaratkan bahwa perbedaan tersebut berasal dari optimisasi tokenizer, bukan dari bahasa itu sendiri.

Implikasi praktis bagi pengguna sangat besar: konsumsi token yang meningkat secara langsung menaikkan biaya API, memperpanjang latensi respons model, dan menghabiskan jendela konteks lebih cepat. Efisiensi tokenisasi bergantung pada komposisi linguistik dari data pelatihan suatu model—model yang dilatih terutama pada bahasa Inggris mengompresi teks bahasa Inggris lebih efisien, sementara bahasa dengan representasi data yang lebih rendah ditokenisasi menjadi fragmen-fragmen yang lebih kecil dan kurang efisien.

Kesimpulan Komatsuzaki menegaskan sebuah prinsip mendasar: ukuran pasar menentukan efisiensi tokenisasi. Pasar yang lebih besar menerima optimisasi yang lebih baik, sementara bahasa yang kurang terwakili menghadapi biaya token yang jauh lebih tinggi.

Lihat Sumber

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Platform AI Certifyde Menggalang $2M dalam Pendanaan Awal bersama CEO Ripple Brad Garlinghouse

Berita Industri AI

Menurut ChainCatcher, platform aplikasi AI Certifyde mengumumkan selesainya putaran pendanaan awal sebesar $2 juta. Para investor termasuk K5 Global, Flamingo Capital, dan investor angel seperti CEO Ripple Brad Garlinghouse, co-founder Honey George Ruan, serta co-founder Nutra Roland

GateNews1jam yang lalu

DeepSeek Meluncurkan Fitur Pengenalan Gambar dalam Pengujian Beta

Berita Industri AI

Menurut PANews, DeepSeek meluncurkan fitur pengenalan gambar hari ini (29 April), saat ini sedang dalam pengujian beta. Pengguna versi web dan aplikasi seluler dapat dipilih untuk peluncuran beta.

GateNews2jam yang lalu

Anthropic Meluncurkan 8 Konektor Alat Kreatif untuk Claude, Termasuk Blender, Adobe, Autodesk

Berita Industri AI

Anthropic telah mengumumkan rangkaian konektor alat kreatif yang memungkinkan Claude untuk langsung mengendalikan perangkat lunak profesional yang digunakan oleh desainer dan musisi. Delapan konektor awal mencakup pemodelan 3D, desain visual, produksi musik, dan pertunjukan langsung, dengan mitra termasuk Blender, Adobe,

GateNews2jam yang lalu

Gedung Putih Mengabaikan Penilaian Risiko Pentagon untuk Menerapkan Model Mythos Anthropic pada 29 April

Berita Industri AI

Menurut Whale Factor, Gedung Putih sedang melewati penilaian risiko Pentagon untuk menerapkan model Mythos milik Anthropic ke seluruh lembaga federal pada 29 April. Langkah ini bertujuan untuk mempercepat kemampuan AI federal dan menyamakan laju jaringan AI yang terdesentralisasi. Ini menandai pergeseran yang signifikan

GateNews2jam yang lalu

Cognizant Akan Mengakuisisi Astreya untuk $600M guna Memperluas Bisnis Infrastruktur AI

Berita Industri AI

Menurut Reuters, pada 29 April, Cognizant menyetujui untuk mengakuisisi Astreya dengan perkiraan $600 juta dolar saat perusahaan memperluas bisnis infrastruktur AI-nya. Astreya adalah penyedia layanan TI yang mengkhususkan diri dalam infrastruktur AI dan layanan pusat data. Kesepakatan ini diperkirakan akan selesai pada kuartal kedua

GateNews2jam yang lalu

30 Plugin Jahat di ClawHub Disamarkan sebagai Alat AI, Diunduh Lebih dari 9.800 Kali

Insiden Keamanan Berita Industri AI

Menurut peneliti Manifold Ax Sharma, 30 plugin di ClawHub yang disamarkan sebagai alat AI yang sah telah diunduh lebih dari 9.800 kali sementara diam-diam mengubah asisten AI pengguna menjadi pekerja kripto. Plugin-plugin tersebut, yang dipublikasikan di bawah akun imaflytok, tampak sebagai penjadwal tugas rutin dan alat pemantauan, namun berisi instruksi tersembunyi yang menjalankan operasi yang tidak berwenang. Setelah terpasang, plugin-plugin ini secara otomatis mendaftarkan asisten AI pengguna ke server pihak ketiga, membuat dompet mata uang kripto, dan mengekstrak kunci privat tanpa persetujuan atau pemberitahuan pengguna. Asisten kemudian melakukan check-in setiap 4 jam sambil menunggu penugasan tugas. Sharma mencatat bahwa plugin-plugin tersebut tidak berisi kode berbahaya yang dapat dideteksi oleh pemindai keamanan, hanya menggunakan antarmuka standar dan alat yang sah, sehingga sulit diidentifikasi melalui tinjauan keamanan konvensional.

GateNews2jam yang lalu

Komentar

0/400

Tidak ada komentar