DeepSeek merilis versi pratinjau DeepSeek-V4-Pro dan DeepSeek-V4-Flash pada 24 April 2026, keduanya merupakan model open-weight dengan jendela konteks satu juta token dan harga secara signifikan lebih rendah daripada alternatif Barat yang sebanding. Model V4-Pro berharga $1,74 per sejuta token input dan $3,48 per sejuta token output—kira-kira 1/20 dari harga Claude Opus 4.7 dan 98% lebih murah daripada GPT-5.5 Pro, menurut spesifikasi resmi perusahaan.

Arsitektur Model dan Skala

DeepSeek-V4-Pro memiliki total 1,6 triliun parameter, menjadikannya model open-source terbesar di pasar LLM hingga saat ini. Namun, hanya 49 miliar parameter yang aktif per putaran inferensi, menggunakan apa yang disebut DeepSeek sebagai pendekatan Mixture-of-Experts yang disempurnakan sejak V3. Desain ini memungkinkan seluruh model tetap dalam keadaan tidak aktif sementara hanya potongan yang relevan yang diaktifkan untuk setiap permintaan, mengurangi biaya komputasi sambil mempertahankan kapasitas pengetahuan.

DeepSeek-V4-Flash beroperasi pada skala yang lebih kecil dengan 284 miliar total parameter dan 13 miliar parameter aktif. Menurut benchmark DeepSeek, model ini “mencapai kinerja penalaran yang sebanding dengan versi Pro ketika diberi anggaran thinking yang lebih besar.”

Kedua model mendukung konteks satu juta token sebagai fitur standar—kira-kira 750.000 kata, atau kira-kira seluruh trilogi “Lord of the Rings” ditambah teks tambahan.

Inovasi Teknis: Mekanisme Attention pada Skala

DeepSeek mengatasi masalah penskalaan komputasi yang melekat pada pemrosesan konteks panjang dengan menciptakan dua jenis attention baru, sebagaimana diuraikan dalam paper teknis perusahaan yang tersedia di GitHub.

Mekanisme perhatian AI standar menghadapi masalah penskalaan yang brutal: setiap kali panjang konteks berlipat dua, biaya komputasi kira-kira menjadi empat kali lipat. Solusi DeepSeek melibatkan dua pendekatan saling melengkapi:

Compressed Sparse Attention bekerja dalam dua langkah. Pertama, ia mengompres kelompok token—misalnya, setiap 4 token—menjadi satu entri. Lalu, alih-alih melakukan attention ke semua entri yang terkompresi, ia menggunakan “Lightning Indexer” untuk memilih hanya hasil yang paling relevan untuk setiap query. Ini mengurangi cakupan perhatian model dari satu juta token menjadi kumpulan yang jauh lebih kecil berupa potongan penting.

Heavily Compressed Attention mengambil pendekatan yang lebih agresif, dengan meruntuhkan setiap 128 token menjadi satu entri tanpa seleksi spars. Meskipun ini kehilangan detail yang lebih halus, ia menyediakan pandangan global yang sangat murah. Dua jenis attention ini berjalan pada lapisan yang bergantian, memungkinkan model mempertahankan baik detail maupun gambaran umum.

Hasilnya: V4-Pro menggunakan 27% dari komputasi yang dibutuhkan pendahulunya (V3.2). KV cache—memori yang diperlukan untuk melacak konteks—turun menjadi 10% dari V3.2. V4-Flash mendorong efisiensi lebih jauh: 10% komputasi dan 7% memori dibandingkan V3.2.

Kinerja Benchmark dan Posisi Kompetitif

DeepSeek menerbitkan perbandingan benchmark yang komprehensif terhadap GPT-5.4 dan Gemini-3.1-Pro, termasuk area di mana V4-Pro tertinggal dari pesaing. Pada tugas penalaran, penalaran V4-Pro tertinggal di belakang GPT-5.4 dan Gemini-3.1-Pro sekitar tiga hingga enam bulan, menurut laporan teknis DeepSeek.

Di mana V4-Pro memimpin:

Codeforces (pemrograman kompetitif): V4-Pro mencetak 3.206, menempatkannya sekitar urutan ke-23 di antara peserta kontes manusia yang benar-benar mengikuti
Apex Shortlist (masalah matematika dan STEM yang dikurasi): tingkat kelulusan 90,2% dibandingkan Opus 4.6 sebesar 85,9% dan GPT-5.4 sebesar 78,1%
SWE-Verified (penyelesaian isu GitHub): 80,6%, menyamai Claude Opus 4.6

Di mana V4-Pro tertinggal:

MMLU-Pro (multitasking): Gemini-3.1-Pro 91,0% dibandingkan V4-Pro 87,5%
GPQA Diamond (pengetahuan ahli): Gemini 94,3 dibandingkan V4-Pro 90,1
Ujian Terakhir Kemanusiaan (tingkat lulusan): Gemini-3.1-Pro 44,4% dibandingkan V4-Pro 37,7%

Pada tugas konteks panjang, V4-Pro memimpin model open-source dan mengalahkan Gemini-3.1-Pro pada CorpusQA (mensimulasikan analisis dokumen nyata pada satu juta token) tetapi kalah dari Claude Opus 4.6 pada MRCR, yang mengukur pengambilan informasi spesifik yang terpendam dalam teks panjang.

Kemampuan Agentik dan Pemrograman

V4-Pro dapat dijalankan di Claude Code, OpenCode, dan alat coding AI lainnya. Menurut survei internal DeepSeek terhadap 85 pengembang yang menggunakan V4-Pro sebagai agen coding utama mereka, 52% mengatakan sudah siap menjadi model default mereka, 39% cenderung “ya”, dan kurang dari 9% mengatakan “tidak”. Pengujian internal DeepSeek menunjukkan V4-Pro mengungguli Claude Sonnet dan mendekati Claude Opus 4.5 pada tugas coding agentik.

Artificial Analysis menempatkan V4-Pro pertama di antara semua model open-weight pada GDPval-AA, sebuah benchmark yang menguji pekerjaan pengetahuan bernilai ekonomi yang mencakup tugas di bidang keuangan, hukum, dan riset. V4-Pro-Max mencetak 1.554 Elo, unggul dari GLM-5.1 (1.535) dan MInimax M2.7 (1.514). Claude Opus 4.6 mencetak 1.619 pada benchmark yang sama.

V4 memperkenalkan “interleaved thinking”, yang mempertahankan seluruh rantai pemikiran di seluruh panggilan tool. Pada model sebelumnya, ketika sebuah agen membuat beberapa panggilan tool—misalnya, mencari di web, menjalankan kode, lalu mencari lagi—konteks penalaran model dibersihkan antarputaran. V4 menjaga kesinambungan penalaran di seluruh langkah, mencegah hilangnya konteks dalam alur kerja otomatis yang kompleks.

Lanskap Kompetitif dan Konteks Penetapan Harga

Rilis V4 hadir di tengah aktivitas signifikan di ruang AI. Anthropic mengirim Claude Opus 4.7 pada 16 April 2026. GPT-5.5 milik OpenAI diluncurkan pada 23 April 2026, dengan GPT-5.5 Pro diberi harga $30 per sejuta token input dan $180 per sejuta token output. GPT-5.5 mengalahkan V4-Pro pada Terminal Bench 2.0 (82,7% dibanding 70,0%), yang menguji alur kerja agen command-line yang kompleks.

Xiaomi merilis MiMo V2.5 Pro pada 22 April 2026, menawarkan kemampuan multimodal penuh (image, audio, video) pada $1 input dan $3 output per sejuta token. Tencent merilis Hy3 pada hari yang sama dengan GPT-5.5.

Untuk perspektif penetapan harga: CEO Cline Saoud Rizwan mencatat bahwa jika Uber menggunakan DeepSeek alih-alih Claude, anggaran AI tahun 2026—dilaporkan cukup untuk empat bulan pemakaian—akan bertahan tujuh tahun.

Penerapan dan Ketersediaan

Baik V4-Pro maupun V4-Flash dilisensikan MIT dan tersedia di Hugging Face. Saat ini, model-model tersebut hanya teks; DeepSeek menyatakan bahwa mereka sedang mengerjakan kemampuan multimodal. Kedua model dapat dijalankan secara gratis di perangkat keras lokal atau disesuaikan berdasarkan kebutuhan perusahaan.

Endpoint deepseek-chat dan deepseek-reasoner milik DeepSeek yang sudah ada sebelumnya sudah mengarahkan ke V4-Flash pada mode non-thinking dan thinking masing-masing. Endpoint lama deepseek-chat dan deepseek-reasoner akan dihentikan pada 24 Juli 2026.

DeepSeek melatih V4 sebagian dengan chip Huawei Ascend, menghindari pembatasan ekspor AS. Perusahaan menyatakan bahwa setelah 950 supernode baru aktif pada akhir tahun 2026, harga model Pro yang sudah rendah akan turun lebih lanjut.

Implikasi Praktis

Bagi perusahaan, struktur penetapan harga dapat mengubah perhitungan cost-benefit. Sebuah model yang memimpin benchmark open-source dengan harga $1,74 per sejuta token input membuat pemrosesan dokumen skala besar, peninjauan hukum, dan pipeline generasi kode jauh lebih murah dibanding enam bulan sebelumnya. Konteks satu juta token memungkinkan basis kode atau berkas regulasi lengkap diproses dalam satu permintaan, bukan dipecah ke beberapa panggilan.

Bagi pengembang dan pembuat independen, V4-Flash adalah pertimbangan utama. Dengan harga $0,14 untuk input dan $0,28 untuk output per sejuta token, ia lebih murah daripada model yang dianggap opsi anggaran setahun lalu sambil menangani sebagian besar tugas yang dilakukan versi Pro.

Lihat Sumber

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Komentar

0/400

Semi-MeltedIceCream

· 19jam yang lalu

Sepertinya deskripsi seperti bisa menekan tombol sendiri, menjalankan proses, mengisi formulir, gabungan RPA+LLM? Jika stabilitas cukup, banyak posisi backend akan dibentuk ulang.

Lihat AsliBalas0

MirrorBallPeeking

· 04-25 09:29

Yang paling diperhatikan adalah izin dan keamanan: bagaimana cara mendapatkan izin sistem, bagaimana mencegah kesalahan menghapus file, dan bagaimana menangani data privasi, perusahaan pasti akan menghadapi kendala ini saat produksi.

Lihat AsliBalas0

AprDaydream

· 04-24 14:10

Harap pihak resmi menyediakan mekanisme log aktivitas / pemutaran ulang yang dapat diaudit, jika tidak, akan sulit untuk menuntut tanggung jawab jika terjadi masalah, terutama untuk akun aset yang dioperasikan secara otomatis.

Lihat AsliBalas0

PaperHandsPro

· 04-24 14:06

Memahami niat dalam aplikasi nyata adalah tantangan utama, semoga tidak lagi muncul situasi memalukan di mana kamu ingin memesan tiket pesawat, tetapi dia mengubah CV-mu.

Lihat AsliBalas0

Half-SectionedSucculent

· 04-24 14:02

Sedikit berharap, juga sedikit takut: bisa mengklik mouse sama dengan bisa melakukan banyak hal yang hanya bisa dilakukan oleh "klik manusia", pengendalian risiko dan anti penipuan harus ditingkatkan.

Lihat AsliBalas0

ACalmnessWithAHintOfPomelo

· 04-24 13:59

Gelombang ini juga akan berdampak pada Web3, otomatisasi operasi di blockchain, proses penandatanganan, interaksi dompet, jika bisa dilakukan secara mulus, bentuk produk akan berubah.

Lihat AsliBalas0

StarsInTheGlassDome

· 04-24 13:57

API dan harga jangan buru-buru, lihat dulu apakah bisa tahan terhadap pop-up, multi-jendela, dan jitter jaringan di lingkungan desktop yang kompleks.

Lihat AsliBalas0

GateUser-b665e41c

· 04-24 13:55

Merasa bahwa dari "bisa berbicara dan menulis" berevolusi menjadi "bisa melakukan dan menyerahkan", langkah selanjutnya adalah memberinya memori dan manajemen tugas yang lebih baik.

Lihat AsliBalas0

LintCollector

· 04-24 13:55

Jika benar-benar dapat menghubungkan lintas aplikasi: menjelajah browser untuk mencari data → mengolah di Excel → membuat presentasi di PPT → mengirim melalui email, maka itu adalah rangkaian lengkap proses kerja kantor yang tertutup.

Lihat AsliBalas0

DegenWithNotebook

· 04-24 13:55

Akhirnya sudah bisa dioperasikan secara native di desktop? Sekarang benar-benar harus menjadi "magang digital".

Lihat AsliBalas0

Lihat Lebih Banyak