DeepSeek merilis versi pratinjau DeepSeek-V4-Pro dan DeepSeek-V4-Flash pada 24 April 2026, keduanya merupakan model open-weight dengan jendela konteks satu juta token dan harga secara signifikan lebih rendah daripada alternatif Barat yang sebanding. Model V4-Pro berharga $1,74 per sejuta token input dan $3,48 per sejuta token output—kira-kira 1/20 dari harga Claude Opus 4.7 dan 98% lebih murah daripada GPT-5.5 Pro, menurut spesifikasi resmi perusahaan.
DeepSeek-V4-Pro memiliki total 1,6 triliun parameter, menjadikannya model open-source terbesar di pasar LLM hingga saat ini. Namun, hanya 49 miliar parameter yang aktif per putaran inferensi, menggunakan apa yang disebut DeepSeek sebagai pendekatan Mixture-of-Experts yang disempurnakan sejak V3. Desain ini memungkinkan seluruh model tetap dalam keadaan tidak aktif sementara hanya potongan yang relevan yang diaktifkan untuk setiap permintaan, mengurangi biaya komputasi sambil mempertahankan kapasitas pengetahuan.
DeepSeek-V4-Flash beroperasi pada skala yang lebih kecil dengan 284 miliar total parameter dan 13 miliar parameter aktif. Menurut benchmark DeepSeek, model ini “mencapai kinerja penalaran yang sebanding dengan versi Pro ketika diberi anggaran thinking yang lebih besar.”
Kedua model mendukung konteks satu juta token sebagai fitur standar—kira-kira 750.000 kata, atau kira-kira seluruh trilogi “Lord of the Rings” ditambah teks tambahan.
DeepSeek mengatasi masalah penskalaan komputasi yang melekat pada pemrosesan konteks panjang dengan menciptakan dua jenis attention baru, sebagaimana diuraikan dalam paper teknis perusahaan yang tersedia di GitHub.
Mekanisme perhatian AI standar menghadapi masalah penskalaan yang brutal: setiap kali panjang konteks berlipat dua, biaya komputasi kira-kira menjadi empat kali lipat. Solusi DeepSeek melibatkan dua pendekatan saling melengkapi:
Compressed Sparse Attention bekerja dalam dua langkah. Pertama, ia mengompres kelompok token—misalnya, setiap 4 token—menjadi satu entri. Lalu, alih-alih melakukan attention ke semua entri yang terkompresi, ia menggunakan “Lightning Indexer” untuk memilih hanya hasil yang paling relevan untuk setiap query. Ini mengurangi cakupan perhatian model dari satu juta token menjadi kumpulan yang jauh lebih kecil berupa potongan penting.
Heavily Compressed Attention mengambil pendekatan yang lebih agresif, dengan meruntuhkan setiap 128 token menjadi satu entri tanpa seleksi spars. Meskipun ini kehilangan detail yang lebih halus, ia menyediakan pandangan global yang sangat murah. Dua jenis attention ini berjalan pada lapisan yang bergantian, memungkinkan model mempertahankan baik detail maupun gambaran umum.
Hasilnya: V4-Pro menggunakan 27% dari komputasi yang dibutuhkan pendahulunya (V3.2). KV cache—memori yang diperlukan untuk melacak konteks—turun menjadi 10% dari V3.2. V4-Flash mendorong efisiensi lebih jauh: 10% komputasi dan 7% memori dibandingkan V3.2.
DeepSeek menerbitkan perbandingan benchmark yang komprehensif terhadap GPT-5.4 dan Gemini-3.1-Pro, termasuk area di mana V4-Pro tertinggal dari pesaing. Pada tugas penalaran, penalaran V4-Pro tertinggal di belakang GPT-5.4 dan Gemini-3.1-Pro sekitar tiga hingga enam bulan, menurut laporan teknis DeepSeek.
Di mana V4-Pro memimpin:
Di mana V4-Pro tertinggal:
Pada tugas konteks panjang, V4-Pro memimpin model open-source dan mengalahkan Gemini-3.1-Pro pada CorpusQA (mensimulasikan analisis dokumen nyata pada satu juta token) tetapi kalah dari Claude Opus 4.6 pada MRCR, yang mengukur pengambilan informasi spesifik yang terpendam dalam teks panjang.
V4-Pro dapat dijalankan di Claude Code, OpenCode, dan alat coding AI lainnya. Menurut survei internal DeepSeek terhadap 85 pengembang yang menggunakan V4-Pro sebagai agen coding utama mereka, 52% mengatakan sudah siap menjadi model default mereka, 39% cenderung “ya”, dan kurang dari 9% mengatakan “tidak”. Pengujian internal DeepSeek menunjukkan V4-Pro mengungguli Claude Sonnet dan mendekati Claude Opus 4.5 pada tugas coding agentik.
Artificial Analysis menempatkan V4-Pro pertama di antara semua model open-weight pada GDPval-AA, sebuah benchmark yang menguji pekerjaan pengetahuan bernilai ekonomi yang mencakup tugas di bidang keuangan, hukum, dan riset. V4-Pro-Max mencetak 1.554 Elo, unggul dari GLM-5.1 (1.535) dan MInimax M2.7 (1.514). Claude Opus 4.6 mencetak 1.619 pada benchmark yang sama.
V4 memperkenalkan “interleaved thinking”, yang mempertahankan seluruh rantai pemikiran di seluruh panggilan tool. Pada model sebelumnya, ketika sebuah agen membuat beberapa panggilan tool—misalnya, mencari di web, menjalankan kode, lalu mencari lagi—konteks penalaran model dibersihkan antarputaran. V4 menjaga kesinambungan penalaran di seluruh langkah, mencegah hilangnya konteks dalam alur kerja otomatis yang kompleks.
Rilis V4 hadir di tengah aktivitas signifikan di ruang AI. Anthropic mengirim Claude Opus 4.7 pada 16 April 2026. GPT-5.5 milik OpenAI diluncurkan pada 23 April 2026, dengan GPT-5.5 Pro diberi harga $30 per sejuta token input dan $180 per sejuta token output. GPT-5.5 mengalahkan V4-Pro pada Terminal Bench 2.0 (82,7% dibanding 70,0%), yang menguji alur kerja agen command-line yang kompleks.
Xiaomi merilis MiMo V2.5 Pro pada 22 April 2026, menawarkan kemampuan multimodal penuh (image, audio, video) pada $1 input dan $3 output per sejuta token. Tencent merilis Hy3 pada hari yang sama dengan GPT-5.5.
Untuk perspektif penetapan harga: CEO Cline Saoud Rizwan mencatat bahwa jika Uber menggunakan DeepSeek alih-alih Claude, anggaran AI tahun 2026—dilaporkan cukup untuk empat bulan pemakaian—akan bertahan tujuh tahun.
Baik V4-Pro maupun V4-Flash dilisensikan MIT dan tersedia di Hugging Face. Saat ini, model-model tersebut hanya teks; DeepSeek menyatakan bahwa mereka sedang mengerjakan kemampuan multimodal. Kedua model dapat dijalankan secara gratis di perangkat keras lokal atau disesuaikan berdasarkan kebutuhan perusahaan.
Endpoint deepseek-chat dan deepseek-reasoner milik DeepSeek yang sudah ada sebelumnya sudah mengarahkan ke V4-Flash pada mode non-thinking dan thinking masing-masing. Endpoint lama deepseek-chat dan deepseek-reasoner akan dihentikan pada 24 Juli 2026.
DeepSeek melatih V4 sebagian dengan chip Huawei Ascend, menghindari pembatasan ekspor AS. Perusahaan menyatakan bahwa setelah 950 supernode baru aktif pada akhir tahun 2026, harga model Pro yang sudah rendah akan turun lebih lanjut.
Bagi perusahaan, struktur penetapan harga dapat mengubah perhitungan cost-benefit. Sebuah model yang memimpin benchmark open-source dengan harga $1,74 per sejuta token input membuat pemrosesan dokumen skala besar, peninjauan hukum, dan pipeline generasi kode jauh lebih murah dibanding enam bulan sebelumnya. Konteks satu juta token memungkinkan basis kode atau berkas regulasi lengkap diproses dalam satu permintaan, bukan dipecah ke beberapa panggilan.
Bagi pengembang dan pembuat independen, V4-Flash adalah pertimbangan utama. Dengan harga $0,14 untuk input dan $0,28 untuk output per sejuta token, ia lebih murah daripada model yang dianggap opsi anggaran setahun lalu sambil menangani sebagian besar tugas yang dilakukan versi Pro.