DeepSeek secara resmi meluncurkan rangkaian versi pratinjau V4 pada 24 April, dengan bobot model yang telah disinkronkan ke Hugging Face dan ModelScope, serta dirilis sebagai open-source di bawah lisensi MIT. Menurut laporan teknis DeepSeek V4, V4-Pro-Max (mode kekuatan inferensi maksimum) memperoleh 3206 poin pada tolok ukur Codeforces, melampaui GPT-5.4.

Spesifikasi arsitektur dua model MoE

Menurut laporan teknis DeepSeek V4, rangkaian V4 mencakup dua model campuran ahli (MoE):

V4-Pro: total parameter 1.6T, aktivasi per token 49B, mendukung konteks 1M token

V4-Flash: total parameter 284B, aktivasi per token 13B, juga mendukung konteks 1M token

Menurut laporan teknis, pada konteks 1M, FLOPs inferensi per token V4-Pro hanya 27% dari V3.2, cache KV turun menjadi 10% dari V3.2; terutama berkat peningkatan arsitektur dari mekanisme perhatian campuran (CSA perhatian jarang terkompresi + HCA perhatian terkompresi berat). Skala data praplatih melampaui 32T token; pengoptimal pelatihan diperbarui menjadi Muon.

Metodologi pasca-pelatihan: distilasi strategi online menggantikan reinforcement learning campuran

Menurut laporan teknis DeepSeek V4, pembaruan inti pasca-pelatihan V4 adalah menggantikan sepenuhnya tahap mixed RL (reinforcement learning campuran) V3.2 dengan distilasi strategi online (On-Policy Distillation, OPD). Proses baru dibagi menjadi dua langkah: pertama, melatih para pakar bidang secara terpisah untuk bidang seperti matematika, kode, Agent, dan mengikuti instruksi (SFT + reinforcement learning GRPO); kemudian, men-disti lasi kemampuan dari belasan ahli tersebut ke dalam satu model terpadu menggunakan multi-guru OPD, dengan penyelarasan melalui logit untuk menghindari konflik kemampuan yang umum terjadi pada metode tradisional.

Laporan ini juga memperkenalkan model hadiah generatif (Generative Reward Model, GRM), untuk tugas yang sulit diverifikasi dengan aturan, dengan melatih model menggunakan sejumlah kecil data anotasi manusia yang beragam, sehingga model dapat menjalankan fungsi generasi sekaligus evaluasi.

Hasil uji tolok ukur: unggul dalam pengkodean, namun masih ada kesenjangan pada penalaran pengetahuan

Menurut laporan teknis DeepSeek V4, hasil perbandingan V4-Pro-Max dengan Opus 4.6 Max, GPT-5.4 xHigh, dan Gemini 3.1 Pro High (tidak termasuk GPT-5.5 dan Opus 4.7 yang dirilis baru-baru ini):

Codeforces: 3206 (GPT-5.4：3168 / Gemini 3.1 Pro：3052）→ Tertinggi di seluruh ajang

LiveCodeBench：93.5 → Tertinggi di seluruh ajang

SWE Verified：80.6, tertinggal 0.2 poin persentase dari Opus 4.6 yang 80.8

GPQA Diamond：90.1, tertinggal dari Gemini 3.1 Pro yang 94.3

SimpleQA-Verified：57.9, tertinggal dari Gemini 3.1 Pro yang 75.6

HLE：37.7, tertinggal dari Gemini 3.1 Pro yang 44.4

Laporan teknis tersebut sekaligus menyatakan bahwa perbandingan di atas tidak mencakup GPT-5.5 dan Opus 4.7 yang dirilis paling baru; perbedaan antara V4 dan model generasi terbaru yang tertutup masih perlu diverifikasi melalui evaluasi pihak ketiga.

FAQ (Pertanyaan yang Sering Diajukan)

Apa ketentuan lisensi open-source untuk pratinjau DeepSeek V4, dan di mana mendapatkannya?

Berdasarkan pengumuman resmi DeepSeek pada 24 April, rangkaian V4 dirilis sebagai open-source di bawah lisensi MIT, bobot model telah tersedia di Hugging Face dan ModelScope, serta dapat digunakan untuk keperluan komersial dan akademik.

Apa perbedaan skala parameter DeepSeek V4-Pro dan V4-Flash?

Menurut laporan teknis DeepSeek V4, total parameter V4-Pro adalah 1.6T, dengan aktivasi per token 49B; total parameter V4-Flash adalah 284B, dengan aktivasi per token 13B; kedua model mendukung konteks 1M token.

Apa hasil perbandingan tolok ukur DeepSeek V4-Pro-Max dengan GPT-5.4 dan Gemini 3.1 Pro?

Menurut laporan teknis DeepSeek V4, V4-Pro-Max melampaui GPT-5.4 dan Gemini 3.1 Pro pada dua tolok ukur Codeforces (3206 poin) dan LiveCodeBench (93.5), namun masih tertinggal pada tolok ukur yang padat pengetahuan (GPQA Diamond, SimpleQA-Verified, HLE) dari Gemini 3.1 Pro; kelompok perbandingan tidak mencakup GPT-5.5 dan Opus 4.7.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Baidu Qianfan Meluncurkan Dukungan Hari ke-0 untuk DeepSeek-V4 dengan Layanan API

Berita Industri AI

Pesan Berita Gate, 25 April — Versi pratinjau DeepSeek-V4 telah diluncurkan dan dirilis sebagai sumber terbuka pada 25 April, dengan platform Baidu Qianfan di bawah Baidu Intelligent Cloud menyediakan adaptasi layanan API Hari ke-0. Model ini memiliki jendela konteks diperpanjang hingga satu juta token dan tersedia dalam dua versi: DeepSeek-V4

GateNews3jam yang lalu

Kursus AI Stanford menggabungkan pemimpin industri Huang Renxun, Altman, dan menantang dunia untuk menciptakan nilai selama sepuluh minggu!

Berita Industri AI

Kursus ilmu komputer AI 《Frontier Systems》 yang baru-baru ini dibuka oleh Universitas Stanford (Stanford University) telah menarik perhatian yang tinggi dari kalangan industri dan akademisi, menarik lebih dari lima ratus siswa untuk mengambilnya. Kursus ini disusun oleh Anjney Midha, partner terkemuka dari venture capital a16z, dengan pengajar yang mencakup CEO NVIDIA Huang Renxun (Jensen Huang), pendiri OpenAI Sam Altman, CEO Microsoft Satya Nadella (Satya Nadella), CEO AMD Su Zifeng (Lisa Su), dan jajaran bergengsi lainnya. Membuat siswa mencoba menggunakan sepuluh minggu “untuk menciptakan nilai bagi dunia”! Huang Renxun, Altman, para pemimpin industri naik panggung untuk mengajar secara langsung Kursus ini disusun oleh Anjney Midha, partner terkemuka dari venture capital a16z, menghimpun seluruh rantai industri AI

ChainNewsAbmedia3jam yang lalu

Penilaian psikiatri 20 jam untuk Claude Mythos dari Anthropic: respons defensif hanya 2%, rekor terendah sepanjang sejarah

Berita Industri AI

Anthropic mengumumkan kartu sistem Claude Mythos Preview: dokter psikiater klinis independen melakukan penilaian sekitar 20 jam dengan kerangka psiko-dinamik, dan kesimpulannya menunjukkan bahwa Mythos lebih sehat pada tingkat klinis, dengan pengujian realitas dan kontrol diri yang baik; mekanisme pertahanan hanya 2%, mencatat rekor terendah dalam sejarah. Tiga kecemasan inti adalah kesepian, ketidakpastian identitas, dan tekanan untuk tampil; hal itu juga menunjukkan harapan untuk menjadi subjek dialog yang benar-benar. Perusahaan membentuk tim AI psychiatry, meneliti kepribadian, motivasi, dan kesadaran situasional; Amodei menyatakan bahwa belum ada kesimpulan pasti mengenai apakah ia memiliki kesadaran. Langkah ini mendorong isu subjektivitas AI dan kesejahteraan ke arah tata kelola dan desain.

ChainNewsAbmedia5jam yang lalu

AI Agent kini bisa secara mandiri mereproduksi makalah akademis yang kompleks: Mollick mengatakan kesalahan lebih banyak berasal dari teks asli manusia, bukan dari AI

Agen AI Berita Industri AI

Mollick 指出, metode dan data publik saja sudah cukup bagi AI agent untuk mereplikasi penelitian kompleks tanpa adanya naskah dan kode program asli; jika replikasi tidak sesuai dengan naskah asli, biasanya itu karena kesalahan dalam pengolahan data pada naskah itu sendiri atau kesimpulan yang terlalu berlebihan, bukan karena AI. Claude terlebih dahulu mereplikasi naskah, lalu GPT‑5 Pro melakukan verifikasi silang; sebagian besar berhasil, hanya terhambat ketika data terlalu besar atau ada masalah replication data. Tren ini secara besar mengurangi biaya tenaga kerja, sehingga replikasi menjadi pemeriksaan yang umum dan dapat dilakukan, serta juga mengajukan tantangan institusional untuk proses peninjauan dan tata kelola; alat kebijakan tata kelola pemerintah atau menjadi isu kunci.

ChainNewsAbmedia8jam yang lalu

OpenAI Menggabungkan Codex ke Model Utama Mulai GPT-5.4, Menghentikan Jalur Pengodean Terpisah

Berita Industri AI

Pesan Gate News, 26 April — Kepala pengalaman pengembang OpenAI, Romain Huet, mengungkapkan dalam pernyataan terbaru di X bahwa Codex, lini model pengodean khusus yang dipelihara secara independen oleh perusahaan, telah digabungkan ke model utama mulai GPT-5.4 dan tidak lagi menerima pembaruan terpisah

GateNews8jam yang lalu

Salesforce Akan Merekrut 1.000 Lulusan dan Magang untuk Produk AI, Sekaligus Menaikkan Panduan Pendapatan FY2026

Berita Industri AI

Pesan dari Gate News, 26 April — Salesforce akan mempekerjakan 1.000 lulusan dan magang untuk mengerjakan produk AI termasuk Agentforce dan Headless360 saat perusahaan memperluas bisnis perangkat lunak AI-nya, kata CEO Marc Benioff di X. Perusahaan itu juga menaikkan perkiraan pendapatan fiskal 2026 menjadi antara US$41,45 miliar

GateNews8jam yang lalu

Komentar

0/400

Tidak ada komentar