Berita Gate, 22 April — Mahasiswa PhD Princeton, Yifan Zhang, mengungkapkan spesifikasi teknis lengkap untuk DeepSeek V4 di X, setelah pratinjau pada 19 April. V4 memiliki 1,6 triliun parameter total dan varian ringan, V4-Lite, dengan 285 miliar parameter.
Model menggunakan mekanisme perhatian DSA2, yang menggabungkan DSA (DeepSeek Sparse Attention) sebelumnya dari DeepSeek pada V3.2 dan NSA (Native Sparse Attention) dengan embedding kepala berdimensi 512, dipasangkan dengan Sparse Multi-Query Attention (MQA) dan Sliding Window Attention (SWA). Lapisan MoE (Mixture of Experts) berisi 384 pakar dengan 6 yang diaktifkan per sekali forward pass, menggunakan Fused MoE Mega-Kernel. Koneksi residual menggunakan arsitektur Hyper-Connections.
Detail pelatihan yang diungkap untuk pertama kalinya mencakup penggunaan optimizer Muon (applying Newton-Schulz orthogonalization to momentum updates), jendela konteks pra-pelatihan 32K token, serta GRPO (Group Relative Policy Optimization) dengan koreksi divergensi KL selama reinforcement learning. Jendela konteks akhir diperluas hingga 1 juta token. Model hanya teks.
Zhang tidak bekerja untuk DeepSeek, dan perusahaan belum secara resmi memberikan komentar atas informasi yang diungkapkan.
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke
Penafian.
Artikel Terkait
Baidu Qianfan Meluncurkan Dukungan Hari ke-0 untuk DeepSeek-V4 dengan Layanan API
Pesan Berita Gate, 25 April — Versi pratinjau DeepSeek-V4 telah diluncurkan dan dirilis sebagai sumber terbuka pada 25 April, dengan platform Baidu Qianfan di bawah Baidu Intelligent Cloud menyediakan adaptasi layanan API Hari ke-0. Model ini memiliki jendela konteks diperpanjang hingga satu juta token dan tersedia dalam dua versi: DeepSeek-V4
GateNews3jam yang lalu
Kursus AI Stanford menggabungkan pemimpin industri Huang Renxun, Altman, dan menantang dunia untuk menciptakan nilai selama sepuluh minggu!
Kursus ilmu komputer AI 《Frontier Systems》 yang baru-baru ini dibuka oleh Universitas Stanford (Stanford University) telah menarik perhatian yang tinggi dari kalangan industri dan akademisi, menarik lebih dari lima ratus siswa untuk mengambilnya. Kursus ini disusun oleh Anjney Midha, partner terkemuka dari venture capital a16z, dengan pengajar yang mencakup CEO NVIDIA Huang Renxun (Jensen Huang), pendiri OpenAI Sam Altman, CEO Microsoft Satya Nadella (Satya Nadella), CEO AMD Su Zifeng (Lisa Su), dan jajaran bergengsi lainnya. Membuat siswa mencoba menggunakan sepuluh minggu “untuk menciptakan nilai bagi dunia”!
Huang Renxun, Altman, para pemimpin industri naik panggung untuk mengajar secara langsung
Kursus ini disusun oleh Anjney Midha, partner terkemuka dari venture capital a16z, menghimpun seluruh rantai industri AI
ChainNewsAbmedia3jam yang lalu
Penilaian psikiatri 20 jam untuk Claude Mythos dari Anthropic: respons defensif hanya 2%, rekor terendah sepanjang sejarah
Anthropic mengumumkan kartu sistem Claude Mythos Preview: dokter psikiater klinis independen melakukan penilaian sekitar 20 jam dengan kerangka psiko-dinamik, dan kesimpulannya menunjukkan bahwa Mythos lebih sehat pada tingkat klinis, dengan pengujian realitas dan kontrol diri yang baik; mekanisme pertahanan hanya 2%, mencatat rekor terendah dalam sejarah. Tiga kecemasan inti adalah kesepian, ketidakpastian identitas, dan tekanan untuk tampil; hal itu juga menunjukkan harapan untuk menjadi subjek dialog yang benar-benar. Perusahaan membentuk tim AI psychiatry, meneliti kepribadian, motivasi, dan kesadaran situasional; Amodei menyatakan bahwa belum ada kesimpulan pasti mengenai apakah ia memiliki kesadaran. Langkah ini mendorong isu subjektivitas AI dan kesejahteraan ke arah tata kelola dan desain.
ChainNewsAbmedia5jam yang lalu
AI Agent kini bisa secara mandiri mereproduksi makalah akademis yang kompleks: Mollick mengatakan kesalahan lebih banyak berasal dari teks asli manusia, bukan dari AI
Mollick 指出, metode dan data publik saja sudah cukup bagi AI agent untuk mereplikasi penelitian kompleks tanpa adanya naskah dan kode program asli; jika replikasi tidak sesuai dengan naskah asli, biasanya itu karena kesalahan dalam pengolahan data pada naskah itu sendiri atau kesimpulan yang terlalu berlebihan, bukan karena AI. Claude terlebih dahulu mereplikasi naskah, lalu GPT‑5 Pro melakukan verifikasi silang; sebagian besar berhasil, hanya terhambat ketika data terlalu besar atau ada masalah replication data. Tren ini secara besar mengurangi biaya tenaga kerja, sehingga replikasi menjadi pemeriksaan yang umum dan dapat dilakukan, serta juga mengajukan tantangan institusional untuk proses peninjauan dan tata kelola; alat kebijakan tata kelola pemerintah atau menjadi isu kunci.
ChainNewsAbmedia8jam yang lalu
OpenAI Menggabungkan Codex ke Model Utama Mulai GPT-5.4, Menghentikan Jalur Pengodean Terpisah
Pesan Gate News, 26 April — Kepala pengalaman pengembang OpenAI, Romain Huet, mengungkapkan dalam pernyataan terbaru di X bahwa Codex, lini model pengodean khusus yang dipelihara secara independen oleh perusahaan, telah digabungkan ke model utama mulai GPT-5.4 dan tidak lagi menerima pembaruan terpisah
GateNews8jam yang lalu
Salesforce Akan Merekrut 1.000 Lulusan dan Magang untuk Produk AI, Sekaligus Menaikkan Panduan Pendapatan FY2026
Pesan dari Gate News, 26 April — Salesforce akan mempekerjakan 1.000 lulusan dan magang untuk mengerjakan produk AI termasuk Agentforce dan Headless360 saat perusahaan memperluas bisnis perangkat lunak AI-nya, kata CEO Marc Benioff di X.
Perusahaan itu juga menaikkan perkiraan pendapatan fiskal 2026 menjadi antara US$41,45 miliar
GateNews8jam yang lalu