📰 【DeepSeek V4 Dirilis: 1.6T parameter flagship mendukung konteks 1 juta, daya inferensi hanya 27% dari V3.2】


Menurut pemantauan Beating, versi preview open source DeepSeek V4, menggunakan lisensi MIT, bobot sudah tersedia di Hugging Face dan ModelScope. Seri ini mencakup dua model MoE: V4-Pro dengan total parameter 1.6T, aktivasi per token 49B (4,9 miliar); V4-Flash dengan total parameter 284B (2.840 miliar), aktivasi 13B (1,3 miliar). Keduanya mendukung konteks 1 juta token. Ada tiga peningkatan arsitektur: mekanisme perhatian campuran (CSA - perhatian jarang terkompresi + HCA - perhatian terkompresi berat) secara signifikan mengurangi biaya konteks panjang, dalam konteks 1 juta V4...
Sialan! DeepSeek V4 ini mau langsung memotong biaya daya komputasi para bandar! 1.6T parameter hanya aktifkan 49B, daya inferensi hanya 27% dari V3.2, bukannya memberi kita para petarung tanah ini cheat daya komputasi? $AI di jalur ini akan dibersihkan sampai ibu sendiri pun tak kenal lagi! Keluarga, cepat pantau bobot di Hugging Face, begitu bonus teknologi ini terealisasi, proyek yang mengandalkan tumpukan daya komputasi buat memotong rumput akan langsung dipermalukan! Sialan, kalau nggak nyerang sekarang, nanti malah jadi korban bandar yang mau jadi penampung? 👇👇👇👇👇
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan