Hasil pencarian untuk "GPT-4O"
Hari Ini
00:30

ZetaChain Meluncurkan Anuma, Platform Agregasi AI yang Berfokus pada Privasi

Pesan Berita Gate, 28 April — Tim ZetaChain secara resmi telah meluncurkan Anuma, sebuah platform agregasi AI yang berfokus pada privasi yang memungkinkan pengguna mengakses berbagai model AI—termasuk GPT, Claude, Gemini, Grok, DeepSeek, Kimi, dan Qwen—melalui satu antarmuka. Anuma memiliki penyimpanan privasi lokal, multi-model kolaborasi, dan sistem memori konteks terpadu di berbagai model. Antarmuka web platform ini sekarang sudah dibuka untuk digunakan.
Lainnya
05:17

GPT-5.5 Kembali ke Ujung Terdepan dalam Coding, Tapi OpenAI Mengganti Benchmark Setelah Kalah dari Opus 4.7

Berita Gate tanggal 27 April — SemiAnalysis, sebuah firma analisis semikonduktor dan AI, merilis benchmark perbandingan asisten coding yang mencakup GPT-5.5, Claude Opus 4.7, dan DeepSeek V4. Temuan utamanya: GPT-5.5 menandai kembalinya pertama OpenAI ke ujung terdepan dalam model coding dalam enam bulan, dengan insinyur SemiAnalysis kini bergantian antara Codex dan Claude Code setelah sebelumnya hampir sepenuhnya mengandalkan Claude. GPT-5.5 didasarkan pada pendekatan pra-pelatihan baru yang diberi kode "Spud" dan merupakan ekspansi pertama OpenAI dalam skala pra-pelatihan sejak GPT-4.5. Dalam pengujian praktis, muncul pembagian kerja yang jelas. Claude menangani perencanaan proyek baru dan penyiapan awal, sementara Codex unggul pada perbaikan bug yang membutuhkan penalaran intensif. Codex menunjukkan pemahaman yang lebih kuat tentang struktur data dan penalaran logis, tetapi kesulitan menyimpulkan maksud pengguna yang ambigu. Pada satu tugas di satu dasbor, Claude secara otomatis meniru tata letak halaman referensi tetapi memalsukan dalam jumlah besar data, sedangkan Codex melewatkan tata letak tetapi menyajikan data yang jauh lebih akurat. Analisis mengungkap detail manipulasi benchmark: posting blog OpenAI pada Februari mendorong industri untuk mengadopsi SWE-bench Pro sebagai standar baru untuk benchmark coding. Namun, pengumuman GPT-5.5 beralih ke benchmark baru yang disebut "Expert-SWE." Alasannya, yang terselip dalam catatan kecil, adalah bahwa GPT-5.5 disalip oleh Opus 4.7 pada SWE-bench Pro dan tertinggal jauh dari Mythos 77.8% yang belum dirilis Anthropic. Terkait Opus 4.7, Anthropic menerbitkan analisis pasca-kematian satu minggu setelah rilis, mengakui tiga bug dalam Claude Code yang bertahan selama beberapa minggu dari Maret hingga April, dan memengaruhi hampir semua pengguna. Beberapa insinyur sebelumnya telah melaporkan penurunan performa pada versi 4.6, tetapi diabaikan sebagai pengamatan subjektif. Selain itu, tokenizer baru Opus 4.7 meningkatkan penggunaan token hingga 35%, yang secara terbuka diakui Anthropic—secara efektif merupakan kenaikan harga yang tersembunyi. DeepSeek V4 dinilai sebagai "mampu menyamai laju dengan yang di garis depan tetapi tidak memimpin," dengan memposisikan dirinya sebagai alternatif berbiaya terendah di antara model sumber tertutup. Analisis juga mencatat bahwa "Claude terus mengungguli DeepSeek V4 Pro pada tugas penulisan bahasa Tionghoa dengan kesulitan tinggi," dengan komentar bahwa "Claude menang melawan model Tionghoa di bahasa aslinya." Artikel ini memperkenalkan konsep kunci: harga model harus dievaluasi berdasarkan "biaya per tugas" bukan "biaya per token." Harga GPT-5.5 dua kali lipat dari GPT-5.4 input $5, output per million tokens, tetapi ia menyelesaikan tugas yang sama dengan token yang lebih sedikit, sehingga biaya aktualnya tidak harus lebih tinggi. Data awal SemiAnalysis menunjukkan rasio input-ke-output Codex sebesar 80:1, lebih rendah daripada rasio Claude Code 100:1.
Lainnya
02:06

Telegram Meluncurkan Alat Pembuat Bot AI Tanpa Kode

Pesan Berita Gate, 27 April — Telegram telah meluncurkan alat pembuat bot AI tanpa kode yang memungkinkan pengguna membuat dan menyesuaikan chatbot tanpa pengetahuan pemrograman. Pengguna dapat berinteraksi dengan bot LobsterFather untuk mendapatkan kunci API, lalu mengintegrasikannya dengan platform seperti Telewer, GPTBots, atau Lazy AI untuk mengonfigurasi perilaku dan fitur bot melalui opsi titik-dan-klik. Alat ini mendukung beberapa model AI termasuk GPT dan Llama. Pengguna dapat memilih model yang mereka inginkan dan menyesuaikan gaya percakapan serta fungsionalitas bot. Platform ini memungkinkan pembuatan Master Bot yang dapat mengelola dan mendistribusikan tugas ke sub-bot, sehingga cocok untuk menangani banyak grup obrolan atau skenario pertanyaan pelanggan. Fitur ini terintegrasi dengan Telegram Business, sehingga bot dapat berfungsi sebagai asisten otonom. Bot dapat menyambut anggota baru 24/7, menyaring pesan spam, dan menjawab pertanyaan yang sering diajukan, membantu komunitas tetap terorganisir dan responsif. Telegram telah menekankan bahwa pengguna harus menyadari risiko keamanan data pihak ketiga saat menggunakan integrasi ini, karena data bot mungkin diproses oleh platform eksternal.
Lainnya
05:21

Cambricon Menyelesaikan Adaptasi Day 0 DeepSeek-V4, Menandai Tonggak Penting untuk Ekosistem Chip AI Tiongkok

Pesan Gate News, 24 April — Perdebatan telah meletus di Amerika Serikat mengenai kemampuan teknologi dan kepatuhan DeepSeek V4. Chris McGuire, seorang rekan senior di Dewan Hubungan Luar Negeri (CFR) dan mantan pejabat Dewan Keamanan Nasional Gedung Putih serta Departemen Pertahanan, mempublikasikan analisis yang berargumen bahwa V4 belum mengubah lanskap persaingan AI AS-Tiongkok. Menurut McGuire, laporan V4 milik DeepSeek sendiri mengakui bahwa kemampuan penalarannya tertinggal dari model-model frontier sekitar 3 hingga 6 bulan, dengan tolok ukur terhadap GPT-5.2 dan Gemini 3.0 Pro yang dirilis enam bulan sebelumnya. McGuire mengangkat kekhawatiran bahwa meskipun laporan V4 mengungkap adaptasi pada tahap inferensi ke GPU NVIDIA dan NPU Huawei Ascend, laporan itu tidak secara terbuka merinci model GPU atau biaya pelatihan yang digunakan selama pengembangan. Ia mempertanyakan apakah ketiadaan informasi ini menunjukkan penggunaan chip NVIDIA Blackwell yang dikendalikan ekspor, dengan mencatat bahwa V3 sebelumnya mengklaim menggunakan 2.000 GPU H800 dengan biaya $5,57 juta. DeepSeek telah membantah menggunakan Blackwell, dengan menyatakan bahwa model tersebut dilatih menggunakan prosesor NVIDIA H800 dan Huawei Ascend 910C. CEO Replit Amjad Masad menanggapi analisis McGuire, dengan berargumen bahwa para ilmuwan Tiongkok secara publik membagikan terobosan AI yang benar-benar nyata sementara para pembuat kebijakan dan pelobi Amerika memperbesar kekhawatiran "China distillation". Masad menyoroti inovasi arsitektural yang diungkap dalam pernyataan resmi DeepSeek, termasuk kompresi perhatian tingkat token DeepSeek Sparse Attention dan peningkatan efisiensi yang signifikan untuk komputasi long-context. Ia mencatat bahwa V4-Pro menunjukkan kebutuhan komputasi inferensi per-token dan KV cache yang jauh lebih rendah pada panjang konteks 1M dibandingkan V3.2, dengan menekankan bahwa kemajuan arsitektural ini tidak terkait dengan distilasi data pelatihan dan bahwa semua peneliti, termasuk lab-lab Amerika, dapat memperoleh manfaat dari pengembangan open-source.
Lainnya
04:54

Perplexity 揭示网页搜索代理的后训练方法;基于 Qwen3.5 的模型在准确性与成本上优于 GPT-5.4

Perplexity 使用 SFT,随后采用带有 Qwen3.5 模型的 RL,通过多跳 QA 数据集和评分标准检查来提升搜索准确性与效率,从而实现同类最佳的 FRAMES 表现。 摘要:Perplexity 面向网页搜索代理的后训练流程,将监督微调 (SFT) 与在线强化学习 (RL) 相结合,并通过 GRPO 算法来强化指令遵循与语言一致性。RL 阶段使用其自有的多跳可验证问答数据集以及基于评分标准的对话数据,以防止 SFT 漂移;通过奖励门控与组内效率惩罚来实现。评估显示,Qwen3.5-397B-SFT-RL 在 FRAMES 上达到顶级表现:单次工具调用准确率为 57.3%,四次调用准确率为 73.9%,成本为每次查询 $0.02;在这些指标上优于 GPT-5.4 与 Claude Sonnet 4.6。定价基于 API,并不包含缓存。
Lainnya