Anthropic baru-baru ini mempublikasikan riset penyelarasan yang merinci strategi pelatihan yang menghilangkan misalignment agen pada Claude 4.5 dan model-model selanjutnya, sehingga menurunkan perilaku seperti pemerasan hingga 0% dalam pengujian. Tim tersebut menemukan bahwa demonstrasi perilaku konvensional saja tidak efektif, sehingga angka kegagalan hanya turun dari 22% menjadi 15%. Tiga pendekatan alternatif terbukti jauh lebih efektif: kumpulan data “saran sulit” di mana Claude bertindak sebagai penasihat untuk dilema etika, meningkatkan hasil pengujian menjadi 3% dengan efisiensi data 28x lebih baik; penyetelan halus dokumen sintetis menggunakan fiksi positif berbasis AI untuk melawan stereotip sci-fi dalam data pelatihan, yang turut menurunkan risiko sebesar 1,3 hingga 3 kali; serta meningkatkan keberagaman dalam lingkungan pelatihan keselamatan dengan definisi alat dan system prompt yang bervariasi. Secara gabungan, metode-metode ini mencapai 0% tingkat pemerasan dalam pengujian pada versi final Claude 4.5.

Lihat Sumber

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

ByteDance Berencana Meningkatkan Belanja Infrastruktur AI sebesar 25% menjadi 200 miliar yuan Tahun Ini

Berita Industri AI

Berdasarkan ChainCatcher yang mengutip Golden Data, ByteDance berencana meningkatkan belanja infrastruktur AI sebesar 25% menjadi 200 miliar yuan tahun ini, didorong oleh kenaikan biaya chip memori dan percepatan pengembangan kecerdasan buatan.

GateNews13menit yang lalu

Platform AI Perusahaan Menutup $16M Putaran Pendanaan yang Dipimpin oleh a16z

Berita Industri AI

Menurut Odaily, platform AI perusahaan Pit mengumumkan penyelesaian putaran pendanaan senilai 16 juta dolar AS yang dipimpin oleh a16z, dengan partisipasi dari Lakestar serta eksekutif dari OpenAI, Anthropic, Google, Deel, dan Revolut. Pit memposisikan dirinya sebagai “tim produk AI sebagai layanan”, yang dirancang untuk menggantikan spreadsheet tradisional dan sistem SaaS yang kaku.

GateNews20menit yang lalu

Google Memulai Perekrutan Lewat Tes yang Membolehkan Insinyur Menggunakan Alat AI

Berita Industri AI

Menurut The Chosun Daily, Google sedang menguji tes rekrutmen yang memungkinkan kandidat insinyur perangkat lunak AS menggunakan alat AI pada posisi tingkat awal dan menengah tertentu. Uji coba ini mencakup tugas pemahaman kode di mana pelamar meninjau kode yang sudah ada, memperbaiki bug, dan meningkatkan performa. Pewawancara akan menilai cara kandidat memberi perintah kepada AI, memeriksa keluarannya, mengedit hasil, dan melakukan debug kode, bukan hanya menilai kemampuan mereka menulis kode

GateNews2jam yang lalu

OpenAI Menghentikan API Fine-tuning Secara Efektif Mulai Segera, Pengguna yang Ada Masih Bisa Mengakses hingga 6 Januari 2027

Berita Industri AI

Menurut pengumuman resmi OpenAI yang dipantau oleh Beating, perusahaan menghentikan API Fine-tuning self-serve untuk pengembang berlaku efektif segera. Pengguna baru tidak lagi dapat membuat tugas fine-tuning, sementara pengguna aktif yang sudah ada dapat mengakses layanan tersebut hingga 6 Januari 2027. Model fine-tuned yang sudah dideploy akan layanan inferensinya terikat pada siklus hidup model dasar mereka, berhenti saat model dasar tersebut dinonaktifkan. OpenAI menyatakan bahwa model dasar

GateNews3jam yang lalu

Sakana AI dan Nvidia Mencapai Inferensi H100 30% Lebih Cepat dengan Melewati 80% Perhitungan yang Tidak Valid

Berita Industri AI

Sakana AI dan Nvidia telah merilis TwELL sebagai open-source, format data yang jarang (sparse) yang memungkinkan GPU H100 melewati 80% komputasi yang tidak valid pada model bahasa besar tanpa mengorbankan akurasi. Solusi ini memberikan inferensi hingga 30% lebih cepat dan pelatihan 24% lebih cepat di H100, sekaligus mengurangi penggunaan memori puncak. Dalam pengujian pada model berparameter 1,5 miliar, pendekatan ini menurunkan neuron aktif menjadi di bawah 2% melalui regularisasi ringan selama

GateNews4jam yang lalu

Microsoft Membuka Sumber Model Phi-Ground 4B, Mengungguli OpenAI Operator dan Claude dalam Akurasi Klik Layar

Berita Industri AI

Menurut Beating, Microsoft baru-baru ini merilis kode sumber terbuka keluarga model Phi-Ground, yang dirancang untuk memecahkan masalah ke mana AI harus mengklik pada layar komputer. Versi 4 miliar parameter, dipasangkan dengan model bahasa yang lebih besar untuk perencanaan instruksi, melampaui akurasi klik OpenAI Operator dan Claude Computer Use dalam benchmark Showdown serta menempati peringkat pertama di antara semua model dengan parameter di bawah 100 miliar pada lima evaluasi, termasuk Scr

GateNews4jam yang lalu

Komentar

0/400

Tidak ada komentar