ปิดข่าว Gate ประจำวันที่ 23 เมษายน — ทีมวิจัยของ Perplexity เผยแพร่บทความทางเทคนิคที่อธิบายระเบียบวิธีหลังการฝึกอบรมสำหรับตัวแทนค้นหาเว็บ แนวทางดังกล่าวใช้โมเดลเปิดซอร์ส Qwen3.5 จำนวน 2 ตัว (Qwen3.5-122B-A10B และ Qwen3.5-397B-A17B) และใช้ไปป์ไลน์แบบ 2 ขั้นตอน ได้แก่ การฝึกแบบมีผู้สอน (SFT) เพื่อสร้างความสามารถในการทำตามคำสั่งและความสอดคล้องด้านภาษา จากนั้นตามด้วยการเรียนรู้แบบเสริมแรงออนไลน์ (RL) เพื่อเพิ่มประสิทธิภาพด้านความถูกต้องของการค้นหาและประสิทธิภาพการใช้เครื่องมือ
ขั้น RL ใช้ทั้งอัลกอริทึม GRPO และแหล่งข้อมูล 2 แหล่ง: ชุดข้อมูลคำถาม-คำตอบแบบหลายขั้นตอนที่ตรวจสอบได้ซึ่งเป็นกรรมสิทธิ์ โดยสร้างจากคำถามเริ่มต้นภายในที่ต้องใช้การให้เหตุผล 2–4 ช่วง และมีการยืนยันด้วยตัวแก้หลายตัว และข้อมูลการสนทนาทั่วไปที่อิงตามเกณฑ์การให้คะแนน ซึ่งจะแปลงข้อกำหนดการนำไปใช้งานให้เป็นเงื่อนไขย่อยที่ตรวจสอบได้อย่างเป็นรูปธรรม เพื่อป้องกันการเสื่อมพฤติกรรมจาก SFT
การออกแบบรางวัลใช้การรวมแบบมีประตูควบคุม—คะแนนความพึงพอใจจะมีส่วนร่วมก็ต่อเมื่อได้ความถูกต้องตามเกณฑ์พื้นฐาน (การจับคู่คำถาม-คำตอบ หรือบรรลุเกณฑ์ทั้งหมดตามรูบริก) เพื่อป้องกันสัญญาณความพึงพอใจที่สูงไม่ให้บดบังความผิดพลาดด้านข้อเท็จจริง การลงโทษด้านประสิทธิภาพใช้การยึดตามกลุ่มภายใน โดยใช้การลงโทษแบบเรียบต่อการเรียกใช้เครื่องมือและความยาวการสร้างที่เกินกว่าค่าพื้นฐานของคำตอบที่ถูกต้องในกลุ่มเดียวกัน
การประเมินแสดงว่า Qwen3.5-397B-SFT-RL ให้ประสิทธิภาพระดับดีที่สุดในกลุ่มเมื่อเทียบกันในชุดการทดสอบการค้นหา ใน FRAMES ทำได้ 57.3% ของความถูกต้องเมื่อเรียกเครื่องมือเพียงครั้งเดียว ซึ่งเหนือกว่า GPT-5.4 ด้วยส่วนต่าง 5.7 จุดเปอร์เซ็นต์ และเหนือกว่า Claude Sonnet 4.6 ด้วยส่วนต่าง 4.7 จุดเปอร์เซ็นต์ ภายใต้งบประมาณปานกลาง (การเรียกเครื่องมือสี่ครั้ง) จะได้ความถูกต้อง 73.9% ที่ $0.02 ต่อคำถาม เทียบกับ GPT-5.4 ที่ได้ 67.8% ที่ $0.085 ต่อคำถาม และ Sonnet 4.6 ที่ได้ 62.4% ที่ $0.153 ต่อคำถาม ตัวเลขต้นทุนอ้างอิงจากราคาต่อสาธารณะของแต่ละผู้ให้บริการ และไม่รวมการปรับปรุงด้านการแคช
btc.bar.articles
MagicBlock เปิดตัว Mirage เครื่องมือชำระเงินเพื่อความเป็นส่วนตัวแบบบรรทัดคำสั่งสำหรับ Solana
OpenClaw 2026.4.22 รวมวงจรชีวิตของปลั๊กอินเข้ากับ Codex และ Pi Harness ลดเวลาในการโหลดปลั๊กอินได้สูงสุด 90%
Google Cloud และ CVC ร่วมมือเพื่อเร่งการเปลี่ยนผ่านของเอเจนต์ AI สำหรับบริษัทในพอร์ตการลงทุน
Delphi AI Prediction Market เปิดตัวบน Gensyn Mainnet
MetYa และ Zypher Network จับมือกันเพื่อสร้างแพลตฟอร์ม Web3 ที่เน้นความเป็นส่วนตัวเป็นอันดับแรกด้วย AI และเทคโนโลยีการพิสูจน์ความรู้เป็นศูนย์