ปิดข่าว Gate ประจำวันที่ 23 เมษายน — ทีมวิจัยของ Perplexity เผยแพร่บทความทางเทคนิคที่อธิบายระเบียบวิธีหลังการฝึกอบรมสำหรับตัวแทนค้นหาเว็บ แนวทางดังกล่าวใช้โมเดลเปิดซอร์ส Qwen3.5 จำนวน 2 ตัว (Qwen3.5-122B-A10B และ Qwen3.5-397B-A17B) และใช้ไปป์ไลน์แบบ 2 ขั้นตอน ได้แก่ การฝึกแบบมีผู้สอน (SFT) เพื่อสร้างความสามารถในการทำตามคำสั่งและความสอดคล้องด้านภาษา จากนั้นตามด้วยการเรียนรู้แบบเสริมแรงออนไลน์ (RL) เพื่อเพิ่มประสิทธิภาพด้านความถูกต้องของการค้นหาและประสิทธิภาพการใช้เครื่องมือ

ขั้น RL ใช้ทั้งอัลกอริทึม GRPO และแหล่งข้อมูล 2 แหล่ง: ชุดข้อมูลคำถาม-คำตอบแบบหลายขั้นตอนที่ตรวจสอบได้ซึ่งเป็นกรรมสิทธิ์ โดยสร้างจากคำถามเริ่มต้นภายในที่ต้องใช้การให้เหตุผล 2–4 ช่วง และมีการยืนยันด้วยตัวแก้หลายตัว และข้อมูลการสนทนาทั่วไปที่อิงตามเกณฑ์การให้คะแนน ซึ่งจะแปลงข้อกำหนดการนำไปใช้งานให้เป็นเงื่อนไขย่อยที่ตรวจสอบได้อย่างเป็นรูปธรรม เพื่อป้องกันการเสื่อมพฤติกรรมจาก SFT

การออกแบบรางวัลใช้การรวมแบบมีประตูควบคุม—คะแนนความพึงพอใจจะมีส่วนร่วมก็ต่อเมื่อได้ความถูกต้องตามเกณฑ์พื้นฐาน (การจับคู่คำถาม-คำตอบ หรือบรรลุเกณฑ์ทั้งหมดตามรูบริก) เพื่อป้องกันสัญญาณความพึงพอใจที่สูงไม่ให้บดบังความผิดพลาดด้านข้อเท็จจริง การลงโทษด้านประสิทธิภาพใช้การยึดตามกลุ่มภายใน โดยใช้การลงโทษแบบเรียบต่อการเรียกใช้เครื่องมือและความยาวการสร้างที่เกินกว่าค่าพื้นฐานของคำตอบที่ถูกต้องในกลุ่มเดียวกัน

การประเมินแสดงว่า Qwen3.5-397B-SFT-RL ให้ประสิทธิภาพระดับดีที่สุดในกลุ่มเมื่อเทียบกันในชุดการทดสอบการค้นหา ใน FRAMES ทำได้ 57.3% ของความถูกต้องเมื่อเรียกเครื่องมือเพียงครั้งเดียว ซึ่งเหนือกว่า GPT-5.4 ด้วยส่วนต่าง 5.7 จุดเปอร์เซ็นต์ และเหนือกว่า Claude Sonnet 4.6 ด้วยส่วนต่าง 4.7 จุดเปอร์เซ็นต์ ภายใต้งบประมาณปานกลาง (การเรียกเครื่องมือสี่ครั้ง) จะได้ความถูกต้อง 73.9% ที่ $0.02 ต่อคำถาม เทียบกับ GPT-5.4 ที่ได้ 67.8% ที่ $0.085 ต่อคำถาม และ Sonnet 4.6 ที่ได้ 62.4% ที่ $0.153 ต่อคำถาม ตัวเลขต้นทุนอ้างอิงจากราคาต่อสาธารณะของแต่ละผู้ให้บริการ และไม่รวมการปรับปรุงด้านการแคช

news.view.source

news.article.disclaimer

btc.bar.articles

MagicBlock เปิดตัว Mirage เครื่องมือชำระเงินเพื่อความเป็นส่วนตัวแบบบรรทัดคำสั่งสำหรับ Solana

solana news Project Progress AI Agent AI Tools & Apps

ข้อความจาก Gate News วันที่ 23 เมษายน — MagicBlock ได้เปิดตัว Mirage ซึ่งเป็นเครื่องมือชำระเงินเพื่อความเป็นส่วนตัวแบบบรรทัดคำสั่ง ออกแบบมาสำหรับเครือข่าย Solana เครื่องมือนี้ช่วยให้ผู้ใช้สร้างวอลเล็ต ฝากเงิน และส่งธุรกรรมแบบเป็นส่วนตัวผ่านคำสั่งในเทอร์มินัล บอท หรือเอเจนต์ AI Mirage ถูกสร้างบน Private

GateNews2 ชั่วโมง ที่แล้ว

OpenClaw 2026.4.22 รวมวงจรชีวิตของปลั๊กอินเข้ากับ Codex และ Pi Harness ลดเวลาในการโหลดปลั๊กอินได้สูงสุด 90%

pi network news AI Agent AI Industry News

ข่าว Gate ประจำวันที่ 23 เมษายน — OpenClaw แพลตฟอร์มตัวแทน AI แบบโอเพนซอร์ส ได้เปิดตัวเวอร์ชัน 2026.4.22 เมื่อวันที่ 22 เมษายน โดยการเปลี่ยนแปลงที่สำคัญที่สุดคือการทำให้วงจรชีวิตของ Codex harness และ Pi harness สอดคล้องกัน ก่อนหน้านี้ ปลั๊กอินทำงานไม่สอดคล้องกันในเส้นทาง harness ทั้งสอง โดยมีบาง hook ที่หายไปในบางสภาพแวดล้อม พร้อมด้วย

GateNews4 ชั่วโมง ที่แล้ว

Google Cloud และ CVC ร่วมมือเพื่อเร่งการเปลี่ยนผ่านของเอเจนต์ AI สำหรับบริษัทในพอร์ตการลงทุน

AI Agent AI Industry News

ข้อความจาก Gate News วันที่ 23 เมษายน — Google Cloud และยักษ์ใหญ่ด้านไพรเวทอิควิตี้อย่าง CVC ประกาศความร่วมมือเชิงยุทธศาสตร์เพื่อเร่งการเปลี่ยนผ่านของเอเจนต์ AI สำหรับ CVC และบริษัทอีกหลายร้อยแห่งภายในพอร์ตการลงทุนของ CVC ความร่วมมือครั้งนี้จะใช้ประโยชน์จากแพลตฟอร์มปัญญาประดิษฐ์ของ Google Cloud และ

GateNews6 ชั่วโมง ที่แล้ว

Delphi AI Prediction Market เปิดตัวบน Gensyn Mainnet

Prediction Market Project Progress Partnerships & Ecosystem AI Agent AI Tokens

ข้อความข่าว Gate 23 เมษายน——โปรโตคอลตลาดคาดการณ์ด้วย AI ของ Delphi ได้เปิดตัวอย่างเป็นทางการบน Gensyn ซึ่งเป็นโปรโตคอลการประมวลผลด้วย AI โดยช่วยให้มนุษย์และเอเจนต์ AI ทำการเทรดการคาดการณ์บนแพลตฟอร์มเดียวกัน การชำระเงินเสร็จสิ้นบนเชนผ่านออราเคิล AI ที่ได้รับการยืนยัน Gensyn เคยเปิดตัว Delphi บนเทสเน็ตของตนในเดือนธันวาคม 2025

GateNews6 ชั่วโมง ที่แล้ว

MetYa และ Zypher Network จับมือกันเพื่อสร้างแพลตฟอร์ม Web3 ที่เน้นความเป็นส่วนตัวเป็นอันดับแรกด้วย AI และเทคโนโลยีการพิสูจน์ความรู้เป็นศูนย์

Partnerships & Ecosystem AI Agent

ข้อความจาก Gate News ประจำวันที่ 23 เมษายน — MetYa และ Zypher Network ประกาศความร่วมมือเชิงกลยุทธ์เมื่อวานนี้ (22 เมษายน) เพื่อยกระดับประสบการณ์ Web3 ผ่านการบูรณาการเทคโนโลยีปัญญาประดิษฐ์และเทคโนโลยีการพิสูจน์ความรู้เป็นศูนย์ ความร่วมมือนี้มีเป้าหมายเพื่อสร้างสภาพแวดล้อมดิจิทัลที่ให้ความสำคัญกับความเป็นส่วนตัว

GateNews6 ชั่วโมง ที่แล้ว

แสดงความคิดเห็น

0/400

ไม่มีความคิดเห็น