Claude 的中文语言分词成本比英文高 65%,OpenAI 仅高 15%

Gate News 消息,4 月 29 日——AI 研究员 Aran Komatsuzaki 通过将 Rich Sutton 的奠基论文《The Bitter Lesson》翻译成九种语言,并将其分别通过 OpenAI、Gemini、Qwen、DeepSeek、Kimi 和 Claude 的分词器(tokenizers)处理,对六个主要 AI 模型的分词效率进行了对比分析。以 OpenAI 上英文版本的分词(token)数量作为基准 (1x),研究揭示了显著差异:在 Claude 上处理相同内容的中文需要 1.65x 个分词(tokens),而在 OpenAI 上仅需 1.15x。印地语在 Claude 上的结果更为极端,相比基准超过了 3x。Anthropic 在测试的六个模型中排名最低。

关键在于,当相同的中文文本在不同模型中被处理——且全部都以相同的英文基准进行衡量——结果出现了巨大的分歧:Kimi 只消耗了 0.81x 个分词 (甚至少于英文),Qwen 为 0.85x,而 Claude 则需要 1.65x。这个差距表明这是纯粹的分词效率问题,而非语言本身的问题。中文模型在处理中文时表现出更高的效率,这表明差异源于分词器优化,而不是语言本身。

对用户的实际影响十分可观:分词消耗的增加会直接推高 API 成本,延长模型响应延迟,并更快耗尽上下文窗口。分词效率取决于模型训练数据的语言构成——主要用英语训练的模型会更高效地压缩英文文本,而数据占比更低的语言会被切分成更小、效率更低的片段。

Komatsuzaki 的结论强调了一个基本原则:市场规模决定分词效率。更大的市场获得更好的优化,而在代表性不足的语言上将面临显著更高的分词成本。

news.article.disclaimer

btc.bar.articles

PayPal เปิดตัวการปรับโครงสร้างองค์กรเป็น 3 หน่วย โดยตั้งเป้าลดต้นทุน $900M ต่อปีให้ได้ภายในสิ้นปี 2027

เมื่อวันที่ 30 เมษายน PayPal ประกาศปรับโครงสร้างองค์กรครั้งใหญ่แบบครอบคลุม โดยแบ่งออกเป็น 3 หน่วยธุรกิจที่ชัดเจน ได้แก่ กลุ่มผู้บริโภค (Consumer) ธุรกิจขนาดเล็ก (Small Business) และองค์กรขนาดใหญ่ (Enterprise) เป้าหมายเพื่อทำให้การดำเนินงานคล่องตัวขึ้นและเร่งการนำเทคโนโลยีปัญญาประดิษฐ์ (AI) ไปใช้ บริษัทคาดการณ์ว่าการปรับโครงสร้างจะส่งผลให้

GateNews1 ชั่วโมง ที่แล้ว

Kaisar Network ระดมทุนครบ $4 ล้านดอลลาร์สำหรับชั้นการประมวลผล AI แบบกระจายอำนาจ Layer 1

ตามข้อมูลของ ChainCatcher เครือข่าย Kaisar Network ซึ่งเป็นเครือข่าย Layer 1 สำหรับการประมวลผล AI แบบกระจายอำนาจ ได้ระดมทุนครบ $4 ล้านดอลลาร์สหรัฐจนถึงปัจจุบัน โดยรวมถึงเงิน 1 ล้านดอลลาร์สหรัฐในรอบ Pre-Seed แบบเชิงกลยุทธ์ นักลงทุนได้แก่ Merov Capital, StoneBlock, WM Capital, Arche Fund, Q42 และ Unicorn Ventures เครือข่าย

GateNews2 ชั่วโมง ที่แล้ว

CFO ของ OpenAI ปฏิเสธข่าวลือเป้ารายได้ ระบุบริษัทดำเนินงานในระดับสูงสุดเมื่อวันที่ 1 พฤษภาคม

ตามรายงานของ Bloomberg หัวหน้าฝ่ายการเงินของ OpenAI อย่าง Sarah Friar ปฏิเสธข่าวลือเมื่อวันที่ 1 พฤษภาคมว่า บริษัทพลาดเป้าการขายและเป้าหมายด้านผู้ใช้ภายใน เธอกล่าวว่าองค์กรกำลังดำเนินแผนอย่างเต็มประสิทธิภาพในระดับสูงสุด โดยอธิบายถึงความต้องการของสินค้าเป็น “กำแพงแนวตั้ง” เธอยังระบุว่าการดำเนินการ

GateNews3 ชั่วโมง ที่แล้ว

ที่ปรึกษาของมัสก์เปิดเผยคำเสนอซื้อ $974B ของ xAI สำหรับสินทรัพย์ของ OpenAI ที่เป็นองค์กรไม่แสวงหากำไรในศาล พร้อมจุดประกายข้อสงสัยรอบใหม่

จากคำให้การของ Jared Birchall ในวันที่ 4 ของคดีฟ้องร้อง OpenAI ของ Muskข้อเสนอ 974 พันล้านดอลลาร์ของ xAI เพื่อเข้าซื้อสินทรัพย์ที่ไม่แสวงหากำไรของ OpenAI มีเป้าหมายเพื่อป้องกันไม่ให้ Sam Altman ประเมินมูลค่าสินทรัพย์ต่ำเกินไปในช่วงที่ OpenAI ปรับโครงสร้าง อย่างไรก็ตาม ผู้พิพากษา Yvonne Gonzalez Rogers ตั้งข้อสงสัยว่า Birchall จะสามารถนำเสนอข้อเสนอ 974 พันล้านดอลลาร์ได้อย่างไร

GateNews4 ชั่วโมง ที่แล้ว

Musk ยอมรับว่า xAI ใช้การกลั่น (distillation) กับโมเดลของ OpenAI ระหว่างวันพิจารณาคดีวันที่ 4

ตามรายงานของ Beating และ The Verge ในวันที่ 4 ของการพิจารณาคดีระหว่าง Musk และ OpenAI ทนายของ OpenAI ได้ตั้งคำถามว่า xAI ได้ใช้การกลั่น (distillation) เพื่อปรับปรุงโมเดลโดยใช้เทคโนโลยีของ OpenAI หรือไม่ Musk ระบุในตอนแรกว่า “แทบทุกบริษัทด้าน AI ทำเช่นนี้” แต่เมื่อถูกกดให้ตอบตรง ๆ ก็ยอมรับว่า

GateNews4 ชั่วโมง ที่แล้ว

พนักงานสหรัฐที่มีรายได้สูงใช้เครื่องมือ AI ในที่ทำงาน 66.3% ผลสำรวจของธนาคารกลางสหรัฐแสดงให้เห็น

จากการสำรวจของธนาคารกลางสหรัฐ (Federal Reserve) พบว่า ณ วันที่ 1 พฤษภาคม พนักงานสหรัฐที่มีรายได้ต่อปีเกิน 200,000 ดอลลาร์ 66.3% ได้ใช้เครื่องมือ AI ในที่ทำงานในช่วง 12 เดือนที่ผ่านมา ในกลุ่มผู้มีรายได้น้อย อัตราการใช้งานลดลงอย่างมีนัยสำคัญ: 51.6% สำหรับผู้มีรายได้ 100,000–200,000 ดอลลาร์ 40.2% สำหรับผู้มีรายได้ 50,000–100,000 ดอลลาร์

GateNews5 ชั่วโมง ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น