英語より中国語の言語トークン化コストはClaudeが65%高い。OpenAIはわずか15%増にとどまる

ゲートニュース、4月29日 — AI研究者の嵐 小松崎(Aran Komatsuzaki)が、リッチ・サットンの先駆的論文『The Bitter Lesson』を9つの言語に翻訳し、それらをOpenAI、Gemini、Qwen、DeepSeek、Kimi、そしてClaudeのトークナイザーで処理して、6つの主要なAIモデル間でトークン化効率を比較分析を行いました。OpenAIにおける英語版のトークン数をベースラインとして (1x) としたところ、この研究では大きな差異が明らかになりました。中国語で同じコンテンツを処理すると、OpenAIの1.15xに対してClaudeでは1.65xのトークンが必要でした。ヒンディー語はClaudeでさらに極端な結果となり、ベースラインを3倍以上上回りました。Anthropicは、試験した6モデルの中で最も低い順位でした。

重要なのは、同一の中国語テキストを異なるモデル間で処理したとき(すべて同じ英語ベースラインに対して測定)結果が劇的に分岐したことです。Kimiは英語より (さらに少ない) 0.81xのトークン消費にとどまり、Qwenは0.85xでしたが、Claudeは1.65xが必要でした。このギャップは、言語そのものではなく純粋なトークン化効率の問題を示しています。中国語モデルは中国語の処理でより高い効率を示しており、その差は言語自体ではなくトークナイザーの最適化に起因する可能性を示唆しています。

ユーザーにとっての実務的な影響は大きく、トークン消費の増加はAPIコストを直接押し上げ、モデルの応答遅延を延ばし、コンテキストウィンドウをより急速に消耗させます。トークン化効率は、モデルの学習データの言語構成に依存します。英語が主に学習されたモデルは英語テキストをより効率よく圧縮しますが、データ表現が少ない言語は、より小さく効率の悪い断片としてトークン化されます。

小松崎(Komatsuzaki)の結論は、根本的な原則を裏付けています。市場規模がトークン化効率を決定するのです。より大きな市場はより良い最適化を受けられ、十分に表現されていない言語はトークンコストが大幅に高くなります。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

AI金融プラットフォームRogoがシリーズDで$160M を調達、Kleiner Perkins主導で3カ月未満

Beatingによると、高頻度の金融シナリオ向けに設計されたAIプラットフォームRogoは、2026年4月に$160 百万ドル規模のシリーズDの資金調達ラウンドを完了した。主導はKleiner Perkinsで、Sequoia、Thrive Capital、Khosla Ventures、J.P. Morganが参加した。資金調達は

GateNews57分前

4月29日、技術・データの安全性懸念を理由に中国がMeta支援のManus AI買収を阻止

PANewsによると、4月29日、中国の国家発展改革委員会の投資安全審査弁公室は、Manusプロジェクトの海外による買収を禁止し、取引の中止を命じた。世界初の汎用人工知能エージェントとして打ち出されたManusは、米国のテック大手Metaに買収される計画を発表していた。国際環境、重要技術、データの安全性に関わる懸念があるとして、この取引は阻止された。今回の判断は、中国が対外投資には開かれている一方で、機微な分野が関与する買収に対しては慎重さを保ち、規制基準の遵守を重視していることを示している。

GateNews1時間前

Alibaba Cloudが4月29日にDeepSeek-V4-Proの暗黙キャッシュ価格を百万トークンあたり1元に引き下げ

Alibaba Cloudによると、BailianプラットフォームはDeepSeek-V4-Proモデルの暗黙キャッシュ (Implicit Cache) の価格を、北京時間の2026年4月29日23:59:59より、百万トークンあたり1元に引き下げます。暗黙キャッシュはリクエストがキャッシュにヒットした場合にのみ適用されます。キャッシュされた入力トークンはcached_tokenレートで課金され、キャッシュされていない入力トークンは標準のinput_tokenレートで課金されます。調整は暗黙キャッシュの価格のみに影響し、ベースモデルの推論レートは変更されません。

GateNews2時間前

AIプラットフォームCertifyde、RippleのCEO Brad Garlinghouseとともに$2M 百万ドルをシード資金で調達

ChainCatcherによると、AIアプリケーションプラットフォームCertifydeは、$2 百万ドルのシード資金調達ラウンドの完了を発表した。投資家にはK5 Global、Flamingo Capital、そしてRippleのCEOであるBrad Garlinghouse、Honeyの共同創業者であるGeorge Ruan、Nutraの共同創業者であるRoland Peraltaといったエンジェル投資家が含まれる

GateNews4時間前

DeepSeek、ベータテストで画像認識機能を提供開始

PANewsによると、DeepSeekは本日(4月29日)に画像認識機能をローンチしました。現在ベータテスト中です。Web版とモバイルアプリの両方のユーザーが、ベータ配信の対象として選ばれる可能性があります。

GateNews5時間前

Anthropic、Claude向けに8つのクリエイティブツールコネクタをローンチ――Blender、Adobe、Autodeskを含む

Anthropicは、デザイナーやミュージシャンが使用するプロ向けソフトウェアをClaudeが直接操作できるようにする、クリエイティブツールのコネクタ群を発表しました。最初の8つのコネクタは、3Dモデリング、ビジュアルデザイン、音楽制作、ライブパフォーマンスにまたがり、パートナーにはBlender、Adobe、

GateNews5時間前
コメント
0/400
コメントなし