Gate News сообщение, 29 апреля — исследователь ИИ Аран Комацузаки провел сравнительный анализ эффективности токенизации на шести основных ИИ-моделях, переведя основополагающую работу Рича Саттона “The Bitter Lesson” на девять языков и пропустив их через токенизаторы OpenAI, Gemini, Qwen, DeepSeek, Kimi и Claude. Используя количество токенов английской версии в OpenAI в качестве базового уровня (1x), исследование выявило существенные различия: обработка того же контента на китайском требовала 1,65x токенов у Claude по сравнению лишь с 1,15x у OpenAI. На Claude хинди показал еще более экстремальный результат, превысив базовый уровень более чем в 3 раза. Anthropic оказался самым низким среди шести протестированных моделей.
Критически важно, что когда идентичный китайский текст обрабатывали на разных моделях — все они сравнивались с одним и тем же английским базовым уровнем — результаты разошлись драматически: Kimi потреблял лишь 0,81x токенов (даже меньше, чем английский), Qwen — 0,85x, тогда как Claude требовалось 1,65x. Этот разрыв указывает на чистую проблему эффективности токенизации, а не на врожденную языковую проблему. Китайские модели продемонстрировали более высокую эффективность при обработке китайского, что позволяет предположить, что разница связана с оптимизацией токенизатора, а не с самим языком.
Практические последствия для пользователей существенны: повышенное потребление токенов напрямую увеличивает API-расходы, удлиняет задержку ответов моделей и быстрее исчерпывает контекстные окна. Эффективность токенизации зависит от лингвистического состава тренировочных данных модели — модели, обученные преимущественно на английском, сжимают английский текст более эффективно, а языки с меньшей представленностью токенизируются в более мелкие, менее эффективные фрагменты.
Вывод Комацузаки подчеркивает фундаментальный принцип: размер рынка определяет эффективность токенизации. Более крупные рынки получают лучшую оптимизацию, тогда как языки, недостаточно представленные, сталкиваются со значительно более высокими затратами на токены.
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к
Отказу от ответственности.
Связанные статьи
Исследователь мультимодального направления DeepSeek намекает на новую модель зрения на 29 апреля
29 апреля исследователь мультимодальной команды DeepSeek Сяокан Чэнь опубликовал в X: «Теперь, мы видим вас», сопроводив пост двумя изображениями талисмана DeepSeek — кита: на одном изображении глаза закрыты, а на другом — открыты. Похоже, пост намекает на готовящуюся модель зрения, что согласуется с ролью Чэня как исследователя в мультимодальной команде DeepSeek.
GateNews37м назад
LG расширяет партнерство с Nvidia в области физического ИИ, охватывая робототехнику и дата-центры
Сообщение Gate News, 29 апреля — южнокорейская LG Electronics объявила во время своего телефонного разговора по результатам 1-го квартала 2026 года, что расширяет сотрудничество с Nvidia в области физического ИИ: планируются проекты в робототехнике, мобильности и дата-центрах.
LG планирует интегрировать домашнего робота CLOiD с Nvidia
GateNews55м назад
Аналитики по полупроводникам настроены оптимистично по поводу рынка ИИ: «как минимум еще на три года» — передовая упаковка является главной «узкой» частью отрасли
Bubble Boi указывает, что инвестиционный цикл ИИ все еще находится на ранней стадии, и ожидает по крайней мере еще три года роста, при этом он не планирует фиксировать прибыль. Он считает, что передовая упаковка — это действительно узкое место в полупроводниках; необходимо в рамках одной и той же упаковки интегрировать больше HBM и более крупные кристаллы. Он настроен оптимистично по NAND/Flash: цены могут продолжать расти, и в будущем, возможно, будет добавлена флэш-поставка. Личная стратегия — занимать средства для докупки, и, опираясь на инженерный практический опыт, понимать технические детали, считая, что это является преимуществом.
ChainNewsAbmedia1ч назад
AWS расширяет интеграцию OpenAI в Amazon Bedrock
Amazon Web Services объявила 29 апреля о значительном расширении своего партнерства с OpenAI, интегрируя новейшие возможности OpenAI в свою облачную инфраструктуру. Расширение добавляет три новых предложения в Amazon Bedrock: новейшие модели OpenAI (ограниченный предварительный просмотр), программирование Codex
CryptoFrontier1ч назад
Исследователи OpenAI: системы ИИ могут справиться с большей частью исследовательской работы в течение двух лет
Сообщение Gate News, 29 апреля — исследователи OpenAI Сэбастьен Бьюбек и Эрнест Рю заявляют, что системы ИИ смогут выполнять большую часть человеческой исследовательской работы в течение двух лет, представляя математику как четкий показатель прогресса ИИ. В отличие от расплывчатых тестов производительности, математические задачи дают точную верификацию: ответы либо правильные, либо неправильные, не оставляя места для двусмысленности:
GateNews2ч назад
Король Карл III встретился с шестью руководителями техсектора США, включая Дженсена Хуанга, Джеффа Безоса и Тима Кука, чтобы обсудить финансирование стартапов в Великобритании
Сообщение Gate News, 29 апреля — Во время своего государственного визита в Соединенные Штаты король Карл III встретился с шестью известными американскими лидерами технологической отрасли в Blair House в Вашингтоне: генеральным директором NVIDIA Дженсеном Хуангом, основателем Amazon Джеффом Безосом, генеральным директором Apple Тимом Куком, генеральным директором AMD Су Цзифэнем, генеральным директором Salesforce Марком Бениоффом и президентом Alphabet Рут Пора:
GateNews2ч назад