Повідомлення Gate News, 29 квітня — AI-дослідник Аран Комацузаки провів порівняльний аналіз ефективності токенізації на базі шести провідних AI-моделей, переклавши фундаментальну працю Річа Саттона “The Bitter Lesson” дев’ятьма мовами та обробивши їх токенізаторами OpenAI, Gemini, Qwen, DeepSeek, Kimi та Claude. Виходячи з кількості токенів в англійській версії в OpenAI як базового рівня (1x), дослідження виявило суттєві відмінності: обробка того самого контенту китайською вимагала 1.65x токенів у Claude, тоді як у OpenAI — лише 1.15x. Хінді показав ще більш екстремальний результат у Claude, перевищивши базовий рівень більш ніж у 3 рази. Anthropic посів найнижче місце серед шести протестованих моделей.

Критично важливо: коли ідентичний китайський текст обробляли в різних моделях — усі результати, порівняні з однією й тією самою англійською базою — результати різко розійшлися: Kimi спожив лише 0.81x токенів (навіть менше, ніж англійська), Qwen — 0.85x, тоді як Claude потребував 1.65x. Цей розрив свідчить про чисту проблему ефективності токенізації, а не про властиві мовні особливості. Китайські моделі демонстрували вищу ефективність під час обробки китайської, що вказує: відмінність зумовлена оптимізацією токенізатора, а не самою мовою.

Практичні наслідки для користувачів суттєві: зростання споживання токенів безпосередньо підвищує API-витрати, збільшує затримку відповіді моделі та швидше виснажує контекстні вікна. Ефективність токенізації залежить від лінгвістичного складу навчальних даних моделі: моделі, натреновані переважно на англійській, стискають англійський текст ефективніше, тоді як мови з нижчою представленістю токенізуються на менші, менш ефективні фрагменти.

Висновок Комацузаки підкреслює фундаментальний принцип: розмір ринку визначає ефективність токенізації. Більші ринки отримують кращу оптимізацію, а мови, представлені недостатньо, стикаються зі значно вищими токен-витратами.

Переглянути джерело

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

AI-фінансова платформа Rogo залучила $160M у Серії D під керівництвом Kleiner Perkins менш ніж за 3 місяці

AI Agent Новини індустрії ШІ

За даними Beating, AI-платформа Rogo, розроблена для високочастотних фінансових сценаріїв, у квітні 2026 року завершила раунд фінансування Серії D на $160 мільйонів, який очолила Kleiner Perkins за участі Sequoia, Thrive Capital, Khosla Ventures та J.P. Morgan. Залучення коштів відбулося менш ніж через три місяці

GateNews57хв. тому

29 квітня Китай блокує придбання Manus AI, яке підтримує Meta, посилаючись на занепокоєння щодо технологічної та даних безпеки

AI Agent Новини індустрії ШІ

Згідно з PANews, 29 квітня Управління з огляду інвестиційної безпеки Комісії з національного розвитку та реформ Китаю заборонило іноземне придбання проєкту Manus і вимагало припинити угоду. Manus, якому приписували статус першого в світі агента загального штучного інтелекту, заявив про плани бути придбаним американським технічним гігантом Meta. Угоду заблокували через занепокоєння, пов’язані з міжнародним середовищем, критичними технологіями та безпекою даних. Рішення свідчить, що Китай, як і раніше, відкритий до іноземних інвестицій, але зберігає обережність щодо придбань, що стосуються чутливих секторів, підкреслюючи дотримання регуляторних стандартів.

GateNews1год тому

Alibaba Cloud знизила ціну неявного кешу DeepSeek-V4-Pro до 1 юаня за мільйон токенів 29 квітня

Новини індустрії ШІ

Згідно з Alibaba Cloud, її платформа Bailian знизить ціну для неявного кешу (Implicit Cache) моделі DeepSeek-V4-Pro до 1 юаня за мільйон токенів з 29 квітня 2026 року о 23:59:59 за пекинським часом. Неявний кеш застосовується лише тоді, коли запити потрапляють у кеш; кешовані вхідні токени виставляються за тарифом cached_token, тоді як некешовані вхідні токени стягуються за стандартними тарифами input_token. Коригування стосується лише ціни неявного кешу; тарифи базового рендерингу моделі залишаються без змін.

GateNews2год тому

AI-платформа Certifyde залучає $2M у seed-фінансуванні за участі CEO Ripple Бреда Гарлінгхауса

Новини індустрії ШІ

За даними ChainCatcher, платформа для AI-застосунків Certifyde оголосила про завершення раунду $2 мільйонів seed-фінансування. Інвесторами є K5 Global, Flamingo Capital, а також бізнес-ангели, зокрема CEO Ripple Бред Гарлінгхаус, співзасновник Honey Джордж Жуан і співзасновник Nutra Роланд

GateNews4год тому

DeepSeek запускає функцію розпізнавання зображень у режимі бета-тестування

Новини індустрії ШІ

Згідно з PANews, DeepSeek сьогодні запустила свою функцію розпізнавання зображень (29 квітня), наразі вона перебуває на бета-тестуванні. Як користувачі вебверсії, так і мобільного застосунку можуть бути відібрані для бета-розгортання.

GateNews5год тому

Anthropic запускає 8 конекторів творчих інструментів для Claude, зокрема Blender, Adobe, Autodesk

Новини індустрії ШІ

Anthropic оголосила набір конекторів творчих інструментів, які дають змогу Claude безпосередньо керувати професійним програмним забезпеченням, що використовується дизайнерами та музикантами. Початкові вісім конекторів охоплюють 3D-моделювання, візуальний дизайн, музичне продакшн-створення та живі виступи, а серед партнерів — Blender, Adobe,

GateNews5год тому

Прокоментувати

0/400

Немає коментарів