Внутрішня модель домінує у рейтингу OpenRouter: різке зростання кількості викликів токенів — програмування та інтелектуальні агенти стають ключовими факторами перемоги
Під час святкового періоду використання внутрішніх великих моделей у Китаї було надзвичайно активним. Останні дані тижневого звіту OpenRouter показують, що загальна кількість токенів у топ-10 моделей платформи становить приблизно 8,7 трильйонів, з яких китайські моделі займають 5,3 трильйона, що становить 61%.
Три найпопулярніші моделі за кількістю викликів токенів цього тижня — це всі внутрішні китайські моделі, а саме Minimax M2.5, Kimi K2.5 та GLM-5. їх кількість викликів порівняно з минулим тижнем зросла на 197%, знизилася на 20% та зросла на 158% відповідно. Зокрема, MiniMax M2.5 з 2,45 трильйона токенів несподівано посів перше місце, Kimi K2.5 з 1,21 трильйона йде слідом, а моделі GLM 5 та DeepSeek V3.2 займають третю та п’яту позицію.
OpenRouter — це найбільша у світі платформа для агрегування API великих моделей, яка надає розробникам уніфікований інтерфейс для доступу до сотень великих мовних моделей по всьому світу. Основні функції включають багатомодельний виклик, інтелектуальне маршрутизування та прозорий рейтинг продуктивності, що спрямовані на вирішення проблем складної інтеграції моделей та блокування з боку постачальників.
Згідно з даними платформи, програмування (Coding) та агентські сценарії (Agent) стають двома основними напрямками конкуренції великих моделей.
Загальний обсяг викликів у OpenRouter останнім часом значно зріс. Офіційно підтверджено, що M2.5 спричинив зростання попиту на додаткові виклики у діапазоні від 100K до 1M довгих текстів, що є типовим сценарієм для роботи агентів.
Щодо кількості викликів токенів, у трійці лідерів серед внутрішніх китайських моделей — всі вони зосереджені на підвищенні програмних можливостей та автоматизації завдань агентів, що є важливим проривом для застосувань внутрішніх моделей у 2026 році.
稀宇科技 (MiniMax) 13 лютого випустила MiniMax M2.5, яку назвали першою у світі виробничою моделлю, створеною спеціально для сценаріїв агентів. Всього за сім днів після запуску кількість викликів перевищила 3,07 трильйона токенів. Завдяки високій продуктивності у програмуванні та роботі агентів і дуже низькій вартості ця модель стала вибором розробників.
Moonshot AI 27 січня випустила KimiK2.5, яка використовує нативну мультимодальну архітектуру, здатна одночасно керувати до 100 “агентських копій”, що дозволяє підвищити ефективність складних завдань у 3-10 разів. Ця модель посідає перше місце у кількох рейтингах (наприклад, програмування, виклики інструментів), її виклики значно перевищують Gemini 3 та Claude. За повідомленнями Паньпая, менш ніж за місяць після випуску ця модель вже заробила понад 20 мільярдів юанів, що перевищує загальний дохід за 2025 рік. Основний приріст зумовлений зростанням кількості платних користувачів і викликів API, особливо за кордоном.
智谱 12 лютого представила GLM-5, яка має ще більший масштаб параметрів і використовує розріджену увагу, спеціально розроблену для складних системних інженерних задач та довгих агентських сценаріїв. Завдяки безкоштовному доступу та вікну контексту до 200K ця модель швидко здобула популярність. У відповідь на зростання попиту компанія ввела обмеження на продаж та підвищила ціни на Coding Plan, а в день китайського Нового року оголосила про пошук “партнерів з обчислювальних потужностей” у всій мережі.
З поглибленням застосувань AI-моделей користувачі переходять від простих запитань до складних робочих сценаріїв, таких як переписування коду, редагування файлів, створення документів, а також поширення режиму агентів, що спричиняє явний “інфляційний” тренд у споживанні токенів.
Попри підвищення продуктивності, внутрішні моделі зберігають конкурентоспроможність за співвідношенням ціна-якість. Наприклад, у порівнянні з Claude Opus 4.6, MiniMax M2.5 та GLM-5 мають значну цінову перевагу: у вхідній частині ціна становить 0,3 долара за мільйон токенів для обох моделей, тоді як Claude Opus 4.6 — до 5 доларів, що приблизно у 16,7 разів дорожче; у вихідній частині MiniMax M2.5 коштує 1,1 долара, GLM-5 — 2,55 долара, а Claude Opus 4.6 — 25 доларів за мільйон токенів, що у 22.7 та 9.8 разів дорожче відповідно.
Ці внутрішні моделі не відображають повністю ситуацію з кількістю викликів токенів у всіх вітчизняних виробників. За даними Haitong International Securities, середньоденна кількість викликів токенів у великих моделях Volcano Engine зросла з 20 трильйонів наприкінці 2024 року до 63 трильйонів наприкінці 2025 року; зовнішні клієнти Alibaba Cloud у 2025 році робили близько 5 трильйонів викликів щодня, а у 2026 році планують досягти щоденного обсягу у 15-20 трильйонів. Внутрішні бізнеси планують збільшити щоденний обсяг викликів з 16-17 трильйонів до 100 трильйонів. За даними галузі, у 2024 році середньоденне споживання токенів у Китаї становило 100 мільярдів, у середині 2025 року — понад 30 трильйонів, а станом на лютий 2026 року сумарне щоденне споживання великих моделей досягло 180 трильйонів токенів.
Останній звіт Dongguan Securities зазначає, що з підвищенням можливостей програмування та агентських функцій внутрішніх моделей їх виклики значно зросли, і китайські великі моделі у сферах програмування та агентів мають високі шанси прискорити впровадження застосувань і прискорити зростання споживання токенів.
Раніше Changjiang Securities заявляла, що з розвитком програмних та мультимодальних моделей і продуктів, справжнє відкриття застосувань у downstream-сценаріях стане можливим, що спричинить високий попит на якісні токени. За законом розвитку AI-індустрії за кордоном, між капіталовкладеннями та вибухом попиту на токени існує приблизно дволітній затримка. Внутрішні великі компанії у Китаї почали інвестиції у AI приблизно на рік пізніше за закордонних, у другій половині 2024 року. Відповідно, доходи внутрішніх хмарних провайдерів вже почали зростати, а справжній сплеск кількості токенів очікується у 2026 році.
(Джерело: Цайліньшє)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Внутрішня модель домінує у рейтингу OpenRouter: різке зростання кількості викликів токенів — програмування та інтелектуальні агенти стають ключовими факторами перемоги
Під час святкового періоду використання внутрішніх великих моделей у Китаї було надзвичайно активним. Останні дані тижневого звіту OpenRouter показують, що загальна кількість токенів у топ-10 моделей платформи становить приблизно 8,7 трильйонів, з яких китайські моделі займають 5,3 трильйона, що становить 61%.
Три найпопулярніші моделі за кількістю викликів токенів цього тижня — це всі внутрішні китайські моделі, а саме Minimax M2.5, Kimi K2.5 та GLM-5. їх кількість викликів порівняно з минулим тижнем зросла на 197%, знизилася на 20% та зросла на 158% відповідно. Зокрема, MiniMax M2.5 з 2,45 трильйона токенів несподівано посів перше місце, Kimi K2.5 з 1,21 трильйона йде слідом, а моделі GLM 5 та DeepSeek V3.2 займають третю та п’яту позицію.
OpenRouter — це найбільша у світі платформа для агрегування API великих моделей, яка надає розробникам уніфікований інтерфейс для доступу до сотень великих мовних моделей по всьому світу. Основні функції включають багатомодельний виклик, інтелектуальне маршрутизування та прозорий рейтинг продуктивності, що спрямовані на вирішення проблем складної інтеграції моделей та блокування з боку постачальників.
Згідно з даними платформи, програмування (Coding) та агентські сценарії (Agent) стають двома основними напрямками конкуренції великих моделей.
Загальний обсяг викликів у OpenRouter останнім часом значно зріс. Офіційно підтверджено, що M2.5 спричинив зростання попиту на додаткові виклики у діапазоні від 100K до 1M довгих текстів, що є типовим сценарієм для роботи агентів.
Щодо кількості викликів токенів, у трійці лідерів серед внутрішніх китайських моделей — всі вони зосереджені на підвищенні програмних можливостей та автоматизації завдань агентів, що є важливим проривом для застосувань внутрішніх моделей у 2026 році.
稀宇科技 (MiniMax) 13 лютого випустила MiniMax M2.5, яку назвали першою у світі виробничою моделлю, створеною спеціально для сценаріїв агентів. Всього за сім днів після запуску кількість викликів перевищила 3,07 трильйона токенів. Завдяки високій продуктивності у програмуванні та роботі агентів і дуже низькій вартості ця модель стала вибором розробників.
Moonshot AI 27 січня випустила KimiK2.5, яка використовує нативну мультимодальну архітектуру, здатна одночасно керувати до 100 “агентських копій”, що дозволяє підвищити ефективність складних завдань у 3-10 разів. Ця модель посідає перше місце у кількох рейтингах (наприклад, програмування, виклики інструментів), її виклики значно перевищують Gemini 3 та Claude. За повідомленнями Паньпая, менш ніж за місяць після випуску ця модель вже заробила понад 20 мільярдів юанів, що перевищує загальний дохід за 2025 рік. Основний приріст зумовлений зростанням кількості платних користувачів і викликів API, особливо за кордоном.
智谱 12 лютого представила GLM-5, яка має ще більший масштаб параметрів і використовує розріджену увагу, спеціально розроблену для складних системних інженерних задач та довгих агентських сценаріїв. Завдяки безкоштовному доступу та вікну контексту до 200K ця модель швидко здобула популярність. У відповідь на зростання попиту компанія ввела обмеження на продаж та підвищила ціни на Coding Plan, а в день китайського Нового року оголосила про пошук “партнерів з обчислювальних потужностей” у всій мережі.
З поглибленням застосувань AI-моделей користувачі переходять від простих запитань до складних робочих сценаріїв, таких як переписування коду, редагування файлів, створення документів, а також поширення режиму агентів, що спричиняє явний “інфляційний” тренд у споживанні токенів.
Попри підвищення продуктивності, внутрішні моделі зберігають конкурентоспроможність за співвідношенням ціна-якість. Наприклад, у порівнянні з Claude Opus 4.6, MiniMax M2.5 та GLM-5 мають значну цінову перевагу: у вхідній частині ціна становить 0,3 долара за мільйон токенів для обох моделей, тоді як Claude Opus 4.6 — до 5 доларів, що приблизно у 16,7 разів дорожче; у вихідній частині MiniMax M2.5 коштує 1,1 долара, GLM-5 — 2,55 долара, а Claude Opus 4.6 — 25 доларів за мільйон токенів, що у 22.7 та 9.8 разів дорожче відповідно.
Ці внутрішні моделі не відображають повністю ситуацію з кількістю викликів токенів у всіх вітчизняних виробників. За даними Haitong International Securities, середньоденна кількість викликів токенів у великих моделях Volcano Engine зросла з 20 трильйонів наприкінці 2024 року до 63 трильйонів наприкінці 2025 року; зовнішні клієнти Alibaba Cloud у 2025 році робили близько 5 трильйонів викликів щодня, а у 2026 році планують досягти щоденного обсягу у 15-20 трильйонів. Внутрішні бізнеси планують збільшити щоденний обсяг викликів з 16-17 трильйонів до 100 трильйонів. За даними галузі, у 2024 році середньоденне споживання токенів у Китаї становило 100 мільярдів, у середині 2025 року — понад 30 трильйонів, а станом на лютий 2026 року сумарне щоденне споживання великих моделей досягло 180 трильйонів токенів.
Останній звіт Dongguan Securities зазначає, що з підвищенням можливостей програмування та агентських функцій внутрішніх моделей їх виклики значно зросли, і китайські великі моделі у сферах програмування та агентів мають високі шанси прискорити впровадження застосувань і прискорити зростання споживання токенів.
Раніше Changjiang Securities заявляла, що з розвитком програмних та мультимодальних моделей і продуктів, справжнє відкриття застосувань у downstream-сценаріях стане можливим, що спричинить високий попит на якісні токени. За законом розвитку AI-індустрії за кордоном, між капіталовкладеннями та вибухом попиту на токени існує приблизно дволітній затримка. Внутрішні великі компанії у Китаї почали інвестиції у AI приблизно на рік пізніше за закордонних, у другій половині 2024 року. Відповідно, доходи внутрішніх хмарних провайдерів вже почали зростати, а справжній сплеск кількості токенів очікується у 2026 році.
(Джерело: Цайліньшє)