Сообщение Gate News, 20 апреля — Топовые AI-модели отлично решают сложные задачи вроде олимпиады по математике, но испытывают трудности с рутинной корпоративной работой, согласно Дэвиду Мейеру из Databricks. Некоторые модели могут исправить неверный номер счета-фактуры вместо того, чтобы пометить его как ошибку, а инструменты для кодирования вроде Claude также могут хуже справляться с задачами по data engineering.
Разрыв связан с фундаментальными различиями между корпоративными данными и публичным текстом веба, который используют для обучения больших моделей. Корпоративные данные часто содержат расплывчатые названия колонок, множество пустых полей и коды, хранящиеся в виде обычного текста. В одном академическом исследовании показатель F1 AI-модели, который балансирует точность и полноту, упал с 0.94 на публичных данных до 0.07 на корпоративных данных для задачи по data engineering. Кроме того, большие модели часто по умолчанию опираются на знакомые шаблоны из обучения; некоторые по умолчанию подставляли Structured Query Language (SQL) даже после получения инструкций и документации для проприетарного языка запросов компании.
Небольшие модели с открытым исходным кодом, настроенные с помощью обучения с подкреплением, могут справляться с конкретными задачами более эффективно и при существенно более низких затратах на обучение, чем большие универсальные модели. Databricks разрабатывает меньшие AI-агенты для конкретных рабочих процессов, например KARL, который использует обучение с подкреплением для многошагового рассуждения с документами компании. Индустрия смещается от опоры на гигантские модели к гибридным архитектурам, где небольшие эффективные модели обрабатывают типовой объем, а затем эскалируют только неясные или сложные случаи в более крупные и дорогие системы.
Недавно Databricks приобрела Quotient AI, чтобы помочь крупным предприятиям запускать AI-агентов более надежно. Конкуренция в AI-бизнесе сейчас сосредоточена на том, чтобы пройти весь жизненный цикл AI, включая системы обратной связи для отслеживания ошибок и непрерывного улучшения моделей со временем, благодаря чему инструменты для оценки и настройки становятся все более ценными после внедрения.
Связанные статьи
Nvidia развертывает AI-агента OpenAI Codex по всей организации на инфраструктуре Blackwell
Стартап по ИИ-разработке Cognition ведет переговоры о раунде финансирования при оценке в $25B
Платформа для торгового ИИ-агента Fere AI привлекла $1,3M во главе с Ethereal Ventures
OpenClaw v2026.4.23 Добавляет поддержку прямого OAuth для gpt-image-2, представляет режим с форкнутым контекстом для субагентов
Fere AI завершает раунд финансирования на $1,3 млн под руководством Ethereal Ventures