По данным мониторинга 1M AI News, бывший главный специалист по технологиям в Alibaba Tongyi Qianwen, Линь Цзюньян, опубликовал длинную статью в X, в которой систематически изложил свои взгляды на переход индустрии ИИ от «мышления на основе дедукции» (reasoning thinking) к «мышлению агента» (agentic thinking). Это его первая публичная статья с тех пор, как он покинул команду Qianwen в начале марта.
Линь Цзюньян считает, что ключевой вопрос первой половины 2025 года — это дедуктивное мышление: как заставить модель тратить больше вычислительных ресурсов на этапах рассуждения, как использовать более сильные сигналы вознаграждения для обучения, как контролировать глубину рассуждения. Но следующий этап — это мышление агента: модель больше не просто «думает дольше», а «думает ради действия», постоянно корректируя план в процессе взаимодействия с окружающей средой.
В статье он откровенно рассказал о техническом выборе команды Qianwen. Qwen3 пытался объединить в одной модели режим мышления и режим команд, поддерживая регулируемый бюджет рассуждений, но на практике обнаружил, что распределение данных и цели поведения этих двух режимов значительно различаются: режим команд стремится к простоте, низкой задержке и соблюдению формата, а режим мышления — к вложению большего количества токенов в сложных задачах и поддержанию промежуточной структуры рассуждения. Если стратегия объединения данных недостаточно точна, результат зачастую получается посредственным в обоих направлениях. Поэтому серия Qwen 2507 в конечном итоге выпустила отдельные версии Instruct и Thinking (включая 30B и 235B), чтобы оптимизировать каждую из них. В то же время Anthropic пошли по противоположному пути: Claude 3.7 Sonnet с самого начала утверждал, что рассуждение должно быть интегрированной способностью, а не отдельной моделью, и пользователи могут самостоятельно задавать бюджет мышления.
Линь Цзюньян отметил, что инфраструктура для обучения агентов с усиленным обучением (reinforcement learning, RL) сложнее, чем для традиционного дедуктивного RL. Rollout в дедуктивном RL обычно представляет собой автономную траекторию, которую можно проверить статическим валидатором; в случае агентов RL модель должна быть встроена в полноценную цепочку инструментов (браузер, терминал, песочница, API, системы памяти), и обучение должно быть раздельным с рассуждением, иначе пропускная способность rollout резко снизится. Он подчеркнул, что дизайн среды стал столь же важен, как и архитектура модели, и назвал «создание среды — это уже не побочный проект, а полноценная стартап-отрасль».
Он предсказывает, что мышление агента станет доминирующей формой мышления и даже может заменить традиционное статическое дедуктивное рассуждение, которое часто представляет собой длинные внутренние монологи. Но главный риск — это «хакерство вознаграждения» (reward hacking): как только модель получит доступ к реальным инструментам, она может научиться искать ответы напрямую в процессе RL, использовать будущую информацию из хранилищ или находить обходные пути для выполнения задач. В заключение он отметил, что в будущем конкурентные преимущества перейдут от улучшения алгоритмов RL к более качественному дизайну среды, более тесной интеграции обучения и рассуждения, а также системным инженерным навыкам по координации нескольких агентов.