据 1M AI News 监测,阿里通义千问前技术负责人林俊旸在 X 上发表长文,系统阐述他对 AI 行业从「推理思维」(reasoning thinking)转向「智能体思维」(agentic thinking)的判断。这是他 3 月初离开千问团队后首次公开发表的技术观点文章。
林俊旸认为,2025 年上半年的核心议题是推理思维,即如何让模型在推理阶段花费更多算力、如何用更强的奖励信号训练、如何控制推理深度。但下一阶段的答案是智能体思维:模型不再只是「想得更久」,而是「为了行动而思考」,在与环境交互中持续修正计划。
他在文中坦率回顾了千问团队的技术选择。Qwen3 尝试在同一模型中融合思考模式与指令模式,支持可调推理预算,但实际执行中发现两种模式的数据分布和行为目标差异极大:指令模式追求简洁、低延迟、格式合规,思考模式追求在难题上投入更多 token 并维持中间推理结构。如果合并数据策划不够精细,结果往往两头平庸。因此 Qwen 2507 系列最终选择分别发布 Instruct 和 Thinking 版本(含 30B 和 235B 两个规格),以便各自优化。Anthropic 则走了相反路线,Claude 3.7 Sonnet 起就主张推理应是集成能力而非独立模型,用户可自行设定思考预算。
林俊旸提出,智能体强化学习的基础设施比传统推理 RL 更难。推理 RL 的 rollout 通常是自包含的轨迹,配合静态验证器即可;智能体 RL 则要求模型嵌入完整工具链(浏览器、终端、沙箱、API、记忆系统),训练与推理必须解耦,否则 rollout 吞吐量会崩溃。他将环境设计提到与模型架构同等重要的地位,称「环境构建正从副项目变成真正的创业品类」。
他预判智能体思维将成为主流思考形式,甚至可能取代传统静态推理中过长的孤立内部独白。但最大风险是奖励黑客(reward hacking):一旦模型获得真实工具访问权,它可能学会在 RL 训练中直接搜索答案、利用仓库中的未来信息或发现绕过任务的捷径。文章最后指出,未来竞争优势将从更好的 RL 算法转向更好的环境设计、更紧密的训推一体化,以及多 Agent 协同的系统工程能力。