前千问负责人林俊旸离职后首发长文：AI行业正从「训练模型」转向「训练Agent」

区块律动

2026-03-26 11:08:04

据 1M AI News 监测，阿里通义千问前技术负责人林俊旸在 X 上发表长文，系统阐述他对 AI 行业从「推理思维」（reasoning thinking）转向「智能体思维」（agentic thinking）的判断。这是他 3 月初离开千问团队后首次公开发表的技术观点文章。

林俊旸认为，2025 年上半年的核心议题是推理思维，即如何让模型在推理阶段花费更多算力、如何用更强的奖励信号训练、如何控制推理深度。但下一阶段的答案是智能体思维：模型不再只是「想得更久」，而是「为了行动而思考」，在与环境交互中持续修正计划。

他在文中坦率回顾了千问团队的技术选择。Qwen3 尝试在同一模型中融合思考模式与指令模式，支持可调推理预算，但实际执行中发现两种模式的数据分布和行为目标差异极大：指令模式追求简洁、低延迟、格式合规，思考模式追求在难题上投入更多 token 并维持中间推理结构。如果合并数据策划不够精细，结果往往两头平庸。因此 Qwen 2507 系列最终选择分别发布 Instruct 和 Thinking 版本（含 30B 和 235B 两个规格），以便各自优化。Anthropic 则走了相反路线，Claude 3.7 Sonnet 起就主张推理应是集成能力而非独立模型，用户可自行设定思考预算。

林俊旸提出，智能体强化学习的基础设施比传统推理 RL 更难。推理 RL 的 rollout 通常是自包含的轨迹，配合静态验证器即可；智能体 RL 则要求模型嵌入完整工具链（浏览器、终端、沙箱、API、记忆系统），训练与推理必须解耦，否则 rollout 吞吐量会崩溃。他将环境设计提到与模型架构同等重要的地位，称「环境构建正从副项目变成真正的创业品类」。

他预判智能体思维将成为主流思考形式，甚至可能取代传统静态推理中过长的孤立内部独白。但最大风险是奖励黑客（reward hacking）：一旦模型获得真实工具访问权，它可能学会在 RL 训练中直接搜索答案、利用仓库中的未来信息或发现绕过任务的捷径。文章最后指出，未来竞争优势将从更好的 RL 算法转向更好的环境设计、更紧密的训推一体化，以及多 Agent 协同的系统工程能力。

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论