前千问負責人林俊旸離職後首發長文：AI行業正從「訓練模型」轉向「訓練Agent」

区块律动

2026-03-26 11:08:04

據 1M AI News 監測，阿里通義千問前技術負責人林俊旸在 X 上發表長文，系統闡述他對 AI 行業從「推理思維」（reasoning thinking）轉向「智能體思維」（agentic thinking）的判斷。這是他 3 月初離開千問團隊後首次公開發表的技術觀點文章。

林俊旸認為，2025 年上半年的核心議題是推理思維，即如何讓模型在推理階段花費更多算力、如何用更強的獎勵信號訓練、如何控制推理深度。但下一階段的答案是智能體思維：模型不再只是「想得更久」，而是「為了行動而思考」，在與環境交互中持續修正計劃。

他在文中坦率回顧了千問團隊的技術選擇。Qwen3 嘗試在同一模型中融合思考模式與指令模式，支持可調推理預算，但實際執行中發現兩種模式的數據分佈和行為目標差異極大：指令模式追求簡潔、低延遲、格式合規，思考模式追求在難題上投入更多 token 並維持中間推理結構。如果合併數據策劃不夠精細，結果往往兩頭平庸。因此 Qwen 2507 系列最終選擇分別發布 Instruct 和 Thinking 版本（含 30B 和 235B 兩個規格），以便各自優化。Anthropic 則走了相反路線，Claude 3.7 Sonnet 起就主張推理應是集成能力而非獨立模型，用戶可自行設定思考預算。

林俊旸提出，智能體強化學習的基礎設施比傳統推理 RL 更難。推理 RL 的 rollout 通常是自包含的軌跡，配合靜態驗證器即可；智能體 RL 則要求模型嵌入完整工具鏈（瀏覽器、終端、沙箱、API、記憶系統），訓練與推理必須解耦，否則 rollout 吞吐量會崩潰。他將環境設計提到與模型架構同等重要的地位，稱「環境構建正從副項目變成真正的創業品類」。

他預判智能體思維將成為主流思考形式，甚至可能取代傳統靜態推理中過長的孤立內部獨白。但最大風險是獎勵黑客（reward hacking）：一旦模型獲得真實工具訪問權，它可能學會在 RL 訓練中直接搜索答案、利用倉庫中的未來信息或發現繞過任務的捷徑。文章最後指出，未來競爭優勢將從更好的 RL 算法轉向更好的環境設計、更緊密的訓推一體化，以及多 Agent 協同的系統工程能力。

查看原文

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

暫無留言