前千问負責人林俊旸離職後首發長文:AI行業正從「訓練模型」轉向「訓練Agent」

区块律动

據 1M AI News 監測,阿里通義千問前技術負責人林俊旸在 X 上發表長文,系統闡述他對 AI 行業從「推理思維」(reasoning thinking)轉向「智能體思維」(agentic thinking)的判斷。這是他 3 月初離開千問團隊後首次公開發表的技術觀點文章。

林俊旸認為,2025 年上半年的核心議題是推理思維,即如何讓模型在推理階段花費更多算力、如何用更強的獎勵信號訓練、如何控制推理深度。但下一階段的答案是智能體思維:模型不再只是「想得更久」,而是「為了行動而思考」,在與環境交互中持續修正計劃。

他在文中坦率回顧了千問團隊的技術選擇。Qwen3 嘗試在同一模型中融合思考模式與指令模式,支持可調推理預算,但實際執行中發現兩種模式的數據分佈和行為目標差異極大:指令模式追求簡潔、低延遲、格式合規,思考模式追求在難題上投入更多 token 並維持中間推理結構。如果合併數據策劃不夠精細,結果往往兩頭平庸。因此 Qwen 2507 系列最終選擇分別發布 Instruct 和 Thinking 版本(含 30B 和 235B 兩個規格),以便各自優化。Anthropic 則走了相反路線,Claude 3.7 Sonnet 起就主張推理應是集成能力而非獨立模型,用戶可自行設定思考預算。

林俊旸提出,智能體強化學習的基礎設施比傳統推理 RL 更難。推理 RL 的 rollout 通常是自包含的軌跡,配合靜態驗證器即可;智能體 RL 則要求模型嵌入完整工具鏈(瀏覽器、終端、沙箱、API、記憶系統),訓練與推理必須解耦,否則 rollout 吞吐量會崩潰。他將環境設計提到與模型架構同等重要的地位,稱「環境構建正從副項目變成真正的創業品類」。

他預判智能體思維將成為主流思考形式,甚至可能取代傳統靜態推理中過長的孤立內部獨白。但最大風險是獎勵黑客(reward hacking):一旦模型獲得真實工具訪問權,它可能學會在 RL 訓練中直接搜索答案、利用倉庫中的未來信息或發現繞過任務的捷徑。文章最後指出,未來競爭優勢將從更好的 RL 算法轉向更好的環境設計、更緊密的訓推一體化,以及多 Agent 協同的系統工程能力。

查看原文
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
留言
0/400
暫無留言