Anthropic Code Mode 解 MCP Vs CLI 之爭:工具住 Runtime、tokens 從 150K 壓到 2K

鏈新聞abmedia

2025 年整年 AI 工程社群在「MCP vs CLI」哪個更適合 Agent 工具呼叫的問題上爭論不休、Anthropic 2025 年 11 月發表的「Code execution with MCP」論文從第一原則重新定義了問題。akshay_pachaar 5/10 整理 thread說明:問題從來不在協議本身、而在「session 開始時把所有工具描述塞進 context」的舊習慣;Anthropic 的解法是讓模型寫程式碼呼叫工具、運行時負責管理工具細節。新模式被稱為「Code Mode」。

舊模式的問題:150K tokens 中模型大部分用不到

舊 MCP 模式的浪費結構:

Playwright MCP:13.7K tokens(一次塞滿)

Chrome DevTools MCP:18K tokens

5 個 server 設定:尚未開始工作就燒掉 55K tokens

單一 workflow 完整執行:可膨脹到 150K tokens

模型實際用到的:絕大部分都用不上

批評者主張改用 CLI、但 CLI 在多租戶 app 容易出錯、缺乏 typed contract、agent 在不熟悉 API 上要花輪次解析輸出文字。兩派各有理、但都把問題定位錯。

解法:模型寫 code 呼叫工具、不再從 context 直接 call

Anthropic 提出的「Code Mode」核心:

翻轉模型角色:不是模型透過 context 呼叫工具、而是模型寫程式碼、由 runtime 呼叫工具

工具住在 runtime 裡、模型只看到自己 import 的部分

type 跟著 import 走、模型 import 哪個工具就拿到哪個的型別合約

用 Bash 呼叫已安裝的二進位檔(git、curl 等)

用 typed module imports 呼叫專有 API

Anthropic 範例:Google Drive 文字記錄流入 Salesforce CRM 更新。舊作法載入兩邊工具 schema、把整段文字記錄透過模型傳兩次;新作法 10 行 TypeScript 只 import 需要的、同樣任務從原本的 150K 壓到 2K tokens、減 98.7%。

Cloudflare 推到極限:2,500 個 endpoint API、從 1.17M tokens 壓到 1K

Cloudflare 做了最激進的版本:

原始 API 規模:2,500 個 endpoint、schema 合計 1.17M tokens

新作法:只暴露兩個函式 search 與 execute、總計 1K tokens

Agent 寫程式碼先 search 工具目錄、再 execute 對應的工具

壓縮比:超過 1,000 倍

「MCP 已死」的說法錯了—Anthropic 公布 MCP SDK 下載量已達 3 億、年初為 1 億、是當前成長最快的 Agent 基礎建設之一。死的是「session 開始時把所有工具一次載入」這種寫法、而那本來就是壞主意。對 2026 年寫 Agent 的開發者、規則簡單:工具定義屬於 code、不屬於 context;模型寫幾行程式碼呼叫、runtime 處理其餘部分。

後續可追蹤的具體事件:MCP SDK 下載量從 3 億繼續攀升的速度、Anthropic 是否將 Code Mode 標準化為 MCP 規範的官方推薦模式、以及 OpenAI、Google、Cursor 等其他 Agent 平台對 Code Mode 的採納進度。

這篇文章 Anthropic Code Mode 解 MCP vs CLI 之爭:工具住 runtime、tokens 從 150K 壓到 2K 最早出現於 鏈新聞 ABMedia。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

字節跳動計劃今年在 AI 基礎設施支出上增加 25%,達 2000 億人民幣

根據 ChainCatcher 引述 Golden Data 的說法,字節跳動計劃在今年將 AI 基礎設施支出提高 25%,至 2000 億人民幣,推動因素包括記憶體晶片成本上升以及人工智慧發展加速。

GateNews2小時前

企業級 AI 平台 Pit 關閉 $16M 期融資,由 a16z 領投

根據 Odaily,企業級 AI 平台 Pit 宣布完成一輪 1,600 萬美元的融資,由 a16z 領投,Lakestar 參與,並有來自 OpenAI、Anthropic、Google、Deel 和 Revolut 的高管加入。Pit 將自己定位為「AI 產品團隊作為服務」(AI product team as a service),旨在取代傳統試算表以及僵化的 SaaS 系統。

GateNews2小時前

Google 導入試行徵才考試,讓工程師可使用 AI 工具

根據《朝鮮日報》(The Chosun Daily),Google 正在試行一種招聘考試,讓美國的軟體工程師應試者在特定的初階與中階職位中可使用 AI 工具。該試驗包含程式碼理解任務,應徵者需要檢視既有程式碼、修正錯誤並提升效能。面試官將評估候選人如何提示 AI、檢查其輸出、編輯結果並除錯程式碼,而非僅評量其從零開始撰寫程式碼的能力。

GateNews4小時前

OpenAI 立即終止微調 API,現有用戶可使用至 2027 年 1 月 6 日

根據 Beating 監控到的 OpenAI 官方公告,該公司將即日起停止其面向開發者的自助式微調 API。新使用者將不再能夠建立微調任務,而現有的活躍使用者則可在 2027 年 1 月 6 日之前繼續存取該服務。已部署的微調模型,其推論服務將與其基礎模型的生命週期綁定;當基礎模型下架時,推論服務也將停止。 OpenAI 表示,其新的基礎模型(例如 GPT-5.5)在遵循指令與格式化方面已足夠強大。該公司指出,將提示工程與檢索增強生成(Retrieval-Augmented Generation,RAG)結合使用,比微調更便宜、更快速,且足以滿足多數使用情境。

GateNews5小時前

Sakana AI 與 Nvidia 透過跳過 80% 的無效運算,使 H100 推論速度提升 30% 更快

Sakana AI 和 Nvidia 已開源 TwELL,這是一種稀疏資料格式,可讓 H100 GPU 在大型語言模型中跳過 80% 的無效運算,同時不犧牲準確性。該解決方案在 H100 上可提供最高 30% 更快的推論速度,以及 24% 更快的訓練速度,同時降低峰值記憶體使用量。在 1.5 十億參數模型的測試中,透過訓練期間使用輕量化正則化,該方法將作用中的神經元降至低於 2%,且在七項下游任務中沒有出現效能退化。

GateNews6小時前

Microsoft 將 Phi-Ground 4B 模型開源,表現優於 OpenAI Operator 與 Claude 的點擊螢幕準確率

根據 Beating,Microsoft 最近開源了 Phi-Ground 模型家族,該家族旨在解決「AI 應該在電腦螢幕的哪裡點擊」這個問題。這個 40 億參數版本,並搭配用於指令規劃的大型語言模型,在 Showdown 基準測試中超越了 OpenAI Operator 與 Claude Computer Use 的點擊精度,並在包含 ScreenSpot-Pro 的五項評估中,於所有低於 100 億參數的模型中排名第一。 團隊以超過 4,000 萬筆資料樣本進行訓練,並發現學術論文中常用的三種訓練技術在規模化後變得無效。關鍵方法證實其實很簡單:輸出座標作為一般數字,例如「523, 417」。先前的研究為座標發明了專用位置詞彙,但這些方法無法擴展到更大規模。團隊也發現,將文字指令放在影像之前能提升效能,因為模型在處理像素時就能辨識目標。此外,像 DPO 這類強化學習方法,即使在微調之後也能提升準確度。

GateNews7小時前
留言
0/400
暫無留言