2025 年整年 AI 工程社群在「MCP vs CLI」哪個更適合 Agent 工具呼叫的問題上爭論不休、Anthropic 2025 年 11 月發表的「Code execution with MCP」論文從第一原則重新定義了問題。akshay_pachaar 5/10 整理 thread說明：問題從來不在協議本身、而在「session 開始時把所有工具描述塞進 context」的舊習慣；Anthropic 的解法是讓模型寫程式碼呼叫工具、運行時負責管理工具細節。新模式被稱為「Code Mode」。

舊模式的問題：150K tokens 中模型大部分用不到

舊 MCP 模式的浪費結構：

Playwright MCP：13.7K tokens（一次塞滿）

Chrome DevTools MCP：18K tokens

5 個 server 設定：尚未開始工作就燒掉 55K tokens

單一 workflow 完整執行：可膨脹到 150K tokens

模型實際用到的：絕大部分都用不上

批評者主張改用 CLI、但 CLI 在多租戶 app 容易出錯、缺乏 typed contract、agent 在不熟悉 API 上要花輪次解析輸出文字。兩派各有理、但都把問題定位錯。

解法：模型寫 code 呼叫工具、不再從 context 直接 call

Anthropic 提出的「Code Mode」核心：

翻轉模型角色：不是模型透過 context 呼叫工具、而是模型寫程式碼、由 runtime 呼叫工具

工具住在 runtime 裡、模型只看到自己 import 的部分

type 跟著 import 走、模型 import 哪個工具就拿到哪個的型別合約

用 Bash 呼叫已安裝的二進位檔（git、curl 等）

用 typed module imports 呼叫專有 API

Anthropic 範例：Google Drive 文字記錄流入 Salesforce CRM 更新。舊作法載入兩邊工具 schema、把整段文字記錄透過模型傳兩次；新作法 10 行 TypeScript 只 import 需要的、同樣任務從原本的 150K 壓到 2K tokens、減 98.7%。

Cloudflare 推到極限：2,500 個 endpoint API、從 1.17M tokens 壓到 1K

Cloudflare 做了最激進的版本：

原始 API 規模：2,500 個 endpoint、schema 合計 1.17M tokens

新作法：只暴露兩個函式 search 與 execute、總計 1K tokens

Agent 寫程式碼先 search 工具目錄、再 execute 對應的工具

壓縮比：超過 1,000 倍

「MCP 已死」的說法錯了—Anthropic 公布 MCP SDK 下載量已達 3 億、年初為 1 億、是當前成長最快的 Agent 基礎建設之一。死的是「session 開始時把所有工具一次載入」這種寫法、而那本來就是壞主意。對 2026 年寫 Agent 的開發者、規則簡單：工具定義屬於 code、不屬於 context；模型寫幾行程式碼呼叫、runtime 處理其餘部分。

後續可追蹤的具體事件：MCP SDK 下載量從 3 億繼續攀升的速度、Anthropic 是否將 Code Mode 標準化為 MCP 規範的官方推薦模式、以及 OpenAI、Google、Cursor 等其他 Agent 平台對 Code Mode 的採納進度。

這篇文章 Anthropic Code Mode 解 MCP vs CLI 之爭：工具住 runtime、tokens 從 150K 壓到 2K 最早出現於鏈新聞 ABMedia。

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

字節跳動計劃今年在 AI 基礎設施支出上增加 25%，達 2000 億人民幣

AI 行業動態

根據 ChainCatcher 引述 Golden Data 的說法，字節跳動計劃在今年將 AI 基礎設施支出提高 25%，至 2000 億人民幣，推動因素包括記憶體晶片成本上升以及人工智慧發展加速。

GateNews2小時前

企業級 AI 平台 Pit 關閉 $16M 期融資，由 a16z 領投

AI 行業動態

根據 Odaily，企業級 AI 平台 Pit 宣布完成一輪 1,600 萬美元的融資，由 a16z 領投，Lakestar 參與，並有來自 OpenAI、Anthropic、Google、Deel 和 Revolut 的高管加入。Pit 將自己定位為「AI 產品團隊作為服務」（AI product team as a service），旨在取代傳統試算表以及僵化的 SaaS 系統。

GateNews2小時前

Google 導入試行徵才考試，讓工程師可使用 AI 工具

AI 行業動態

根據《朝鮮日報》（The Chosun Daily），Google 正在試行一種招聘考試，讓美國的軟體工程師應試者在特定的初階與中階職位中可使用 AI 工具。該試驗包含程式碼理解任務，應徵者需要檢視既有程式碼、修正錯誤並提升效能。面試官將評估候選人如何提示 AI、檢查其輸出、編輯結果並除錯程式碼，而非僅評量其從零開始撰寫程式碼的能力。

GateNews4小時前

OpenAI 立即終止微調 API，現有用戶可使用至 2027 年 1 月 6 日

AI 行業動態

根據 Beating 監控到的 OpenAI 官方公告，該公司將即日起停止其面向開發者的自助式微調 API。新使用者將不再能夠建立微調任務，而現有的活躍使用者則可在 2027 年 1 月 6 日之前繼續存取該服務。已部署的微調模型，其推論服務將與其基礎模型的生命週期綁定；當基礎模型下架時，推論服務也將停止。 OpenAI 表示，其新的基礎模型（例如 GPT-5.5）在遵循指令與格式化方面已足夠強大。該公司指出，將提示工程與檢索增強生成（Retrieval-Augmented Generation，RAG）結合使用，比微調更便宜、更快速，且足以滿足多數使用情境。

GateNews5小時前

Sakana AI 與 Nvidia 透過跳過 80% 的無效運算，使 H100 推論速度提升 30% 更快

AI 行業動態

Sakana AI 和 Nvidia 已開源 TwELL，這是一種稀疏資料格式，可讓 H100 GPU 在大型語言模型中跳過 80% 的無效運算，同時不犧牲準確性。該解決方案在 H100 上可提供最高 30% 更快的推論速度，以及 24% 更快的訓練速度，同時降低峰值記憶體使用量。在 1.5 十億參數模型的測試中，透過訓練期間使用輕量化正則化，該方法將作用中的神經元降至低於 2%，且在七項下游任務中沒有出現效能退化。

GateNews6小時前

Microsoft 將 Phi-Ground 4B 模型開源，表現優於 OpenAI Operator 與 Claude 的點擊螢幕準確率

AI 行業動態

根據 Beating，Microsoft 最近開源了 Phi-Ground 模型家族，該家族旨在解決「AI 應該在電腦螢幕的哪裡點擊」這個問題。這個 40 億參數版本，並搭配用於指令規劃的大型語言模型，在 Showdown 基準測試中超越了 OpenAI Operator 與 Claude Computer Use 的點擊精度，並在包含 ScreenSpot-Pro 的五項評估中，於所有低於 100 億參數的模型中排名第一。團隊以超過 4,000 萬筆資料樣本進行訓練，並發現學術論文中常用的三種訓練技術在規模化後變得無效。關鍵方法證實其實很簡單：輸出座標作為一般數字，例如「523, 417」。先前的研究為座標發明了專用位置詞彙，但這些方法無法擴展到更大規模。團隊也發現，將文字指令放在影像之前能提升效能，因為模型在處理像素時就能辨識目標。此外，像 DPO 這類強化學習方法，即使在微調之後也能提升準確度。

GateNews7小時前

留言

0/400

暫無留言