Anthropic 數據:AI Agent 近半調用集中在軟件工程,這 16 個垂直領域仍是藍海

醫療佔 1%,法律佔 0.9%,教育佔 1.8%。這些不是飽和市場,而是幾乎還不存在的市場。

作者:Garry’s List

編譯:深潮 TechFlow

**深潮導讀:**Anthropic 最新發布了迄今最全面的 AI Agent 真實使用研究,核心數據是:軟體工程佔據近 50% 的 Agent 工具調用量,而醫療、法律、教育等 16 個垂直領域加起來還不到剩餘的一半,每個領域份額均低於 5%。

這不是市場飽和的信號,而是 300 個垂直 AI 獨角獸的地圖——更有價值的是文章引用的一個反直覺發現:模型已經能獨立工作近 5 小時,但用戶實際只讓它工作 42 分鐘,這個"信任赤字"本身就是下一個產品機會。

全文如下:

軟體工程佔所有 AI Agent 工具調用量的近 50%。醫療、法律、金融等 16 個垂直領域幾乎未被觸及,每個領域均低於 5%。這意味著有 300 個垂直 AI 獨角獸等待被建造出來。

如果我今天要創業,我會盯著上面那張柱狀圖的紅色區域,直到我看見自己的未來。

Box 創始人 Aaron Levie 表示:

這張圖很好地提醒了我們,AI Agent 領域現在有多大的機會。

水平方向當然會有大量 Agent 機會,但同樣有很多工作流程需要深厚的領域專業知識,才能真正幫助用戶自動化其所在垂直領域的獨特流程。

模板是:構建接入專有數據的 Agent 軟體,以有效銜接用戶與 Agent 協作的方式處理工作流,同時具備深度領域專屬的上下文工程能力,以及推動客戶側變更管理的能力。

目前許多領域仍存在巨大空白。

軟體工程佔據了所有 AI Agent 活動的半壁江山。另一半分散在 16 個垂直領域,沒有一個超過 9%。醫療佔 1%,法律佔 0.9%,教育佔 1.8%。這些不是飽和市場,而是幾乎還不存在的市場。

Anthropic 剛剛發布了迄今最全面的 AI Agent 真實使用研究。核心發現是:軟體工程佔其 API 上 49.7%的 Agent 工具調用量。被埋在後面的核心結論是:其他一切都是藍海。

部署滯後

有一個數據應該讓創業者興奮不已:模型的能力已經遠超用戶願意信任它的邊界。

METR 的能力評估顯示,Claude 可以解決需要人類近五小時才能完成的任務。但在實際使用中,第 99.9 百分位的會話時長只有約 42 分鐘。這個差距——AI 能做什麼與我們允許它做什麼之間的差距——是一個巨大的機會。

圖:Claude Code 訓練的最長時長在三個月內幾乎翻了一番。這不僅提升了能力,也增強了信任。

來源:x.com

從 2025 年 10 月到 2026 年 1 月,第 99.9 百分位的單次會話時長幾乎翻了一倍,從不足 25 分鐘增長至超過 45 分鐘。增長在各個模型版本間都很平穩。這不只是模型變得更強了,而是用戶一次次地在使用中學習,逐漸延伸著對 Agent 的信任。

“從 8 月到 12 月,Claude Code 在內部用戶最具挑戰性任務上的成功率翻了一倍,與此同時,每次會話的人工干預次數從 5.4 次減少到 3.3 次。”

能力已經在那裡,部署還沒跟上。這不是問題,而是產品機會。

信任是如何演化的

新用戶中有 20% 會自動批准 Claude Code 的操作。到 750 次會話時,超過 40%的會話完全在自動批准模式下運行。但有一個反直覺的發現:有經驗的用戶反而會更多地進行干預,而不是更少。新用戶會在 5%的輪次中進行干預,老用戶則是 9%。

圖:信任是一種會不斷積累的技能。新用戶會自動批准 20% 的會話。到 750 次會話時,這一比例會超過 40%。

圖片:Anthropic

來源:x.com

這並不矛盾,而是監督策略的轉變。初學者在操作發生前逐步審批,老用戶則是先授權、在出問題時再介入——他們已經從預先審批轉向了主動監控。

以下是一個在安全層面值得關注的發現:在複雜任務上,Claude Code 主動請求澄清的頻率超過人類主動干預頻率的兩倍。Agent 會暫停確認,而不是一路衝到底。這是特性,不是缺陷。

“這項研究的核心啟示是:Agent 在實踐中行使的自主權,是由模型、用戶和產品共同構建的。Claude 在不確定時會暫停提問,以此限制自身的獨立性。用戶在與模型協作的過程中建立信任,並相應地調整自己的監督策略。”

Levie 的垂直 AI 打法

Aaron Levie 指出了等待被解鎖的巨大財富與價值:構建接入專有數據的 Agent 軟體,讓它真正解決真實的人和問題,把上下文塞滿以最大化智能輸出,以及——這是大多數創業者忽略的部分——推動客戶側的變更管理。

最後這一點正是垂直 AI 如此難以被複製的原因。任何人都能搭一個 API 封裝,但很少有人能真正駕馭醫療帳單、法律發現或建築許可審批中特有的工作流程、監管約束和組織阻力。

SaaS 在過去幾十年裡每十年增長十倍。過去 20 年超過 40%的風險投資資金流向了 SaaS 公司。這個行業誕生了 170 多只 SaaS 獨角獸。邏輯很簡單:這些獨角獸中的每一只,都有一個垂直 AI 版本在等待出現。而 AI 版本可能會大十倍,因為它取代的不只是軟體,還有操作人員。

共同構建的本質

Anthropic 的核心發現值得任何參與 AI 政策制定的人認真關注。自主權不是模型的固有屬性,而是由模型、用戶和產品共同構建的。部署前的評估無法捕捉這一點,你必須在真實使用中去衡量。

Anthropic 官方表示:

軟體工程約佔我們 API 上 Agent 工具調用量的 50%,但我們也看到其他行業正在湧現。隨著風險與自主權的邊界持續擴展,部署後的監控變得至關重要。我們鼓勵其他模型開發者擴展這項研究。

安全層面的數字令人放心:73%的工具調用有人類在回路中參與,只有 0.8%的操作是不可逆的。最高風險的部署場景——如 API 密鑰洩露或自主加密交易——大多是安全評估,而非真實生產環境。

“規定具體交互模式的監管要求——例如要求人類批准每一個操作——只會製造摩擦,而不一定帶來安全收益。”

強制要求"批准每一個操作"的政策,會殺死生產力收益,卻不會增加安全性。更好的目標是確保人類能夠監控和介入,而不是規定具體的審批工作流程。

獨角獸藏在哪裡

地圖已經畫好。軟體工程已經有人在做了。醫療、法律、金融、教育、客服、物流——16 個垂直領域,每個市場份額均為個位數——都在等待有人把領域專業知識真正嵌入 Agent。

此前誕生了 300 只 SaaS 獨角獸,接下來 300 只垂直 AI 獨角獸即將出現。那些選定垂直領域、把領域專業知識嵌入 Agent、並想明白如何推動變更管理的創始人,將擁有下一個十年的企業軟體市場。

模型已經能工作五小時,用戶只讓它工作 42 分鐘。這就是信號:我們仍然處於極早期,還有大量東西可以建造,而且在無數個還沒見過哪怕一分鐘智能發揮作用的地方。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)