Cloudflare 的 Workers AI 平台正式接入月之暗面(Moonshot AI)的 Kimi K2.5,支援 256K 上下文、多輪工具呼叫與視覺輸入。Cloudflare 內部安全審計 Agent 每天處理超過 70 億 token,切換後成本較中檔商業模型降低 77%。
(前情提要:Cursor 用 Kimi K2.5 訓模型卻沒說,開發者抓包、刪推、官方急轉彎全紀錄)
(背景補充:幫你擋爬蟲的 Cloudflare 推出「一鍵全站爬蟲 API」,完美支援 RAG、增量更新與模型訓練)
本文目錄
Toggle
Cloudflare 的 Workers AI 平台悄悄做了一件大事,據 Cloudflare 官方部落格 ,把月之暗面的 Kimi K2.5 設為 Agents SDK starter 的預設模型。Cloudflare 工程師自己也在用它跑真實的安全審計任務,而且省了很多經費。
Kimi K2.5 是目前開源陣營裡少數做到「前沿規格」的模型之一,支援 256K 上下文視窗、多輪工具呼叫(multi-turn tool calling)、視覺輸入與結構化輸出。對於需要長文推理的 Agent 任務來說,這幾個數字已經相當實用。
Cloudflare 工程師在 OpenCode 環境中直接把 Kimi K2.5 拿來當程式設計 Agent 的主力,還部署了一個名為「Bonk」的公開程式碼審查 Agent,接入自動化管線。
更亮眼的是內部安全審計場景。這個 Agent 每天處理超過 70 億 token。如果用標準等級商業模型跑同樣的工作量,一年下來成本大概是 240 萬美元,換成 Kimi K2.5 之後,成本直接砍掉 77%,省下將近 185 萬美元。
這個數字不是在做廣告,而是 Cloudflare 工程師在官方部落格直接攤出來的帳。
光是換模型還不夠,Cloudflare 同步推出三項平台層面的改進,專門針對 Agent 長對話場景的成本和效率問題:
Cloudflare 沒有用現成的推理框架,而是用自家的 Infire 推理引擎做了客製化核心,採用資料並行、張量並行與專家並行化,搭配分離式字首處理架構。
目前 Kimi K2.5 是 Workers AI 上線大模型推理的第一個案例,也說明了 Cloudflare 在 AI 基礎設施這塊的野心,可以配合網路平台,而且夠便宜。