Cloudflare接入Kimi K2.5後每天跑70億 token，安全審計成本省下77%

動區BlockTempo

2026-03-24 09:25:29

Cloudflare 的 Workers AI 平台正式接入月之暗面（Moonshot AI）的 Kimi K2.5，支援 256K 上下文、多輪工具呼叫與視覺輸入。Cloudflare 內部安全審計 Agent 每天處理超過 70 億 token，切換後成本較中檔商業模型降低 77%。
（前情提要：Cursor 用 Kimi K2.5 訓模型卻沒說，開發者抓包、刪推、官方急轉彎全紀錄）
（背景補充：幫你擋爬蟲的 Cloudflare 推出「一鍵全站爬蟲 API」，完美支援 RAG、增量更新與模型訓練）

本文目錄

Toggle

一天跑 70 億 token 的安全 Agent
Cloudflare 推出三個改進
底層推理引擎：Infire 加持，不是硬套現成框架

Cloudflare 的 Workers AI 平台悄悄做了一件大事，據 Cloudflare 官方部落格，把月之暗面的 Kimi K2.5 設為 Agents SDK starter 的預設模型。Cloudflare 工程師自己也在用它跑真實的安全審計任務，而且省了很多經費。

Kimi K2.5 是目前開源陣營裡少數做到「前沿規格」的模型之一，支援 256K 上下文視窗、多輪工具呼叫（multi-turn tool calling）、視覺輸入與結構化輸出。對於需要長文推理的 Agent 任務來說，這幾個數字已經相當實用。

一天跑 70 億 token 的安全 Agent

Cloudflare 工程師在 OpenCode 環境中直接把 Kimi K2.5 拿來當程式設計 Agent 的主力，還部署了一個名為「Bonk」的公開程式碼審查 Agent，接入自動化管線。

更亮眼的是內部安全審計場景。這個 Agent 每天處理超過 70 億 token。如果用標準等級商業模型跑同樣的工作量，一年下來成本大概是 240 萬美元，換成 Kimi K2.5 之後，成本直接砍掉 77%，省下將近 185 萬美元。

這個數字不是在做廣告，而是 Cloudflare 工程師在官方部落格直接攤出來的帳。

Cloudflare 推出三個改進

光是換模型還不夠，Cloudflare 同步推出三項平台層面的改進，專門針對 Agent 長對話場景的成本和效率問題：

字首快取折扣（Prefix Caching）: 多輪對話中已處理過的輸入 token 不再重複計費，快取命中的 token 享受折扣價。長任務跑下來，這塊省的錢相當可觀。
Session Affinity Header: 新增 x-session-affinity 請求頭標，將同一會話路由到同一模型，讓快取命中率更高，OpenCode 與 Agents SDK starter 已內建支援。
非同步批次推理 API：超出同步速率限制的請求可以非同步排隊執行，內部測試通常在 5 分鐘內完成。適合程式碼掃描、研究類不需要即時回應的 Agent 任務。

底層推理引擎：Infire 加持，不是硬套現成框架

Cloudflare 沒有用現成的推理框架，而是用自家的 Infire 推理引擎做了客製化核心，採用資料並行、張量並行與專家並行化，搭配分離式字首處理架構。

目前 Kimi K2.5 是 Workers AI 上線大模型推理的第一個案例，也說明了 Cloudflare 在 AI 基礎設施這塊的野心，可以配合網路平台，而且夠便宜。

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

暫無留言