在AI產業鏈條上，算力像水一樣自上而下流動。從上游的GPU（圖形處理器）和資料中心出發，經由雲廠商、模型廠商，被封裝成API（應用程式介面），最終流向開發者和普通用戶，變成一次次具體的調用、一個個可以計價的Token。它看似無形，卻在每一個環節都對應著清晰的成本，GPU折舊、电力消耗、高帶寬存儲，最終都會匯總成帳單。

現在，這條水管正在變得擁堵。一頭是需求在爆發，多模態、Agent（智能體）等複雜推理場景讓Token消耗量千倍增長，另一頭則是供給仍未解綁，GPU、HBM（高帶寬存儲器）、電力和資料中心建設都存在物理極限，GPU利用率仍處於較低位置。聰明是有代價的，雖然爆發式成長導致Token單價更便宜了，但調用它花的錢卻越來越多。

漲價逐級傳導。上游GPU有價無市、算力緊缺，中游雲廠商率先調整價格，亞馬遜雲、谷歌雲、百度雲、阿里雲等，在過去一個季度相繼上調部分AI相關服務費用，模型廠商也結束補貼周期，騰訊、阿里等接連停止免費公測，提高API調用價格，其中，騰訊混元大模型最高漲價463%。

模型和應用側的漲價，讓算力不再是獨屬巨頭競爭中的抽象概念，它以Token的形式，給每個普通人也上了一堂付費課。就像當年的流量，以MB（手機上網流量單位）為單位計價，號主一不留神就會欠費停機。

黃仁勛日前提出的“Token經濟學”概念，認為推理已成為AI最核心的工作負載，Token則是新的大宗商品——標準化、可計量、可交易。由此Token從模型訓練的技術副產品，演變為驅動數字經濟的核心生產要素。

在黃仁勛看来，“Token”作為商品是有品質的優劣之分的。從免費層到頂級層，每百萬Token價格從0美元到150美元不等。低時延、高交互的Token（如即時對話、智能駕駛）需要昂貴算力，定價高；高吞吐、離線處理的Token（如大規模離線推理、批量資料處理）對時延不敏感，可以用便宜算力生產，定價低。

Token已經作為“商品”產生價值分層了，那使用它的人呢？或許未來，“下沉市場”人群的定義，也不再僅限於能否消費得起實體商品了。

AI使用者，被焦慮裹挾

“我難道不是尊貴的會員嗎？”3月11日晚，蘇玉看著電腦螢幕上跳出的彈窗，有點生氣。彈窗提示她，本周Token使用量已達到限額的90%，限額消耗完後將暫停相關模型的使用，直到下周限額更新。

蘇玉是某高校在讀博士研究生，最近在準備畢業大論文。過去三年，谷歌旗下的Gemini、OpenAI旗下的ChatGPT，一直是她的最佳拍檔，她也是這兩個“AI長工”的忠實訂閱用戶。今年2月中旬，Anthropic旗下的Claude也加入了她的隊伍，並很快成為她最信任的一個。

“Claude太好用了，工具屬性太強了。”蘇玉說。她讓幾款AI應用同時為她梳理、設計研究思路模型，ChatGPT給出的答案邏輯不夠嚴密，Gemini太過浮誇諂媚，只有Claude，像一位客觀專業的高級顧問，逐字閱讀過客戶需求後，才輸出了一份真正可用、有啟發的方案。

免費使用半個多月後，蘇玉花費大約180元人民幣開通了Claude的月度會員。和Gemini、ChatGPT相比，Claude特殊的地方在於它對會員也設定了每日和每週Token消耗的限額。這其實能理解，根據全球知名的大模型盲測榜單LMArena，截至3月20日，Claude的主力模型Claude-Opus-4-6-thinking排名全球第一。

但蘇玉從未感受到如此直接的Token限制。第一次觸發Claude限額機制時是週三，“扎根理論”了解到一半就不能再調用，那一刻她頗有一種“學術停滯”的無力感。習慣了Claude的輔助，她很難再回到最初做科研的狀態。她嘗試“手搓”，翻閱最原始的理論書籍，但效率極低，有些經過翻譯的資料她也不完全相信，“最後我還是要等Claude恢復使用後復核一遍。”四天時間，她等得很煎熬。

Claude限用讓蘇玉異常焦慮。在一個週二，蘇玉發來一張Claude後台截圖，上面顯示她本周的限額已經使用了45%。“這周才過去不到兩天！我已經用得很節省了，一天只討論一個論文選題，它就到限額了！”蘇玉情緒有點崩潰，誰說AI不能取代人類？這個AI已經快比她的導師還難搞了。

● 蘇玉的Claude後台。圖源：受訪者

她已經養成了提一個問題就去看一眼後台的習慣，生怕沒米下鍋。想起以前竟然還和Claude老師唠閒嗑，讓它幫自己做PPT，她心裡直罵自己浪費。

這種對“好用的模型”的謹慎使用，正逐漸變得普遍。一位AI影視行業創業者告訴我，他所在團隊在使用字節跳動的AI影片模型“即夢”時，會同步接入其他多家模型廠商的API，“效果好的模型確實更貴，我們只能在不同模型之間切換，去平衡成本。”

不久前，即夢下調會員積分額度，他一方面覺得很正常，“C端本來就在補貼，現在只是收回一部分”。但另一方面又為自己的處境擔心，嘆息“這下更用不起了”，AI成本上漲，有時候會直接卡住小創業者的生命線。

終端用戶為Token焦慮，模型廠商也在為算力成本焦慮。

談及Token調用量暴增的原因，中國工程院院士王堅此前借用電力的發展做了類比，早期人工智慧應用就像是“點電燈”，消耗電量有限。而以OpenClaw（智能體）為代表的新一代應用，則像是開啟了“空調”，需要耗費的電力也越來越多。

不過，王堅強調，這種增長不僅意味着應用普及，更意味着單體Token成本的下降。“如果電價不降，老百姓是用不起空調的。”

但相比早期一問一答的簡單調用，如今越來越多任務通過Agent完成。模型需要自行拆解問題、調用工具、寫程式、調試、再修正，一次看似簡單的請求，背後往往對應的是多輪推理和多次API調用，Token消耗呈指數級放大，雖然單價降低了，但總體所需要的算力成本更高昂了。

“模型變更大了，推理成本也相應提高了，我們也希望把它回歸到正常的商業價值上。長期靠低價競爭，對整個行業發展並不利，這也是我們的一個考量。”智譜CEO張鵬說。最近兩個月，智譜三次上調GLM（智譜研發的大語言模型）系列模型價格，部分模型價格已逼近國際頭部模型定價水平。

張鵬的另一個擔心是，“未來12個月面臨的最大問題可能就是算力。所有的技術，包括智能體框架，讓很多人的創造力與效率提升了10倍。但前提條件是，大家能夠用得起，不能因為算力不夠，導致一個問題讓Agent思考半天也不給我答案。”

流動的算力，累加的成本

按照Claude的計算方式，100 Tokens大約相當於75個英文單詞或50個漢字，而Token輸出的價格是輸入價格的五倍——這是一個最簡單的換算方式。換言之，AI的每一個回答都要經過深思熟慮，後台思考、查詢、生成，乃至模型幻覺帶來的錯誤消耗的Token，都會被計算在內，最終變成真金白銀的帳單。

智能紀元AGI創始人林志佳算過一筆帳。他養了四個“龍蝦”，有本地部署的，也有雲端部署的。以雲端部署為例，他按月購買了Coding Plan（AI編碼訂閱服務），大約30-40元人民幣，在3月還剩9天的時候，他的Token消耗量還不到套餐額度的10%——作為媒體人，他對Token的需求其實並不大。

但按照Token來計費又不太划算。“如果我只是每天早上九點讓它給我發條新聞，消耗的Tokens價格大概0.9元人民幣，30天大概二十多塊錢，已經跟買Coding Plan的錢差不多了。有時候還有損耗、還有模型更新，光更新就可能要消耗三四塊錢的Tokens。”

在不同計費方式之間權衡，幾乎成了高頻使用者的日常，而購買Token花費的一分一厘，最終都指向同一件事——算力，以及背後對應的GPU折舊成本和資料中心的耗電。

GPU成了一切的起點，高端晶片的供給決定了整個系統的上限。“除了給部分客戶預留的備用機，其他基本都賣完了，一卡不剩。”優刻得架構技術中心副總經理劉華說。

GPU之下，還要搭建起資料中心、網路和存儲系統——高速互聯、低延遲傳輸，這些都不是“即插即用”的標準件。劉華提到，僅網路和存儲部分，成本就可能佔到整體算力成本的20%左右。

再下一層，是模型廠商和API服務商。他們把大模型部署在這些基礎設施之上，封裝成標準化介面，供開發者調用。近兩年，這幾層角色開始出現重疊，雲廠商既賣算力也提供模型API，逐漸成為連接GPU、模型和開發者的中樞。

● 算力是如何流動的示意圖。圖源：AI生成

算力就這樣一層一層向下滲透，最新的變化是在產業的需求端。“以前AI大部分是To B在付費，現在To C端付費也越來越普及了。”林志佳說。模型被封裝成API，入口被簡化，使用門檻降低，個人開發者甚至普通用戶，都可以直接調用底層算力。“現在基本上刷一刷社交平台，大家就知道怎麼用了。”

算力甚至出現零售化趨勢。2024年前後，一些雲廠商開始推出GPU“日卡”、輕量級雲主機，甚至“一鍵部署”的體驗產品。比如優刻得面向“養蝦戶”推出的6.9元體驗套餐，本質上更像一張門票，把複雜的環境配置和算力調度打包好，讓用戶用極低成本試一次。“很多人其實是來‘排雷’或者嘗鮮的，”劉華說，“大家都有點焦慮，怕落後。”

但門檻降低，並不意味著成本下降。在劉華看來，“用互聯網發展階段類比，現在的算力成本毫無疑問還是在一個發展初期、很貴的階段。”正因為如此，開發者才會精打細算，平台也不敢輕易放開調用規模。

即便是頭部廠商也在做取捨。OpenAI此前關停影片生成項目Sora，被不少業內人士解讀為算力與投入產出之間的權衡，在資源有限的情況下，優先集中到更核心的模型能力和業務上。阿里巴巴、騰訊、字節跳動等互聯網大廠，近期對AI業務做的一系列調整，核心也是一種算力資源聚焦。

大家都正在意識到一件事：未來拼的不是算力規模，而是算力利用率。算力緊缺帶來的連鎖效應，是AI時代一場漫長的梅雨，每一個身處時代的人都會免不了潮濕。

算力流動到末端發生了什麼

蘇玉正在嘗試分配和調度算力資源。

她把不同模型分了層級：ChatGPT用來寫公文、整理簡報，Gemini負責畫圖、處理語言細節，Claude則專門用在最核心的環節，比如研究框架、思路設計、長文本分析。這樣能保證她的效率和錢包都效果最大化。

比如，她最近在處理一批訪談資料，會先讓Claude給出分析框架，再把這個框架“丟”給Gemini去做初始編碼。“我更相信Claude給的指導性的東西，但細節性的工作可以交給便宜一點的模型。”如果Claude不限額，她甚至會停用Gemini。

當然，這並不是在為Claude打廣告，只是蘇玉認為自己的需求更適用這一款應用。好用的模型變得稀缺，而稀缺的資源只會被用在最關鍵的地方。

為了進一步節省，很多用戶都和蘇玉一樣，開始在細節上抠成本。

社交平台上，一度流行起用文言文與AI對話，因為更短的字數意味著更少的Token。也有人認為，跟風對AI說“你好”“謝謝”，是否也是一種不必要的資源浪費？畢竟，AI並不需要情緒價值。

其實很多浪費並不在用戶可控範圍內，有時是模型接入和運行方式的問題。

不久前，MiMo大模型團隊負責人羅福莉提到，“我沒辦法嚴格計算第三方harness（駕馭）接入造成的損失，但我近距離看過OpenClaw的上下文管理，很糟糕。在單次用戶查詢裡，它會觸發多輪低價值工具調用，每輪作為獨立API請求發出，每個請求攜帶的上下文窗口往往超過100K Tokens。實際請求次數是Claude Code原生框架的數倍。折算成API定價，真實成本大概是訂閱價格的數十倍。”

回到使用問題上，用戶主動節省Token，平台也不敢完全放開用戶規模，這種基於節省成本的“束手束腳”，比如OpenAI正在面臨一種矛盾——其在2025年上半年創造了43億美元的收入，同期，該公司淨虧損高達135億美元，這意味着OpenAI每賺一美元，就會損失三美元。虧損的大頭正是對算力的投入。

在當下，算力已經不再只是有沒有的問題，而是能不能持續用、能用到什麼程度。當AI足夠好用，人會圍繞它重新組織工作方式；當Token變得昂貴而有限，這種新的組織方式本身也會被迫收縮。

如果未來算力無法真正像電力一樣普及，那麼AI必然會引起分化，人与人之間的認知差距會進一步拉大。比如蘇玉，她並不打算把自己的AI使用方法完全分享給身邊人，如何和Claude老師交互、喂什麼樣的語料，這是她的小秘密，短期內也是她的競爭力。

如果同事請她推薦好用的模型，她會強烈推薦Gemini和ChatGPT，“當然，DeepSeek也是個好選擇”。蘇玉調皮地眨了眨眼。

在“一人公司（OPC）”“超級個體”逐漸流行的當下，這樣的“心機”並不罕見。當AI的好用程度對應成一個個可以計價的Token，真正拉開差距的，其實是如何使用它的人。

（文中蘇玉為化名）

封面來源：《宇宙探索編輯部》

參考資料

智能湧現：《楊植麟/張鵬/夏立雪/羅福莉/黃超，談龍蝦，談“token經濟學”》

每日經濟新聞：《AI催生巨量token消耗、內存硬體緊缺算力租賃熱潮下，運營商加碼布局液冷伺服器》《智譜張鵬：當模型足夠強，API本身就是最好的商業模式》

界面新聞：《智譜股價刷歷史新高，新一代模型再度提價10%》

深潮TechFlow：《token出海，將中國電力賣給全世界》

硅星人Pro：《羅福莉：各位醒醒吧，該結束token虛假狂歡了》

GLM2.46%

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
留言
轉發
分享

留言

請輸入留言內容

暫無留言

熱門話題
查看更多
#
GatePreIPOs首發SpaceX
26.24萬熱度
#
Gate13週年現場直擊
96.41萬熱度
#
加密市場小幅下跌
19.49萬熱度
#
美伊衝突再起引發市場動盪
57.56萬熱度
#
KelpDAO跨鏈橋遭攻擊
1.65萬熱度

用不起Token的我 成了AI時代的下沉市場人群

AI使用者，被焦慮裹挾

流動的算力，累加的成本

算力流動到末端發生了什麼

熱門話題

GatePreIPOs首發SpaceX

Gate13週年現場直擊

加密市場小幅下跌

美伊衝突再起引發市場動盪

KelpDAO跨鏈橋遭攻擊

置頂

用不起Token的我成了AI時代的下沉市場人群