《英伟達份額只剩 48%,推理大時代機會在哪?》


這是 AI 投研 100 篇系列的第九篇,2萬字,建議先收藏,估計能看完的不多。
前幾篇看了 Intel、AMD、ARM 這幾家。它們過去一年股價漲幅都不小——AMD 翻倍、Intel 三倍、ARM 也站上歷史高位。漲上來之後,一個樸素的問題就來了:這些已經漲過的還能不能拿?沒漲的裡面還有沒有機會?
要回答這個問題,繞不開一個核心詞——推理。前面那些公司漲上來,分析裡反覆出現的就是這兩個字。
那麼:推理的賽道有多大?目前在什麼階段?哪些公司會如何受益?哪些已經被市場定價,哪些沒有?
這是應該被最先搞懂的。
一、賽道有多大
模型訓練是「寫程式」,推理是「這個程式每天被調用的過程」。GPT 訓出來之後,每天有幾億人去問它問題,每一次問答都在消耗推理算力。Claude Code 跑一個任務,agent 自己跑一百輪,每一輪都是推理。
多份行業研究和媒體引用都指向同一個方向:模型進入生產環境後,推理會成為生命週期成本的大頭,常見估算區間在 80-90%。也就是說,未來 AI 時代的算力帳單裡,10 塊錢有 8 塊是推理在燒。
但市場過去三年討論的幾乎全是訓練,因為訓練是更"性感"的故事——比誰的 H100 多、誰的參數大、誰先訓出下一代模型。推理被當成訓練完之後順帶的事。
這個認知偏差正在被扭轉,而這,正是過去一年這一批半導體公司被重新定價的根本原因。
那推理這條賽道大,但到底有多大?具體可以從5個角度測算。
一是用戶數。 ChatGPT 周活 9 億、付費 5000 萬。中國側的對比更直接——日均 token 調用量從 2024 年初的 1000 億漲到 2026 年的 140 萬億,1400 倍。這一項還遠遠沒飽和。
二是使用強度。 OpenAI 的 token 處理量在 2025 年 10 月還是每分鐘 60 億,2026 年 4 月已經到 150 億——半年翻 2.5 倍。企業版收入占比超過 40%,企業用戶的使用強度是消費者的幾十倍。
三是對話長度。 上下文長度從早期的幾百 token,到現在DeepSeek API 文件列出的 V4 Pro / Flash 上下文長度為 1M,最大輸出為 384K。文件越長,單次推理消耗的內存和算力越高。
四是模型本身越來越費算力。 OpenAI o1、DeepSeek R1、Claude thinking 這一類 reasoning 模型,回答問題之前會先在內部"思考"幾千甚至幾萬個 token。黃仁勛曾以 DeepSeek R1 為例談到,推理模型可能需要高得多的計算量,甚至達到百倍量級
過去你問 AI 一個問題,它直接給答案;現在你問 AI 一個難題,它先在腦子裡想半分鐘,再給答案。這中間的"想半分鐘",就是新增的算力消耗。
五是 agent。 一個 agent 任務通常要調模型 10-100 次。OpenAI Codex 周活已經突破 300 萬——這只是一家公司的一个產品。一名 AI 產業鏈人士的判斷是,AI 智能體的整體算力消耗可達同參數規模大語言模型的 10 倍以上。
五件事相乘,三五年內推理總需求出現數量級擴張,並不是誇張敘事,而是一個越來越接近主流的判斷。
經濟學有一個老現象叫 Jevons Paradox——一個東西的單位使用效率提升後,總消費量反而上升,因為它變便宜了,更多場景敢用了。蒸汽機效率提高後英國煤炭消耗暴增;推理 token 單價下降後 AI 調用次數暴增。這是同一個劇本。IEA 測算,全球資料中心耗電從 2024 年占總用電 1.5%,到 2030 年翻倍到 945 TWh——大概相當於德國和法國全年用電量加起來。
而且,從產業一線的具體動作也能進一步扎實論點:
Anthropic 的 ARR 從 2024 年底 10 億美元,到 2026 年初 300 億美元——14 個月 30 倍。為了支持這條曲線,它一家公司在 2025 年底到 2026 年初鎖定了超過 11 GW 的算力,其中向博通訂購了 210 億美元的 TPU。OpenAI 已經承諾部署 10 GW 的定制芯片。Google TPU 2026 年出貨量目標上調 50% 至 600 萬顆。
雲廠商資本開支的數字更直接。Google 2026 年資本支出計劃 1750-1850 億美元,幾乎是 2025 年的兩倍;Amazon 2026 年投入 2000 億美元;Meta 計劃增加 65% 至 1180 億美元。八大雲廠商合計 2026 年資本開支將推升至 6000 億美元以上,年增 40%。
把這些放在一起,結論簡單——AI 推理需求曲線已經超出任何一家硬體供應商的供給能力。
這就是推理賽道的全部底色:訓練時代是「造一個神」,推理時代是「這個神每天要被幾億人調用、每個 agent 調用一百次、每次思考幾萬個 token」。從前者到後者,算力消耗不是線性增加,是幾何級跳躍。
二、哪些股票會受益?
賽道大不代表所有公司都受益,而且, 英偉達獨占的局面已經在數據上鬆動了!
2026 年全球 AI 推理芯片市場上,英偉達份額約 48.2%, AMD 約 16.7%,ASIC 陣營合計約 18.5%(其中 Google TPU 7.8%、AWS Inferentia 5.2%、其他 ASIC 5.5%),國產推理芯片合計 16.6%。
英偉達在訓練市場仍然保持 80%+ 的份額,但在推理市場已經只有不到一半,為 48.2%。
為什麼會這樣?
訓練時代英偉達打的是綜合實力——高性能 GPU + NVLink 高速互連 + CUDA 生态系統。這套組合在訓練上是降維打擊。
阅读全文:《英伟达份额只剩 48%,推理大时代机会在哪?》
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言