simon·geofin
Sections
前緣大模型釋出的資本支出含義:LLM 進化如何推倒半導體成本曲線
Industry · 產業戰棋

前緣大模型釋出的資本支出含義:LLM 進化如何推倒半導體成本曲線

Opus 4.7 於 Google Trends TW 爆增 1,000%+,反映的不只是模型更新,而是一整個超大規模資料中心擴產的信號。這篇拆解每代 LLM 如何將 compute demand 推高 3–5 倍、對 CoWoS-L 產能的連鎖衝擊、以及為什麼邊際成本下降的故事正在改變。

2026-04-177 min readLLM · Capex · 半導體 · Frontier Models · Chokepoint
ShareXThreads

目錄

為什麼前緣 LLM 的每一次釋出都是資本支出事件

2026 年 4 月 17 日 Google Trends TW 觀測到 Opus 4.7 相關搜尋暴增 1,000%+——距離發佈公告不足 11 小時。看起來只是一個模型更新,但在半導體與超大規模資料中心的層級,這背後是一個非常真實的 capex 連鎖反應:

  • 每代前緣 LLM 的 compute demand 增幅約 3–5 倍
  • HBM(高頻寬記憶體)供應鏈在 12 個月內會面臨新的瓶頸
  • CoWoS-L 封裝產能已經成為比晶圓產能更稀缺的資源
  • NVL72 GPU 超大規模叢集的部署週期被迫延長到 24–36 個月

這篇試著回答一個投資者很少問、但半導體產業內每天都在談論的問題:新的前緣大模型為什麼會導致整個 capex 預算週期被重新規劃?


LLM 計算複雜度的三代演變

追蹤 LLM 的實際 compute 需求,比較的是訓練時期的 FLOP 總量 與推論時期的 FLOP/token 成本

第一代:GPT-3.5 時期(2022–2023)

指標GPT-3.5
模型參數~175 B
訓練 FLOPs~3.1 × 10²³
推論 FLOP/token(批量)~350 FLOP
典型部署形式單 GPU 服務(A100 / H100)

當時的標準是:一張 H100 GPU 足以服務數千個並發推論要求

第二代:GPT-4 / Sonnet / Claude 時期(2023–2024)

指標GPT-4 級模型(估值)
模型參數(混合專家)~1.7 T
訓練 FLOPs~1.0–1.3 × 10²⁴
推論 FLOP/token(批量)~1,700–2,100 FLOP
典型部署形式NVLink 8-GPU Pod(H100/H200)

這個世代已經需要多 GPU 叢集來達到單一客戶的 SLA。HBM(高頻寬記憶體)的需求從「有就行」變成「關乎性能的生死」。

第三代:Opus 4.7 / 當前前緣時期(2025–2026)

指標前緣大模型(推估)
模型參數(混合專家)~4.5–8.0 T
訓練 FLOPs~5.0–8.0 × 10²⁴
推論 FLOP/token(批量)~4,500–6,500 FLOP
典型部署形式NVL72(72-GPU 超大規模 Pod) + CoWoS-L HBM 堆疊
配套HBM容量需求每GPU 144–192 GB(vs. 前代80GB)

這一次的跳躍不只是模型變大,而是推論架構必須徹底重新設計。


邊際成本下降的數據故事

一個容易被忽視的現象:儘管每代模型的訓練 FLOP 和推論成本都在上升,單位 token 的推論成本卻在下降

成本軌跡(相對基準)

世代訓練 FLOP(相對)推論 FLOP/token(相對)硬體利用率(相對)單位推論成本
GPT-3.51.0x1.0x1.0x1.0x
GPT-4 級4.2x4.8x1.8x2.3x
Opus 4.7 級16–25x12–18x3.2–4.0x3.5–5.2x

看起來成本還在上升,但利用率在快速改進。一個 NVL72 pod 的晶片利用率從 35–40%(GPT-3.5 時代)提升到 70–80%(當前),意味著:

  1. 每張 GPU 的有效吞吐量翻倍
  2. 每個 data center 的總擁有成本(TCO)反而下降
  3. 邊際推論成本開始跟上或低於進度改善的速度

這是為什麼超大規模廠商仍在激進 capex 的核心:不是因為成本上升,而是因為成本終於開始下降,回報率變成正的了。


Capex 衝擊的真實鏈路:GPU → HBM → CoWoS-L

前緣大模型每次釋出,都會在以下三個環節觸發新一輪的 capex:

環節 1:GPU 與 Tensor 處理

  • 需求信號:新模型的推論 FLOP/token 上升 → 單一 Pod 內的 GPU 數量增加
  • Capex 觸發:超大規模廠商決策「購買更多 NVL72 Pod」
  • 交期影響:GPU 制程本身沒問題(TSMC 3nm 順利),但 GPU 整合需要 HBM 和 CoWoS 打包在一起

GPU 本身不再是瓶頸。瓶頸轉移到了 GPU 的記憶體和封裝。

環節 2:HBM 供應與 TSV 堆疊

當前 HBM 供應鏈:

  • SK Hynix:全球主力,供應 H100 / H200 的 80GB–192GB HBM 堆疊
  • 三星:部分產能,良率落後
  • 美光:部分供應,能見度低

典型的 H200 + 後代 GPU 需要:

  • 12–16 顆 HBM 晶片垂直堆疊(TSV 穿孔)
  • 與 GPU 的精確對位(±1 微米)
  • 熱管理須達到 100+ W/cm²

Capex 衝擊:

  • 新的前緣模型需要 144–192GB HBM(vs. 前代 80GB)
  • HBM 月度供應不足以支持同步部署
  • SK Hynix 與三星都在擴產,但週期是 12–18 個月

環節 3:先進封裝 CoWoS-L

這是真正的瓶頸。

CoWoS-L(Chip-on-Wafer-on-Substrate,先進層級)是把 GPU + HBM 堆疊整合為單一封裝體的技術:

  • 產能集中度:台積電約占 85%+ 的全球 CoWoS-L 產能
  • 良率門檻:新一代 GPU + 更高密度 HBM 的整合,良率在 65–70% 初期
  • 擴產週期:從決策到量產需要 24–36 個月

數字:

  • 2024–2025 年 CoWoS-L 月產能:約 4–5 万片
  • 前緣模型驅動的需求:估計 2026 年中期月需求達 8–10 万片
  • 缺口:3–5 个月交期的供應不足

可追蹤的七個 Capex 信號指標

  1. 超大規模廠商 GPU 訂單公告

    • NVIDIA H200/B200 季度出貨量
    • NVL72 Pod 部署案例與交期公告
  2. HBM 供應商季度法說會揭露

    • SK Hynix HBM 月度產能與客戶分布
    • 三星、美光的 HBM 產能擴建進度
  3. TSMC 法說會 CoWoS-L 專項討論

    • 月度產能公告
    • 客戶分布與預期增長
    • 海外產能(日本熊本廠)的進度
  4. 前緣大模型發佈週期

    • 每次重大 LLM 發佈後 2–4 周的產業訪談與法說會
    • Capex 預算修正的宣佈
  5. 新GPU 整合度量

    • GPU 內部 HBM 容量增長率(推理反推 GPU 設計週期)
    • CoWoS-L 晶片尺寸與複雜度指標
  6. 供應鏈灰市信號

    • H200 / B200 與 HBM 堆疊的二手市場價格
    • 超期待與短期供應不足的早期信號
  7. 資料中心新興電力與冷卻需求

    • 超大規模廠商的電力採購公告
    • Megawatt(MW)級別冷卻基礎設施的投資公告

為什麼這個週期不同:邊際成本已經開始反轉

過去三年,分析師問的都是:LLM 成本什麼時候會變便宜?

答案現在出現了:

  • 訓練成本仍在上升(更大的模型 = 更多 FLOP)
  • 推論邊際成本正在下降(硬體利用率 + 摩爾定律 + 架構最佳化 的組合)
  • 整個 capex 預期因此反轉:超大規模廠商現在在'投資回報率轉正'的時間點開始激進擴產

這意味著:

  1. 不是'成本曲線優化'驅動 capex,而是'投資回報率突破臨界'驅動 capex
  2. Capex 週期的時間表不再與模型發佈同步,而是與供應鏈瓶頸同步
  3. CoWoS-L、HBM、NVLink 基礎設施的稀缺性,比 GPU 晶片本身稀缺得多

結語

前緣大模型不只是軟體事件,它的每次釋出都觸發一個 12–36 個月的硬體擴產週期

Opus 4.7 的 Google Trends 爆增反映的是:超大規模廠商開始公開信號他們的下一輪採購計畫。而這些採購計畫的真正掣肘,不會是 GPU 或晶圓產能,而是先進封裝(CoWoS-L)和高頻寬記憶體供應

Industry section 接下來會把以下納入長期監看清單:

  • TSMC 季度 CoWoS-L 產能揭露
  • SK Hynix / Samsung HBM 供應能見度
  • 超大規模廠商的電力與冷卻基礎設施投資公告

這三個指標的組合,將比「下一個 LLM 何時發佈」更準確地預測半導體 capex 的實際節奏。


參考來源

  • Google Trends TW(2026-04-17):Opus 4.7 搜尋量 1,000%+ 爆增信號,業界模型發佈與採購迴圈的早期指標
  • NVIDIA 官方:H100 / H200 / B200 GPU 規格與 NVLink 架構演變
  • SK Hynix 投資人會議(2025–2026):HBM 產能規劃與客戶預期管理
  • TSMC 法說會紀錄(2025–2026):CoWoS-L 產能進度與海外擴產(日本熊本廠)細節
  • 超大規模廠商公開揭露(AWS、Google Cloud、Azure):資料中心擴建計畫與 capex 預算修正
  • 方法論:本篇係 Chokepoint War Gaming 框架套用,非投資建議。具體數字與產能預測,請參照廠商公開財務報告與法說會為準。
Geofin Research Weekly

地緣優先的投資觀察週報

每週一封。方法論、失敗紀錄、量化驗證結果。不寄明牌,不寄投資建議。 免費訂閱即可收到精選摘要,付費解鎖完整深度研究。

  • 免費版:每週 1 篇精選 + 市場速覽
  • 付費版:每週 3 篇深度研究 + 數據附件
免費訂閱 →隨時取消,不綁約