Nvidia H100 為何短缺?看專家詳解AI市場 GPU 供需現況!

今年科技圈掀起一波生成式 AI 熱潮,這股熱浪更是將 Nvidia 一舉推上了 AI 市場之巔的領先地位。Nvidia 的顯卡(GPU)瞬間成了每個開發人工智慧的企業首選,其中又以 Nvidia H100 的討論度最高,這幾天有一篇來自《GPU Utils》網站的文章Nvidia H100 GPUs: Supply and Demand 被頻繁地轉發到各大社群上,就連 OpenAI 的聯合創辦人兼科學家 Andrej Karpathy 也在自己的推特上分享。

該文章深度探討了當前市場上 GPU 的供需情況,作者揭露許多產業數據,包括了各大科技公司現階段擁有的 GPU 數量、使用情況與需求量,尤其是 Nvidia H100 的供需現狀。

廣告

下圖是《GPU Utils》列出的目前對 GPU 市場供需變化最有直接影響的科技公司,包括了:開發出 Chat-GPT 的 Open AI、台積電、微軟、Meta 以及成立僅僅一年便募得 13 億美元資金的 AI 新創 Inflection。

這些科技巨頭全都仰賴 Nvidia 生產的 H100 或 A100 GPU 來進行產品開發,其中又以 H100 最受歡迎。不管是哪個 GPU,整體看來,GPU 在市場上的需求量遠遠超過供給。

Nvidia 的 GPU 有多難買?

馬斯克曾經開玩笑說:「好像所有人跟他們的狗都在買 GPU」、「GPU 現在好像比毒品還要難買到」來表達目前市場上 GPU 嚴重短缺的情況。

不光是馬斯克,Open AI 創辦人 Sam Altaman 在今年六月時也說過,GPU 短缺的問題正在阻礙 ChatGPT 的發展, 他們因此推延了部分功能開發計畫,包括了改善 API 的可靠性與速度問題,以及推出更長的 32k 上下文本視窗等。

哪一款 GPU 最受歡迎?

《GPU Utils》作者指出,目前大多數公司都會選擇購買  8-GPU HGX H100 ,而不是 DGX H100 或 4-GPU HGX H100 伺服器。

為什麼選擇 H100 而不是 A100 呢?

H100 能成為企業首選的主要原因在於 H100 是目前 Nvidia 性能最強大的 GPU,相較於 A100 ,性能大幅提升4.5倍,訓練一遍 GPT-3 只需要 11 分鐘,是現今訓練生成式 AI 的大型語言模型(LLM)最佳選擇。

A100 相比,H100 的 16 位元推論(inference)速度比 A100 還要快約 3.5 倍,它的 16 位元的訓練速度也比 A100 要快約 2.3 倍,整體效能提高了三倍,但 H100 成本僅為 A100 的 1.5 到 2 倍。

考慮到整體系統成本,H100 每美元產生的性能比 A100 還要高 4 到 5 倍之多,H100 可以說是 CP 值最高的 GPU。對於許多 AI 新創來說,AI 模型的開發、訓練和優化速度是贏過競爭對手的關鍵。正因如此,科技大廠各個都搶著要買  Nvidia H100 GPU,或者更準確地說,是 Nvidia 的 8-GPU HGX H100 SXM 伺服器。

哪一類公司需要 GPU?

作者進一步分析,就他所知,目前需要數百張乃至數千張以上的 H100 或 A100 GPU 的公司有三種:

  1. 訓練 LLM 的新創公司(OpenAI、Inflection、Mistral AI 與 Anthropic 等)

  2. 大型雲端服務供應(Azure、Google Cloud Platform、Oracle 與 AWS 等)

  3. 其他科技大廠(特斯拉)

市場上的 GPU 成本是多少?

據了解,對於 SXM 版本的伺服器來說,1 個採用 8 塊 H100 的 DGX H100 GPU 價格約為 46 萬美元,這 46 萬美元中包括必須購買的支援服務成本 10 萬美元,新創公司可以獲得 5 萬美元的初購優惠( Inception discount),最多可以用在購買 8 台 DGX H100,相當於 64 個 H100 GPU。

一個採用 8 塊 H100 GPU 的 HGX H100 (SXM 版本)價格大約在在 30 萬到 38 萬美元之間,具體價格取決於伺服器的規格(網路、存儲、RAM、CPU),以及銷售可以給到的優惠和支援服務水平,這個型號的高端價格(包含支援服務)約落在 36 萬到 38 萬美元之間,快要跟 DGX H100 差不多貴了。

而換成 PCIe 版本的 HGX H100 價格大約是 30 萬美元,具體還是要看規格與型號, PCIe 版本顯卡的市場價格約為 3 萬到 3.2 萬美元,SXM 版本的顯卡一般不單獨出售,通常僅作為 4-GPU 和 8-GPU 伺服器顯卡出售,因此很難給出定價。

市場上大約 7 成到 8 成左右的需求是 SXM 版本的 H100,剩下的才是 PCIe 版本的 H100

全球知名企業目前手上有多少 GPU?

根據資料,目前知名的科技大廠手上可能持有的 GPU 數量如下:

用於開發 AI 的公司

  • GPT-4 可能要在 1 萬到 2.5 萬張 A100 上進行訓練,而根據馬斯克的說法, GPT-5 可能需要 3 萬到 5 萬張 H100,因此 Open AI 至少有 7.5 萬張 GPU。

  • Meta 有大約 2.1 萬張 A100。

  • 特斯拉有大約 7000 張 A100。

  • 生成式 AI 繪圖工具 Stable Diffusion 開發商 Stability AI 約有 5000 張 A100

  • Inflection AI 使用了 3500 張 H100 來訓練一個與 GPT-3.5 效能相當的模型。

  • 阿聯酋的科學研究中心第一個大規模 AI 模型「Falcon 40B」需要在 384 張A100上進行訓練。


雲端服務供應商

  • Google 的雲端平台 GPC 大約有 2.5 萬張 H100。

  • 微軟的 Azure 可能有 1 萬到 4 萬張 H100,其中  Azure 應該把大部分的 GPU 容量給了 OpenAI 使用。

  • 甲骨文(Oracle)的 GPU 用量應該和 Azure 差不多,約為 1 萬到 4 萬張。

  • 基於 GPU 開發的美國雲端運算新創 CoreWeave 的數量約為 3.5 萬張到 4 萬張 H100,但這不是他們現有的數量,而是他們跟 Nvidia 預購的數量。

以上這些還不包括一些大型金融公司,例如 JP Morgan、Two Sigma、Citadel 與 Jane Street等巨頭,他們也正在為公司內部的金融系統部署數百張 A100 或 H100 ,未來可能會逐漸增加至數千張左右。

全球企業需要多少 GPU?

產業分析師估計,如果只是微調 LLMs 僅需要數十張或數百張 H100 GPU,而如果是針對 LLMs 進行訓練則需要數千張以上,根據《GPU Utils》作者估計,這些知名科技大廠總供需要的 GPU 如下:

  • OpenAI 可能需要 5 萬張 H100 GPU

  • Inflection 需要 2.2 萬張

  • Meta 需要 2.5 萬至 10 萬張不等。
    大型雲端服務供應商,Azure、Google Cloud、AWS、Oracle 以上每一家可能需要 3 萬張 H100 GPU。

  • Lambda 和 CoreWeave 等其他私有雲(Private Cloud)總共需要 10 萬張  H100。

  • Anthropic、Helsing、Mistral 與 Character 這些公司每一家都需要 1 萬張左右。

整體看下來,全球企業對 H100 GPU 的需求量大約落在 43.2 萬張,按每張 H100 GPU 約 3.5 萬美元的售價來計算,市場對 GPU 的總需求耗資近 150 億美元。

因此《GPU Utils》保守估計,目前市場上還缺至少 43 萬張 H100 GPU。

這還不包括像是字節跳動(TikTok)、百度和騰訊這些想要大量 H800 的中國公司,接下來我們來看看主要供應商 Nvidia 的產能有多少?

Nvidia 的產能有多少?

根據《GPU Utils》作者的觀察,目前 Azure 與 Google Cloud Platform(GCP)這些雲端供應商,皆已面臨 H100 GPU 供不應求的狀況,而 AWS 在這場 GPU 爭奪戰中則已經快被淘汰出局,因為他們的 GPU 存貨快要用光了,之所以造成這種「供給不足」的問題,全是因為 Nvidia 的產能嚴重不足。

資料顯示, 2023 年 2 月到 4 月份,Nvidia 的數據中心營收是 42.8 億美元,預計今年 5月到 7 月可能會達到 80 億美元左右,這樣的營收數字應該是夠 Nvidia 撐到明年。

不過各大廠的 H100 的供應分配,最終還是要取決於 Nvidia 更願意把這些 GPU 分配給誰, Nvidia 高層透露,問題不在於 GPU 短缺,而是 GPU 怎麼進入市場。

是什麼造成 H100 供應出現瓶頸?

1. 僅靠台積電代工生產

首先,Nvidia 只與台積電合作生產 H100,台積電一共有 4 個生產節點是為 5nm 晶片提供產能:N5、N5P、N4、N4P。而 H100 只在 N5 或者是 N5P 的中的 4N 節點上生產,這是一個  5nm 晶片的增強型節點,同時 Nvidia 還必須與蘋果、AMD 和高通共享這個節點的產能,至於 A100 顯卡則是在台積電的 N7 生產線製作的。

有些人會問,為什麼 Nvidia 不找三星或 Intel 代工?

其實早期三星的確幫 Nvidia 代工生產過 GPU,然而隨著生成式 AI 的需求大增, Nvidia 用來支援 ChatGPT 和其他 AI 應用的 A100 和 H100 GPU 的訂單幾乎轉給擁有先進封裝技術的台積電完成。

半導體產業人士透露,台積電的晶圓廠的生產線需要提早 12 個月規劃出各個客戶的產能配置,而 H100 從生產到出廠大約需要半年時間,不過晶圓廠並不是台積電的主要生產瓶頸,Cowos(Chip on Wafer on Substrate)「3D 封裝技術」才是台積電的產能大關。

至少短期內,三星或 Intel 都因為製程技術問題,還無法替 Nvidia 緩解供應緊張的問題。

2. GPU 內存記憶體難製作

除此之外,H100 的記憶體,也可能存在產能不足的問題,因為 GPU 的內存記憶體是一種特殊的「高頻寬記憶體」(High Bandwidth Memory, HBM),它正是保障 GPU 性能的關鍵元件,問題就在於 HBM 很難生產,供應也相當有限,生產與設計步調都必須按照 HBM 的節奏來。

Nvidia A100 和 H100 內部皆有 HBM 元件,而像 H100 所搭載的 HBM3 就是由 SK海力士(SK Hynix)獨家供應,有部分採用三星的產品,只是三星的產能相當有限。

3. 原料相當稀有難取得

生產 GPU 還會用到許多難以取得的金屬原料(如下)和稀土元素,以及半導體材料和元件,作者在文章中列出了將近 20 個材料,包括了矽(類金屬 Metalloid)、封裝材料、印刷電路板(PCB)、半導體製造設備(包括光刻機、蝕刻設備、離子注入設備)等等,這些都是造成 GPU 產能不足的潛在原因。

  • 銅:由於其高導電性,用於創建電氣連接。

  • 鉭(Tantalum):因其能夠保持高電荷而常用於電容器。

  • 金:由於其耐腐蝕性,用於高質量電鍍和連接器。

  • 鋁:經常用於散熱器以幫助散熱。

  • 鎳(Nickel):因其耐腐蝕性而常用於連接器的塗層。

  • 錫:用於將部件焊接在一起。

  • 銦(Indium):因其良好的導熱性而用於熱界面材料。

  • 鈀:用於某些類型的電容器和半導體器件。

Nvidia 怎麼分配手上的 GPU ?

《GPU Utils》解釋,Nvidia 首先會為每個客戶提供 H100 GPU 配額,但是 Nvidia 會看 GPU 最終給誰用來決定給客戶配額。

舉個例子:如果今天 Azure 說:「我們想要 1 萬個 H100,我們把這些全部都給 Inflection 用。 」與「我們想要 1 萬個 H100 全部都給我們自己用。」這兩種需求在 Nvidia 身上是會出現不同的配額,因為 Nvidia 更在乎「最終使用客戶」是誰,所以如果最後使用的客戶是擁有好品牌血統或是強大技術潛力的新創公司,Nvidia 會願意給更多的 GPU 配額

看一看前面的資料統整,就可以發現雲端新創企業 CoreWeave(3.5 萬張到 4 萬張)拿到的配額比 Google Cloud Platform (2.5 萬張)還要高。

展望未來 Nvidia GPU 的產能

Nvidia 曾透露,2023 下半年的 GPU 供應肯定會更多,不過公司還沒有明確的數量,Nvidia 財務長在今年 Q1 的財報會議也表示:「公司目前處理本季度的供應量,但我們也為下半年採購了大量供應。」

然而目前市場上已經出現了惡意囤積 GPU 的亂象,根據 Nvidia 之前的生產線圖,H100 的下一代產品要等到 2024 年末至 2025 年初才會亮相,期間可能會推出 120GB 水冷版的 H100。只是《GPU Utils》作者獨家去採訪業內人士,對方爆料說,其實今年到年底前的 H100 存貨早已經賣光了。

文章最後,作者引用了 OpenAI 創辦人 Sam Altman 說過的一句話:「我們已經進入了『巨型模型即將結束的時代』。」就目前市場上 GPU 的供需狀況而言,在這之中可能還存在一些泡沫化和炒作的成分,但可以肯定的是,H100 會一路短缺到 2023 年底

至少就目前來看,無論如何, Nvidia 依然是這片 GPU 市場上霸主。

延伸閱讀:
Nvidia:全球第八大市值、壟斷AI 運算的晶片設計公司
Nvidia 執行長黃仁勳:AI讓每個人都能成為程式設計師
Nvidia者得天下,與微軟的合作將強化兩者在AI領域的領先地位