「一滴水落在伺服器就完了!」黃仁勳催出液冷散熱商機,但普及還有2大難題
儘管AI技術近兩年有著重大突破,從舊時科幻電影中的存在,變成尋常百姓都能體驗到、甚至改變工作生活的技術,這大大提升了資料中心的負荷,但依靠大量風扇替伺服器降溫的傳統手段,依然是最主要的散熱辦法。現在以輝達為首的科技公司,開始探索更有效率的技術: 液體冷卻(liquid-cooled)散熱技術 。
液冷技術為何崛起?跟風冷散熱相比,好在哪?
今年3月的GTC大會上,輝達揭露了採用全新Blackwell架構的GB200伺服器,並聲稱將採用液體冷卻技術。根據《華爾街日報》報導,輝達發言人還透露,他們正在與供應商合作,著手開發浸沒式冷卻技術,將整台電腦浸泡在絕緣液體中進行冷卻。
自從AI技術興起後,資料中心的用電一直被搬上檯面討論。目前全球資料中心用電已高達350 TWh(太瓦時),比台灣2023全年用電270 TWh還要高出許多,全球只有16個國家用電量高於這個數字。但《彭博社》預估,2034年時資料中心用電將成長至1,580 TWh,相當於印度一整年的用電量。
資料中心巨額的用電量,很大一部分就是用於散熱。麥肯錫曾估計,冷卻就占了資料中心耗電的40%左右。 倘若使用液冷或更先進的技術,用電占比降到10%甚至更低,都是有可能的情況。
而除了用電疑慮外, 依靠風扇冷卻的作法也已經快要滿足不了AI晶片的散熱需求 。
研究公司集邦科技指出,B200、GB200等產品單一GPU功率就超過1,000W,HGX型號一組就有8塊GPU,而NVL型號則每個機櫃有著高達36或72塊GPU,傳統的風冷已經漸漸難以負荷。NVL36預計還會採用風冷、液冷結合的作法,而NVL72則會以液冷為主。
《華爾街日報》指出,AI伺服器供應商美超微(Super Micro Computer)就強調,液冷系統可將資料中心的耗能降低30%到40%;輝達也提到, 液冷技術可以省下風扇空間,使得資料中心內可以容納倍於風冷的運算能力 。另外,風扇揚起的灰塵還可能影響硬體效能。
延伸閱讀:液冷散熱是什麼?跟水冷有何不同?解析下一個明星技術
液冷散熱普及兩大難題:漏水、供應不穩定
不過,液冷要普及應用還有幾點困難等待克服,最大的風險就是 液體外洩 。「如果一滴水落在伺服器上,好比說要價數百萬美元的GB200,可能引發災難性的損壞。」散熱技術公司力致科技總經理連春源向《華爾街日報》表示。
7月下旬,GB200就被爆出液冷零組件有問題,出現機櫃漏水的情況,一度導致鴻海和相關供應商股價下跌5%以上。《華爾街日報》指出,消息人士透露目前供應商正在解決問題,預計不會影響到GB200的出貨時間。
再加上,目前液冷零組件的供應還不是很穩定,美超微在最新財報中提到,因為液冷零組件短缺導致出貨延遲,這一季少了8億美元收入。短缺的其中一種零組件叫作快接頭(UQD),是讓液冷系統運作時不漏液的關鍵零組件。
液冷的成本暫時也相對高昂,摩根士丹利估計,GB200的液冷系統一套要價超過8萬美元,相當於H100使用的風冷系統的15到20倍的價格。
目前風冷仍是資料中心冷卻辦法的絕對多數,超過95%資料中心都還是使用風冷,集邦科技認為,隨著輝達Blackwell系列晶片的推出,液冷普及率可望在年底到達10%。值得一提的是,該研究是在Blackwell系列傳出設計缺陷前發布,延期消息對此有多大的影響,暫時還不得而知。不過美超微也透露,明年出貨的伺服器將有高達30%都是採用液冷技術。
液冷要取代風冷成為主流,勢必還有相當長的一段時間,但如今的成長趨勢顯示,液冷不再只是高端電腦玩家,或者核電廠等特別環境才會使用的技術,能夠真正為資料中心帶來革新。今年6月黃仁勳出席HPE的活動也提到,「液冷技術未來將帶來包括更好的性能、更少的基礎設施和更低的營運成本等所有一切好處。」
延伸閱讀:氣冷、液冷、浸沒式三種散熱差在哪?一文看懂AI大商機:關鍵技術、概念股有哪些?
責任編輯:林美欣
更多報導
影片|黃仁勳、梁見後用台語拌嘴的「液冷機櫃」是什麼?會是台灣伺服器「出頭天」機會?
美超微市值縮水近350億美元!繳出超狂營收股價卻照跌?一文解析「AI妖股」獲利真相
氣冷、液冷、浸沒式三種散熱差在哪?一文看懂AI大商機:關鍵技術、概念股有哪些?