《產業》NVIDIA MLPerf訓練結果 展現驚人效能

【時報記者任珮云台北報導】全端NVIDIA加速運算平台在最新的MLPerf Training v4.0基準測試中,再次展現驚人的效能。與去年NVIDIA提交創新紀錄的數據相比,NVIDIA在基於GPT-3 175B的大型語言模型(LLM)基準測試中的表現,提升了三倍以上。NVIDIA使用配備11,616個NVIDIA H100 Tensor Core GPU並與NVIDIA Quantum-2 InfiniBand網路連接的人工智慧(AI)超級電腦,透過更大規模(比一年前提交的3,584個H100 GPU增加三倍多)和廣泛的全端工程實現了測試。

10家NVIDIA合作夥伴提交了結果,反映了NVIDIA AI生態系的深度和廣度,包括華碩(2357)、戴爾科技集團、富士通、技嘉(2376)、慧與企業、聯想、甲骨文、廣達(2382)旗下雲達科技、美超微和Sustainable Metal Cloud。此廣泛的參與以及各夥伴傑出的基準測試結果,突顯了NVIDIA AI平台在整個產業的廣泛採用和信任。

由於NVIDIA AI平台的可擴展性,Eos現在可以更快地訓練GPT-3 175B等大規模AI模型,這種出色的AI效能可以轉化為巨大的商機。例如,在NVIDIA最近的財報電話會議中,我們描述了大型語言模型服務供應商如何在 NVIDIA HGX H200伺服器上運行Llama 3 70B模型,在短短四年內將一美元投資轉化為七美元。這個投資回報是假設一家大型語言服務供應商使用吞吐量為每秒24,000詞元的HGX H200伺服器,以每百萬詞元0.6美元的價格/提供 Llama 3 70B服務。

NVIDIA H200 Tensor GPU基於Hopper架構的優勢而構建,擁有141GB HBM3記憶體,與H100 GPU相比,記憶體頻寬增加了40%以上。 NVIDIA H200 Tensor Core GPU突破了AI訓練的極限,在其首次亮相的MLPerf Training中延伸H100的效能並提高了47%。

廣告

此外,由於對NVIDIA軟體堆疊進行了大量最佳化,使用512個H100 GPU的配置所提交的結果現在比一年前快了27%。這項改進凸顯了即使使用相同的硬體,持續的軟體增強也可以顯著提高效能。這項工作也實現了近乎完美的擴充。隨著GPU數量從去年的3584個H100 GPU增加到此次提交的11,616個H100 GPU,增加3.2倍,提交的效能也隨之等比增加。

隨著NVIDIA Blackwell平台推出,用於訓練和推論的兆參數生成式AI模型的新一等級AI效能即將實現。