NVIDIA 推出用於大型語言模型和生成式人工智慧工作負載的推論平台

本新聞稿由「NVIDIA」提供。

NVIDIA 宣布推出四款推論平台,可針對近來快速出現的各種生成式人工智慧應用程式進行最佳化調整,幫助開發人員快速建立專門的人工智慧應用程式,以提供新的服務和洞察。

這些平台將 NVIDIA 的整套推論軟體與最新的 NVIDIA Ada、Hopper 和 Grace Hopper 處理器結合在一起,處理器方面還包括今日推出的 NVIDIA L4 Tensor Core GPU 及 NVIDIA H100 NVL GPU。各平台均針對有著嚴苛需求的不同工作負載進行了最佳化調整,包括人工智慧影片、影像生成、大型語言模型部署和推薦系統推論。

NVIDIA 創辦人暨執行長黃仁勳表示:「生成式人工智慧的興起需要有更強大的推論運算平台加以支援。生成式人工智慧的應用有無窮的可能性,僅受限於人類的想像力。我們將最強大靈活的推論運算平台提供給開發人員使用,將加快推動開發出各種新式服務,用目前還想像不到的方式,讓我們的生活更美好。」

加速執行生成式人工智慧的各種推論工作負載

每個平台都有一個針對特定生成式人工智慧推論工作負載進行最佳化的 NVIDIA GPU,以及專用軟體:

  • 用於人工智慧影片的 NVIDIA L4 
    可以提供較 CPU 高出 120 倍的人工智慧影片生成效能,能源使用效率也高出99%。NVIDIA L4 可以處理幾乎所有工作負載,其提供了更強大的影片解碼和轉碼能力、視訊串流、擴增實境、生成式人工智慧影片等。

  • 用於影像生成的 NVIDIA L40 
    針對繪圖和人工智慧 2D、影片和 3D 影像生成進行了最佳化調整。L40 平台是用在資料中心建立和運行元宇宙應用程式之 NVIDIA Omniverse 平台的引擎,在執行 Stable Diffusion 時的推論表現是前一代產品的7倍,在運行 Omniverse 平台時的效能是前一代產品的 12 倍。

  • 用於部署大型語言模型的 NVIDIA H100 NVL 
    部署像是 ChatGPT 等大規模 LLM 的理想選擇。新款 H100 NVL 擁有 94GB 的記憶體及 Transformer 引擎加速功能,在資料中心規模上執行 GPT-3 推論作業的效能是前一代 A100 的12倍。

  • 用於推薦模型的 NVIDIA Grace Hopper 
    是圖形推薦模型、向量圖形資料庫和繪圖神經網路的理想選擇。CPU 與 GPU 之間採用每秒 900 GB NVLink-C2C 連線技術,Grace Hopper 的資料傳輸和查詢速度較 PCIe Gen 5 快上7倍。

廣告

這些平台的軟體層採用 NVIDIA AI Enterprise 軟體套件,其中包括用於高效能深度學習推論的軟體開發套件 NVIDIA TensorRT,以及協助標準化模型部署的開放原始碼推論服務軟體 NVIDIA Triton 推論伺服器

早期採用與支持

Google Cloud 是 NVIDIA 推論平台重要的雲端合作夥伴和早期客戶,將把 L4 平台與旗下的機器學習平台 Vertex AI 進行整合,而且還是第一個提供 L4 執行個體的雲端服務供應商,在今日開始提供 G2 虛擬機器非公開的專屬預覽。

NVIDIA 與 Google 今日分別宣布兩間在 Google Cloud 上搶先試用 L4 的公司,一間是使用生成式人工智慧協助創作者製作影片和 podcast 內容的 Descript 公司,另外一間是將其人工智慧文字轉數位藝術應用程式命名為 Dream 的 WOMBO公司。

另一個早期採用者快手(Kuaishou)則是提供短影片應用程式,利用 GPU 解碼傳入的即時串流媒體影片、擷取關鍵影格、最佳化聲音和影片內容。快手接著使用一個基於 Transformer  模型的大型模型來理解多模式內容,以及提高全球數億名用戶的點擊率。

快手科技資深副總裁于越表示:「每天有超過 3.6 億名用戶使用快手的推薦系統,這些用戶每天投稿三千萬條使用者生成內容影片。與總持有成本相同的 CPU 相比,NVIDIA GPU 將系統的端到端處理量提高了 11 倍,將延遲情況減少了 20%。」

生成式人工智慧技術平台 D-ID 使用 NVIDIA L40 GPU,透過文字產生出栩栩如生的數位人,協助專業人士製作出更精美的影片內容——能為所有內容加上一張臉,又降低了大量製作影片的成本和困難。

D-ID 研發部門副總裁 Or Gorodissky 表示:「L40 的表現太棒了,使用它可以將推論速度提高一倍。D-ID 很高興在產品中使用這個新硬體,它讓我們能夠用前所未有的效能和解析度以即時串流方式播放人工智慧所打造出的數位人,同時降低運算成本。」

人工智慧製作工作室 Seyhan Lee 使用生成式人工智慧技術,為電影、廣播和娛樂產業開發沉浸式體驗和引人入勝的創意內容。

Seyhan Lee 工作室共同創辦人 Pinar Demirdag 表示:「L40 GPU 大幅提升我們生成式人工智慧應用程式的效能,利用 L40 的推論能力和記憶體大小,我們可以部署最先進的模型,且以超高速度和超高準確度將創意服務提供給客戶。」

語言人工智慧領域的先驅業者 Cohere 所運行的平台協助開發人員能夠建立自然語言模型,同時保有資料的私密性和安全性。

Cohere 執行長 Aidan Gomez 表示:「NVIDIA 的全新高效能 H100 推論平台讓我們可以使用最先進的生成式模型,提供更好、更高效的服務給客戶,以支援對話式人工智慧、多語言企業搜尋和資訊抽取等各種 NLP 應用程式的運作。」

上市時間

Grace Hopper Superchip 及 H100 NVL GPU 預計在下半年開始供貨,此外,現在也可立即透過 NVIDIA 的全球電腦製造商及雲端服務供應商合作夥伴,取得用於生成式人工智慧的 NVIDIA 推論平台。

現已在 Google Cloud 平台上開放 NVIDIA L4 GPU 非公開專屬預覽,全球超過三十家的電腦製造商通路也將開始供貨,包括研華、華碩、源訊(Atos)、思科(Cisco)、戴爾(Dell Technologies)、富士通、技嘉、慧與科技(Hewlett Packard Enterprise)、聯想(Lenovo)、雲達科技(QCT)和 美超微(Supermicro)。

華碩、戴爾(Dell Technologies)、技嘉、聯想(Lenovo)和美超微(Supermicro)等大型系統建置商現已開始提供 NVIDIA L40 GPU,而合作平台的數量將在接下來一整年裡不斷增加。

各大雲端服務供應商及數十家系統供應商和合作夥伴現已開始提供 NVIDIA AI Enterprise。NVIDIA AI Enterprise 的客戶可以獲得 NVIDIA Enterprise Support 支援服務,以及定期檢測 NVIDIA Triton 推論伺服器™、TensorRT™、超過五十個預先訓練好的模型和框架的安全性與 API 穩定性的服務。

在 NVIDIA LaunchPad 的實作實驗室中,可以立即免費試用生成式人工智慧 NVIDIA 推論平台。示範實驗室包括訓練和部署一個支援性質的聊天機器人、部署一個端到端的人工智慧工作負載、在 H100 上調整和部署一個語言模型,以及使用 NVIDIA Triton 部署一個詐欺偵測模型。

聯絡商益