NVIDIA加速開源大型語言模型Meta Llama 3 的高效推理

輝達(NVIDIA)19日宣布與Meta合作,針對旗下最新開源的大型語言模型Llama 3進行了全面優化,使其能夠在NVIDIA GPU上高效運行推理任務。無論是雲端服務、數據中心、邊緣設備還是個人電腦,Llama 3現在都可以充分發揮NVIDIA硬體的加速能力。

作為下一代開創性的大型語言模型,Llama 3具有超過700億個參數,具備出色的自然語言理解和生成能力。Meta的工程團隊利用NVIDIA的AI超級電腦集群,搭載了2.4萬顆H100 Tensor Core GPU,進行了Llama 3的訓練工作。在NVIDIA的支援下,Meta針對網絡、軟件和模型架構做了專門的調整。

Llama 3推理版本將借助NVIDIA的GPU加速技術,大幅提升在生產環境中的推理性能和效率。開發者可以直接在ai.nvidia.com的瀏覽器中體驗Llama 3。它被封裝為標準微服務,擁有通用API接口,可輕鬆部署於任何環境。

企業用戶也能夠基於自身數據,使用NVIDIA開源的NeMo框架對Llama 3進行微調,將其應用於實際業務場景。客製化模型還可利用NVIDIA TensorRT-LLM進行推理優化,並通過NVIDIA Triton推理服務器進行部署。

更令人興奮的是,NVIDIA將Llama 3優化部署在業界領先的Jetson邊緣AI平台上,為機器人、物聯網等賦能。同時,Llama 3在NVIDIA的RTX和GeForce GPU上也可實現高效加速,直接讓過億消費級GPU設備受益。

廣告

針對實際應用場景,NVIDIA進行了詳細的性能測試。結果顯示,在配備單張H200 GPU的系統上,能夠同時為300位用戶提供基於Llama 3的聊天機器人服務,每秒處理3000個詞元。而在Jetson AGX Orin和Nano邊緣平台上,Llama 3的推理速度也可達到每秒15-40個詞元。

通過與Meta等合作夥伴的緊密協作,NVIDIA正在為開源AI社區注入强勁動力,推動大型語言模型在各行各業的應用落地,塑造AI的未來。

更多中時新聞網報導
00878漲到近4年高點 專家1招買到17元 漲跌都能買到「便宜價」
存股1表看》0056、00929等15檔ETF除息秀誰最甜?他倆豪配逾5元 2檔黑馬年化殖利率衝破11%天際線
父過世「剩下的退休金可領嗎」專家:1情況喊NO 但勞保這給付「就算拋棄繼承也能領」