Arm宣布與Meta緊密合作,明年將有一千多億台Arm架構裝置支援AI

【財訊快報/記者李純君報導】Arm今日宣布,與Meta展開緊密合作,在Arm CPU上啟用新的Llama 3.2 LLM,整合開源創新與Arm運算平台的優勢,以應對AI帶來的挑戰。Arm提到,這類開放式合作是實現無處不在的AI創新、促進AI可持續發展的最佳途徑,預計到2025年,將有1,000多億台基於Arm架構的裝置支援AI。亦即,在Arm CPU上可運行Meta最新Llama 3.2版本,從雲到端的效能均獲得顯著提升,Meta與Arm的合作加快應用案例的創新速度,例如個性化的裝置端推薦以及日常任務自動化等,為未來AI工作負載提供支援。

Arm十年來始終積極投資AI領域,並廣泛開展開源合作,為1B至90B的各個LLM實現在Arm運算平台上無縫運行。且受惠於Arm的持續投資及與各新型LLM的合作, 在Arm CPU上運行AI的優勢在生態系中脫穎而出。

人工智慧的高速發展代表各種大型語言模型的新版本不斷推陳出新。要充分發揮AI的潛力並掌握因此而來的機會,需要實現LLM從雲到端的廣泛部署,其中也帶動了對運算和能源需求的大幅成長。整個生態系正攜手尋找因應此一挑戰的解決方案,不斷推出新的、且更高效率的開源LLM,以便大規模實現各種AI推論工作負載,加快為使用者帶來全新、快速的AI體驗。

小型LLM(如 Llama 3.2 1B和3B)能夠支援基於文本的基礎生成式AI工作負載,對於大規模AI推論的實現相當重要。Arm提到,Arm CPU在Arm技術驅動的行動裝置上運行新的Llama 3.2 3B LLM,可讓提示詞(Prompt)處理速度提高五倍,詞元(token)生成速度提高三倍,在生成階段實現每秒19.92個詞元。這將直接減少了在裝置上處理AI工作負載的延遲。此外,當邊緣端能處理的AI工作負載越多,往返雲端傳輸資料所節省的電量就越多,進而節省了能源和成本。

除了在邊緣端運行小型模型,更大的模型(如 Llama 3.2 11B和90B)也能在雲端運行。11B和90B的模型非常適合雲端基於CPU的推論工作負載,可生成文本和圖像,如同在Arm Neoverse V2上的測試結果顯示。在基於Arm架構的AWS Graviton4上運行11B的圖像和文本模型,可在生成階段實現每秒29.3個詞元的表現,遠遠超出人類大約每秒閱讀五個詞元的速度。