我見我思-DeepSeek事件 大陸精準反擊

中國大陸人工智慧企業「深度求索」(DeepSeek),一月下旬發表DeepSeek R1的AI模型,由於其表現極為優異,且開發成本極為低廉,直追美國引以為傲的最先進AI模型,隨即震驚全球科技圈,引爆美股驟跌。該模型除了彰顯技術面的創新之外,還隱含了美中二國的濃濃的政治面的攻防,可謂大陸是在美國圍堵大陸AI發展下,所策劃的精準反擊。

近年來人工智慧技術快速發展,也成為美、中兩大強權競爭的重要舞台,美國在AI相關領域發展快速,各大模型快速推出並迭代更新,硬體方面美商輝達(Nvidia)亦獨霸AI晶片市場8成市占率,儼然已建立AI霸權。

不料,一家大陸AI新創企業,竟打亂了整個戰局。幻方量化(High-Flyer)對沖基金在2023年5月成立的DeepSeek,去年12月26日推出V3通用模型,宣稱僅用550萬美元訓練成本,就取得佳績。

相隔不到一個月,該公司於今年1月20日再度發布推理模型R1,表現更上一層樓,在前述排名晉升第三,與頂尖推理模型OpenAI的o1模型並列。測評機構Artificial-Analysis對R1的初始基準測試結果也顯示,其在AI分析質量指數中取得第二高分,價格約是o1的30分之1。

DeepSeek-R1橫空出世,被矽谷知名創投家Marc Andreessen將出現描述為「斯普特尼克時刻」(Sputnik Moment),顯示該模型已然對美國產生劇烈的衝擊。更值得關注的是,該事件不僅是大陸有可能在AI產業彎道超車,政治上的叫板亦鑿鑿有據。首先是,發布時機刻意挑選在在美國川普總統發表就職演說之際,推出革命性的新模型,有極大的宣示意義。

其次,打破美企主導的AI模型「野蠻擴張」定律。在2025年之前,無論是美國抑或是中國AI模型發展的主流,均迷信「大力出奇跡」模式,唯有透過提高算力與模型規模化,始能推動AI模型的進步,故各大LLM開發者無不持續投入巨大的投資,購置先進晶片強化算力,擴大模型規模並提供更多數據進行訓練,新模型訓練成本動輒上億美金,逾10億美金已不意外,AI新創Anthropic執行長Dario Amodei,甚至預測三年後,訓練成本恐達千億美元之譜,川普5千億美元「星際之門」計畫也是源自此一邏輯下的產物。然而,規模化雖然讓AI模型效能持續提升,但已出現邊際效益遞減的現象。

AI學術界與產業界嘗試以不同的路徑,開發新的AI模型,大陸在美國AI晶片出口管制下,無法獲得Nvidia的最先進人工智慧晶片,目前僅能購買降規版晶片,大型陸企或許還能利用庫存的晶片或是透過地下管道取得,後進新創企業不得不另闢蹊徑。R1模型的成功證明規模化並非AI發展的唯一途徑,得以仿效AlphaGo Zero的強化式學習(reinforcement learning)與知識蒸餾(knowledge distillation)等方式,創造一流的模型。

最後,DeepSeek發表技術論文,公開模型部分技術、權重、架構、評比、研發過程等細節,並以開源方式免費供公眾使用、共享和修改。此舉非但是彰顯對於該模型的高度自信,不擔心各界的檢視:更相當程度諷刺OpenAI,宣稱為造福全人類為核心目標的非營利組織,卻採取閉鎖式模型。

更多工商時報報導
工商社論》論海外就業劇減二十多萬人的迷思
遠端商機+蘋果訂單 創惟11月自結獲利 年增226%
業者怨:打炒房變成打建商