《大陸產業》視障人士福音? 阿里宣布AI新模型可提供即時語音導航

【時報-台北電】大陸阿里巴巴27日凌晨發布「通義千問」系列最新的人工智慧(AI)旗艦模型,稱新系統在語音理解和生成方面性能特別高,除可處理文本、圖片、聲音和影片,還可以直接在手機和筆記型電腦上運行。中國大語言模型的競爭在 「DeepSeek時刻 」後持續升溫。

據阿里雲網站公告,新的Qwen2.5-Omni-7B是一個端到端全模態大模型,相比傳統單模態或分離式多模態模型,其具備更強的跨模態融合能力,不僅能識別語音情緒,還能實現更智慧、更自然的多感官交互,向通用人工智慧(AGI)邁出關鍵一步。

這意味著Qwen2.5-Omni-7B可以處理輸入,支持文本、圖像、影音輸入,即時輸出文本與自然語音,能夠理解跨模態資訊,打破模態壁壘。此外,模型體量小,易部署,家用電腦即可運行,讓全模態AI真正觸手可及。

阿里雲表示,該模型可以部署在手機等邊緣裝置,在不影響性能的情況下提供高效率。而目前公開發布於Hugging Face和GitHub的新模型將被用於構建所謂的AI智慧體,譬如可以透過即時語音描述,幫助視障人士確定他們周邊的狀況。

美國CNBC報導,在大陸AI公司「深度求索」(DeepSeek)將其突破性的R1模型開放原始碼之後,在網路上免費提供原始碼以供修改成為中國大陸日益增長的趨勢。阿里雲表示,過去幾年,阿里雲已經開源了200多個生成式AI模型。

而在DeepSeek加速的中國AI熱潮中,阿里巴巴和其他生成式AI競爭者一直在以前所未有的速度發布新的、高CP值的模型和產品。大陸科技巨頭百度上周發布了一個新的多模態基礎模型和首個以推理為重點的模型。(新聞來源:中時即時 朱紹聖)