瞄準Sora 中國「國產最強」影音大模型Vidu 真有那麼強嗎?

中國大模型領域的熱門話題,又重新回到影音模型上,一家公司被認為做出了「最強國產 Sora」。

上周六(27 日)中關村論壇未來人工智慧先鋒論壇上,生數科技與清華大學發布了具有「長時長、高度一致性、高動態性」性能標簽的影音大模型 Vidu,可根據文本描述直接生成長達 16 秒、分辨率達 1080P 的高畫質影音內容。

高一致性是團隊著重強調的特點。清華大學人工智能研究院副院長、生數科技首席科學家朱軍表示,目前中國影音大模型的生成影片時長大多 4 秒左右,Vidu 可一次性生成 16 秒的影片。

影片畫面也能保持連貫流暢,隨著鏡頭移動,人物和場景在時間、空間中能保持高度一致性。

在動態性方面,Vidu 的動態鏡頭在推、拉、移之外,開始涉及一段畫面中遠景、近景、中景、特寫等鏡頭的切換,以及直接生成長鏡頭、追焦、轉場效果。

物理規律方面,朱軍說,Vidu 可以模擬真實物理世界中細節複雜且符合物理規律的場景,例如合理的光影效果、細膩的人物表情等,還可生成具有深度和複雜性的超現實主義內容(例如「戴珍珠耳環的貓」)。

《界面新聞》指出,目前 Vidu 對外公布的時長上限是 16 秒,Sora 最大時長則是 1 分鐘。今年 2 月 Sora 推出後,生數科技內部成立了攻堅小組,加快研發腳步。今年 3 月,內部實現 8 秒的影片生成,並在 4 月提升到 16 秒生成,但 Vidu 團隊未公布更多技術突破的細節。

從已有訊息來看,技術路線上,Vidu 採用自研 U-ViT 架構,與 Sora 一樣是 Diffusion 和 Transformer 的融合架構。這種架構不採用插幀的多步驟處理方式生成影片,而是透過單一步驟「端到端」直接生成內容,從文本到影片的轉換,直接且連續。

廣告

這意味著,Vidu 同樣繞不開模型訓練的 Scaling Law(規模法則),需要不斷堆積更大參數和更多算力。

算力限制之外,一名有多模態大模型訓練經驗的創業者表示,生成數據的差距,是中國影音大模型與 Sora 之間的重要差別。影音大模型需要蒐集大量數據,是一個逐漸細化和確定的過程,需要一定時間。

因此,生數科技在兩個月內有如此提升,已經是算法和工程能力上的突破,但生數科技想在同等性能表現下追平 Sora 的 1 分鐘時長,真正做到全面對標 Sora,必然還有較長的一段路要走。

「16 秒跟 1 分鐘,看起來大概差四倍,但中間的誤差累計到後面可能不只是四倍的算力或者工程能力能彌補的。」一名大模型領域投資人說。

更多鉅亨報導