Google又炫技:派個AI,幫科幻大師劉宇昆把小說寫了

近幾年科技行業瘋狂加注超大規模語言模型,一個最主要的成果就是“人工智慧創造內容”(AIGC) 技術突飛猛進。兩年前 OpenAI 通過 GPT-3 模型展示了大語言模型的多樣化實力。而最近各種 AI 基於文字提示生成圖片的產品,更是數不勝數。

有趣的是,今年以來 AIGC 的風頭基本都被Stable Diffusion、Craiyon、Midjourney等“小玩家”給搶了——像Google這樣的 AI 巨頭,反而沒怎麼見動靜。

但其實Google並沒有“躺平”。

臨近年底,在11月2日早上,Google終於放出了大招。這家在 AI 研究上最久負盛名的矽谷巨頭,居然一鼓作氣發佈了四項最新的 AIGC 技術成果,能夠根據文字提示生成

高解析度長視訊3D模型音樂程式碼以及可控文字生成技術。

圖片來源:Google Research

“用 AI 賦能的生成式模型,具有釋放創造力的潛能。通過這些技術,來自不同文化背景的人們都可以更方便地使用圖像、視訊和設計來表達自己,這在以前是無法做到的,”Google AI 負責人 Jeff Dean 說道。

他表示,經過Google研究人員的不懈努力,現在公司不僅擁有在生成質量方面在行業領先的模型,還在這些模型基礎上取得了進一步創新。

Jeff Dean圖片來源:Google

這些創新,包括“超解析度的視訊序列擴散模型”——也即將AI“文生圖”擴展到“文生視訊”,並且仍然確保超高畫質晰度。

以及AudioLM,一個無需文字和音樂符號訓練,僅通過聆聽音訊樣本,就可以繼續生成填補樂曲的音訊模型。

從生成文字,到生成程式碼、音訊、圖片、視訊和3D模型,Google似乎正在證明 AIGC 技術的能力還遠未達到邊界,並且大有用武之地。

接下來,一起好好看看Google這次都放了哪些大招。

AI 寫作助手,深受劉宇昆喜愛?

說實話,看到Google做了一款 AI 寫作工具的時候,硅星人是略微有點擔心失業的……

但是瞭解了關於這款工具更多的情況之後,這種心情更多地轉化成了欣慰。

我們一直在強調AI背後的“大語言模型”技術背景。而Google推出的 LaMDA Wordcraft,就是這樣一款將語言模型核心功能發揮到極致的技術

LaMDA Wordcraft是在 LaMDA 大語言模型的基礎上開發了一個寫作協助工具,是Google大腦團隊、PAIR(People + AI Research)團隊,以及 Magenta 音訊生成項目組的合作結晶。

它的作用,是在創作者寫作的過程當中,根據現有的文字產生新 的想法,或 者幫助重寫已有文句,從而幫助創作者突破“創作瓶頸” (writer's block)。

Wordcraft 使用者介面圖片來源: Google Research

LaMDA 本身的設計功能很簡單:給定一個單詞,預測下一個最有可能的單詞是什麼,也可以理解成完形填空或者句子補完。

但是有趣的是,因為 LaMDA 的模型規模和訓練資料量實在是太大了(來自於整個網際網路的文字),以至於它獲得了一種“潛意識”的能力,可以從語言中學習很多更高層次的概念——而正是這些高層次概念,對於創作者的工作流程能夠帶來非常大的幫助。

Google在 Wordcraft 使用者介面中設計了多種不同的功能,能夠讓創作者自己調整生成文字的風格。“我們喜歡把 Wordcraft 比喻成‘魔法文字編輯器’,它有著熟悉的網頁編輯器的樣子,背後卻整合了一系列 LaMDA 驅動的強大功能,”Google網頁如是寫道。

你可以用 Wordcraft 重寫語句,也可以讓他把調節你的原始文字從而“更有趣”(to be funnier) 或者“更憂鬱” (to be more melancholy) 一點。

在過去一年時間裡,Google舉行了一個“Wordcraft 作家研討會”的合作項目,找來了13位專業作家和文字創作者進行了長期深入的合作,讓他們在自己的創作過程中借助 Wordcraft 編輯器來創作短篇小說。

值得注意的是,知名科幻作家劉宇昆(熱劇《萬神殿》背後的小說作者、《三體》英文版譯者)也參與了這一項目。

他在寫作過程中遇到了一個場景,需要描述在商店裡擺放的各種商品——過去此類寫作細節比較容易打亂寫作思路,但劉宇昆通過 Wordcraft 的幫助可以直接生成一個列表,節約了自己的腦容量,可以專心去寫對故事更重要的東西。

圖片來源: 新浪微博

而在另一個場景中,他發現自己的想像力被限制了,一直在重複熟悉的概念。於是他將“主動權”交給了 LaMDA,讓它來開頭,“這樣就能夠逼迫我探索一些從未想到過的可能性,發現新的寫作靈感。”

你可以在 Wordcraft Writers Workshop 的官方頁面(閱讀原文按鈕)中找到劉宇昆在 Wordcraft 幫助下撰寫的短篇小說 Evaluative Soliloquies。順便,他還借用 Imagen 為小說生成了幾張插圖:

圖片來源:Emily Reif via Imagen

超長、連貫性視訊的生成,終於被攻破了?

大家對於 AI 文字生成圖片應該都不算陌生了。最近一年裡,有 DALL·E 2、Midjourney、Stable Diffusion、Craiyon(不分先後)等知名產品問世;而Google也有自己的AI 文字轉圖片模型,並且一做就是兩個:Imagen(基於大預言模型和行業流行的擴散模型),和Parti(基於Google自家的 Pathways 框架)。

圖片來源:Google Research

儘管今年 AIGC 的熱鬧都被 Stable Diffusion 這些炸子雞給搶光了,低調沉穩的Google並沒有躺平。

當其他人都似乎“階段性”滿足於用文字提示做小圖片時,Google其實已經在加速往前衝了:它比任何人都更早進入了“文字生成高解析度視訊”,這一從未被探索過的複雜技術領域。

“生成高解析度,且在時間上連貫的視訊,是非常困難的工作,” Google Research 高級研究總監 Douglas Eck 表示。

“不過好在,我們最近有兩項研究,Imagen Video 和 Phenaki,可以解決視訊生成的問題。”

圖片來源:Google Research

你可以這樣理解:文字轉圖片就是根據一段文字提示來生成一張(或者多張平行的圖片),而 Imagen Video 和 Phenaki 是可以根據多條文字提示,來生成在時序上連貫的多張照片——也就是視訊。

具體來說,Imagen Video是通過文字生成圖像 的擴散模型,能夠生成具有前所未有真實度的高畫質畫面;同時由於建立在基於 Transformer 技術的大規模語言模型上,它也具備極強的語言理解能力。

而 Phenaki 則是完全通過大語言模型,在時序上不斷生成 token 的方式來生成視訊。它的優勢在於能夠生成極長(數分鐘)的視訊,且畫面的邏輯和視覺連貫性更強。

兩者結合,強強聯手,就得到了這樣一條清晰度高,視覺和邏輯上也更加連貫的視訊。

附:採用的文字提示一個藍色的氣球插在紅杉樹的樹枝上鏡頭從掛著藍色氣球的樹上移到動物園門口鏡頭快速移動到動物園內第一人稱視角:在一個美麗的花園內飛行長頸鹿的頭從旁邊冒出來長頸鹿走向一棵樹放大長頸鹿的嘴長頸鹿靠近樹枝,拿起一個藍色的氣球一個帶白線的藍色氣球向長頸鹿的頭部飛去長頸鹿在附近咀嚼藍氣球鏡頭隨著單個藍氣球的飛走而向上傾斜

“說句實在話,這個項目不是我做的,但我覺得它真的非常令人驚訝。”Eck 表示,這項技術最強大之處,就在於可以使用多條文字提示組成的序列,來生成超高畫質晰度的視訊,帶來一種全新的故事講述的能力。

“當然,AI 視訊生成技術還處在襁褓階段,我們非常期待跟更多影視專業人士以及視覺內容創作者合作,看他們會如何使用這項技術。”

Douglas Eck圖片來源: Google

無參考音訊生成

早年 OpenAI 發佈 GPT 初代模型的論文標題很經典:“Language models are few-shot learners”,點出了大語言模型在極少量樣本的基礎上,就可以在多種自然語言處理類任務上展現出強大的能力——同時, 這個標題預言了今後更強大的大語言模型,能夠做到更多更厲害的事情。

而今天,Google展示的 AudioLM 純音訊模型就驗證了這一預言。

圖片來源: Google Research

AudioLM 是一個具備“長期連貫性”的高品質音訊生成框架,不需要任何文字或音樂符號表示的情況下,只在極短(三四秒即可)的音訊樣本基礎上進行訓練,即可生成自然、連貫、真實的音訊結果,而且不限語音或者音樂。

用 AudioLM 生成的語句,在句法和語義上仍然保持了較高的可信度和連貫性,甚至能夠延續樣本中說話人的語氣。

更厲害的是,這個模型最初沒有用任何音樂資料進行訓練,結果卻十分驚人:能夠從任何樂器或樂曲錄音中進行自動“續寫”——這一事實,再一次展現出了大語言模型的真正實力。

下面的音訊是一段20秒左右的鋼琴曲,先聽聽感受一下:

實際上只有前4秒是給到模型的提示,後面都是 AudioLM自己“補完”的。而且也只有這一段4秒的音訊樣本,沒有“鋼琴”、“進行曲”等之類的專業文字提示作為補充。

“你不需要給它提供整段樂曲來學習,只要給它一小段,他就能直接在音樂的空間裡開始續寫——任何的音訊片段都可以,無論是音樂還是語音。”Eck 表示,這種無參考的音訊生成能力,早已超出了人們曾經對於 AI 創作能力的認知邊界。

其他 AIGC 技術、產品

除了上述新技術之外,Google還宣佈了在其他內容格式上的 AI 內容生成技術。

比如,在二維的圖片/視訊基礎上,Google還讓文字轉 3D 模型成為了現實。通過結合 Imagen 和最新的神經輻射場 (Neural Radiance Field) 技術,Google開發出了DreamFusion 技術可以根據現有的文字描述,生成在具有高保真外觀、深度和法向量的 3D 模型,支援在不同光照條件下進行渲染。

圖片來源:DreamFusion: Text-to-3D using 2D Diffusion (dreamfusion3d.github.io)

以及,Google在今年 I/O 大會上面向公眾推出的嘗鮮應用 AI Test Kitchen,也將在近期更新加入 LaMDA 模型創新所解鎖的新功能。比如“城市夢想家” (City Dreamer) 來用文字命令建造主體城市,或者“Wobble”來創造會扭動的卡通形象等。

使用者可以在對應系統的應用商城中下載 AI Test Kitchen,並且前往Google網站申請測試資格,實測審批速度挺快。

AI Test Kitchen 支援 iOS 和 Android 系統/圖片來源:Google、蘋果

“我們在神經網路架構、機器學習演算法和應用於機器學習的硬體新方法方面取得的進展,幫助 AI 為數十億人解決了重要的現實問題,”Jeff Dean 表示。

“更多的進展即將到來。我們今天分享的是對未來充滿希望的願景:AI 正讓我們重新想像技術如何能夠帶來幫助。”

註:封面圖來自於Google,版權屬於原作者。

本文來自微信公眾號“硅星人”(ID:guixingren123),作者:光譜 杜晨,編輯:VickyXiao,36氪經授權發佈。

本文經授權發布,不代表36氪立場。

如若轉載請註明出處。來源出處:36氪