【GTC 2023】黃仁勳對談 OpenAI 首席科學家:ChatGPT 怎麼訓練的?GPT-4 有多強?

Nvidia 執行長黃仁勳(Jensen Huang)在 GTC 大會上與 OpenAI 共同創辦人暨首席科學家蘇茨克維(Ilya Sutskever)進行了一場對談,談到了過去蘇茨克維在人工智慧的研究歷程,以及如何訓練出 ChatGPT?而最近發表的 GPT-4 又有多強?

這一切的起點,來自於 2002 年的時候,電腦是完全無法學習的,學習是只有生物才能做到的事情。如果能讓電腦學習,那麼一切將會有很大的進展,可是當時連理論上到底能不能做到,都不清楚。

電腦到底能不能學習?

但年輕的蘇茨克維仍然決定投入其中,第一步就是在大學找到教授(Jeff Hinton),開始從神經網路(Neural Networks)技術去著手,因為跟人類大腦的運作最接近。

蘇茨克維在對談中,覺得自己非常幸運,因為事後才知道,這條路走對了,但有趣的是當時研究者根本還不知道規模的重要性,訓練的神經網路達到幾百個,就已經叫做大型神經網路了,分析用的還是 Matlab,電腦的 CPU 程式碼也沒有優化過,簡單來說即便是走對方向,一開始仍然是相當土法煉鋼。

後來開始發現,像是 ImageNet 這麼大的資料對訓練很有幫助,並且在 Jeff Hinton 的提醒下,也嘗試使用 GPU,做出兩個跟別人不一樣的嘗試,才開始有了很大的進展。

接著,蘇茨克維在 2016 年跟一群朋友一起創辦了 OpenAI,他負責領導科學研究,團隊科學家主要是從 Google/Deepmind 來的少數幾個人而已,不過當時確認了兩件事情,一個是透過壓縮進行無監督學習,一個是強化學習,一直到現在都是團隊的核心方向。

廣告

OpenAI 創立後的第一個大型專案,目標是在一個即時戰略遊戲中打贏,這樣的事情像是在走彎路,但當時透過遊戲取得強化學習的成就,後來對 ChatGPT 的開發扮演很重要的角色,讓 ChatGPT 可以從人類的回饋中學習,變得更有用。

ChatGPT 絕對不只是大型語言模型,兩步驟練成可用助手

ChatGPT 真正在做的事情是預測下一個字是什麼,這是最基本的概念。事實上 ChatGPT 不只是一個大型語言模型,周圍有一群非常複雜的系統在支持,才能讓它順利運作、提供我們需要的協助。

蘇茨克維表示,當我們訓練一個大型神經網路來精準預測許多不同文本的下一個字,我們正在做的事情,其實是讓神經網路學習一個世界模型,而這個學習的行為,表面上看起來像是在學文本中的統計相關性,但是就算只是學習統計相關性,仍然可以把這些知識「壓縮」得非常好。

神經網路真正學到了生成文本過程中的一些表達上,實際上是對這個世界的一個映射。它所理解的世界,會透過文字呈現出來。所以神經網路在學習的過程中,就是從越來越多的角度來看待這個世界、人類和社會, 它看到了人們的希望、夢想、動機、互動和所處情境, 神經網路學到了一個壓縮過、抽象、而可用的表達方式。

當神經網路能夠越準確預測出下一個字,得到的世界解析度也就越高,這就是預訓練(pre-train)階段的作用。但這並不能讓神經網路展現出我們希望它能夠表現的行為, 一個語言模型真正要做的遠高於這個狀態。

蘇茨克維舉例說明,如果下一個提示(prompt),像是問一個問題,語言模型可能只是隨機使用網路上的文本來補全和回答。這也是目前其他大型語言模型所處的階段,所生成的內容不但有版權問題,還可能因為內容不精準而根本幫不上忙。

這跟我們想要一個「助手」做的事情完全不一樣,助手要能夠做到真實地、有幫助地、遵循某些規則,那還需要額外訓練,這就是微調(fine tuning),以及來自人類老師的強化學習(Reinforcement learning)。第二階段做得越好,這個神經網路就越有用、越可靠。

所以第一階段是學習所有事情,盡可能地從世界的知識,學習到對這個世界的映射。第二階段是跟神經網路持續溝通,讓它知道我們想要的樣子,包括邊界在哪裡,那麼就可以精準判斷哪些事情對、哪些事情錯。而結果就是生成的結果越來越可靠、越來越精準。

GPT-4 和 ChatGPT 最大的差異是什麼?

黃仁勳問到剛發表的 GPT-4 和 ChatGPT 有什麼差異?蘇茨克維表示,GPT-4 在預測下一個字有明顯高非常多的準確度。神經網路越能精準預測文本中的下一個字,就代表它越能理解這個文本,而且是真正的理解。

蘇茨克維舉例,假設你讀一本偵探小說,裡面有複雜的劇情、多元的情節、豐富的角色人物和許多隱藏的神秘線索。在書的最後一頁,偵探站出來召集所有人,揭發到底是誰犯罪,那個人的名字是:___。這就是要精準預測的字,而 GPT-4 做得非常好。這就是我們說,越能精準預測文本中的下一個字,就代表它越能理解這個文本。

黃仁勳繼續問,GPT 能不能推理?蘇茨克維則回答可能要先定義什麼是推理?基本上這是一個預測下一個字的語言模型,在前面所說的第二階段沒做好的情況下,後面會產生「幻想」,也就會造成這個系統生成的結果不可靠,這會隨著時間改善。

許多人都有這樣的經驗,問 ChatGPT 一個問題,它會先把它知道的講一遍,然後再輸出它的答案,這會讓人覺得它有推理能力,而且很可信,但是邏輯推理能力並不是這個模型內建的功能。

蘇茨克維也提到,很多人會去破解,要 GPT-4 去檢索又長又複雜的文本,其實這也不是模型內建的功能,但是 GPT-4 容許的上下文持續數量已經比 ChatGPT 增加很多了,這讓檢索的功能在 GPT-4 已經完全實現,即便模型根本沒有這樣的功能,而且也因為它能做到檢索,反過來增強了很多它可以做到的事情。

多模態模型讓 GPT-4 變更強,而且還在進化中!

正如前面所說,模型的能力與對世界的理解程度相關,而 GPT-4 已經是多模態(MultiModal)的模型,也就是它的學習不只是文字,還有影像,甚至是聲音,因此對世界的理解程度更高,這就是為什麼能力也越強。

為什麼多模態的訓練很重要呢?蘇茨克維解釋,因為這是視覺的世界,人類是視覺的動物,所以只能從文字學習的神經網路雖然已經很強大了,但它絕對可以達到更高的境界。

而 GPT-4,可以「看」得很清楚。此外,透過視覺來學習這個世界的知識,才能學到更多。人類一輩子可以「聽」到的訊息,大概是十億個字,這是很少的資訊量,但我們可以透過視覺學習到更多非文字化的資訊,神經網路也是一樣。

甚至,對於問題的理解程度,也會在視覺上有很大的進展,例如為什麼美國高中數學的考試,ChatGPT 考得很差?因為有很多圖表,而 GPT 3.5「看」不到,但 GPT-4 就沒問題了。

這也意味著在不久的將來,當你問問題的時候,GPT-4 可以不必再用四段文字很複雜的說明給你看,而能夠透過視覺,以一張很精準的圖表就讓你了解它的解釋,視覺的生成將會是非常強大的能力。

蘇茨克維感嘆,在過去 20 年的努力之下,終於催生了 GPT-4,他最感到驚訝的地方是:這東西真的有效,能在生活上和工作上實際幫得上忙了。但是到底是怎麼做到的呢?人類大腦有神經元,也許人工的神經元也一樣好,我們只要找對方法訓練這些人工神經元,就能把它們的參數調整到精準無比,讓人難以置信。

人工智慧學習能力爆發了,那人類呢?

蘇茨克維從 ImageNet一 直研究到 GPT-1、2、3,然後開發出 ChatGPT、GPT-4,見證了人工智慧技術的演變。在過程中,他開始好奇到底「意識」是什麼?人類的體驗又是什麼?而人工智慧的發展就像是嬰兒長大的過程,也讓我們可以更理解這些問題的本質。

近期的人工智慧技術發展,像是開了 Turbo 一樣迅速爆發,但這也讓我們意識到了人類現在可以反過來跟人工智慧學習怎麼學習,並且透過人工智慧讓我們也進入能力爆發的階段。

 

核稿編輯:陳涵書

《商益》主張「商業是最大的公益」,報導專注於讓讀者理解資本力量、商業本質以及財經語言。歡迎加入 Discord 社群,並免費註冊訂閱商益電子報

 

延伸閱讀:
OpenAI 發表 GPT-4,五大強項輾壓競爭對手,兩種方式先試用!
Nvidia:全球第八大市值、壟斷 AI 運算的晶片設計公司