馬斯克資助的ChatGPT與AIGC,對內容生態的挑戰

Elon Musk創立的OpenAI基金會的最新聊天機器人ChatGPT,以其強大寫作、對話能力席捲了網路世界。ChatGPT是一種由人工智慧驅動的聊天機器人,它以一種令人信服的對話方式與用戶互動,ChatGPT對問題深思熟慮和全面的回答(即使不準確)令用戶震驚,包括學術界和科技產業。

該工具迅速走紅,週一,Open AI的聯合創辦人、著名的矽谷投資者Sam Altman在 Twitter上表示,ChatGPT的用戶已突破100萬。

知名的科技投資人Box執行長Aaron Levie也表示:「當一項新技術調整了你對運算的想法時,會有一種特定的感覺,Google、火狐、AWS、iPhone都做到了,OpenAI正在通過ChatGPT做到這一點」。

與其他人工智慧工具一樣,ChatGPT也可能擾亂創意產業、延續偏見和傳播錯誤資訊,如Stack Overflow暫時禁止用戶分享ChatGPT生成的回覆。

因為ChatGPT很容易與用戶互動,且可以快速生成大量回答,這讓網站充斥著許多第一眼看起來是正確的答案,但在仔細檢查後就能發現其中的錯誤。

因此,本文,我們將討論最近流行的AIGC工具ChatGPT及此類工具對內容生態審核制度的挑戰。

什麼是ChatGPT?

Generative Pre-trained Transformer (GPT),是一種基於互聯網可用數據訓練的文本生成深度學習模型。它用於問答、文本摘要生成、機器翻譯、分類、程式碼生成和對話AI。

廣告

2018年,NLP(自然語言處理)的預訓練模型元年,GPT-1 誕生,此時的GPT-1僅是一個語言理解工具而非對話式AI。

2019年,GPT-2採用更多的網路參數與更大的數據集進行訓練,此時的GPT-2展現出普世且較強的能力,並在多個特定的語言建模任務上實現了彼時的最佳性能。

隨後,GPT-3出現,作為一個無監督模型(自監督模型),幾乎可以完成自然語言處理的絕大部分任務,例如面向問題的搜尋、閱讀理解、語義推斷、機器翻譯、文章生成和自動問答等等。

GPT-3的出現,使人們看到了通用人工智慧的希望。

今天,ChatGPT的到來,也被視為文本生成器GPT-3的下一個迭代,為GPT-4到來拉開序幕。

ChatGPT是一種大型語言模型,通過大量線上資訊進行訓練並創建其響應,註冊ChatGPT後,用戶可以要求人工智慧系統回答一系列問題,這些問題包括開放性問題,例如生命的意義是什麼、加密貨幣值得投資、什麼是Hacker Movement等。

ChatGPT如何工作的?

談到ChatGPT的算法模型, 其前身InstructGPT仍值得關注。

2022年初,OpenAI發表了InstructGPT,開發人員通過結合監督學習+人類回饋強化學習,提高GPT-3的輸出品質。

在這種學習中,人類對模型的潛在輸出進行排序,強化學習算法則對產生類似於高級輸出材料的模型進行獎勵。

訓練數據集以創建提示開始,其中一些提示是基於GPT-3用戶的輸入,比如「解釋什麼是Hacker Movement」或「給一個小學生解釋Hacker」。

開發人員將提示分為三個部分,並以不同的方式為每個部分創建響應:

  • 人類作家會對第一組提示做出響應,開發人員微調了一個經過訓練的GPT-3 ,將它變成InstructGPT以生成每個提示的現有響應。

  • 下一步是訓練一個模型,使其對更好的響應做出更高的獎勵,對於第二組提示,經過優化的模型會生成多個響應,人工評分者會對每個回覆進行排名。在給出一個提示和兩個響應後,一個獎勵模型(另一個預先訓練的 GPT-3)學會了為評分高的響應計算更高的獎勵,為評分低的回答計算更低的獎勵。

  • 開發人員使用第三組提示和強化學習方法近端策略優化(Proximal Policy Optimization, PPO)進一步微調了語言模型,給出提示後,語言模型會生成響應,而獎勵模型會給予相應獎勵,PPO使用獎勵來更新語言模型。

ChatGPT和InstructGPT算法模型基本一樣,不同之處在於數據如何被收集和訓練。

  • InstructGPT :給一個輸入就給一個輸出,再跟訓練數據對比,對了有獎勵,不對有懲罰;

  • ChatGPT: 給一個輸入,模型給出多個輸出,然後人(AI訓練師)對輸出結果排序,讓模型使得這些結果從「更像人話」到「沒有邏輯」排序。

與其他AI聊天機器人不同,本著建構更加負責任的強人工智慧原則, ChatGPT可以回答後續問題、承認錯誤、挑戰不正確的問題並拒絕不適當的請求。

寫在這裡記起,科幻小說家阿西莫夫(Isaac Asimov)為機器人設定的行為準則「機器人三定律」:

  • 第一法則:機器人不得傷害人類,或坐視人類受到傷害;

  • 第二法則:機器人必須服從人類命令,除非命令與第一法則發生衝突;

  • 第三法則:在不違背第一或第二法則之下,機器人可以保護自己。

ChatGPT等AIGC工具對內容生態的挑戰

不可置疑的是AIGC對很多領域產生了積極的影響,例如文本創作、音樂創作、遊戲文本生成等。

隨著AIGC工具的成熟,其甚至可自主編程、拼接生成新的協議。

但,此類工具向內容生態提出一個全新的問題,就是如何應對AIGC的真實性。

以ChatGPT為例:

  • a) 在訓練的強化學習 (RL) 階段,對於問題,並沒有真相和問題標準答案的具體來源;

  • b) 訓練模型更加謹慎,可能會拒絕回答(以避免提示的誤報);

  • c) 監督訓練可能會誤導/偏向模型傾向於知道理想的答案,而不是模型生成一組隨機的響應並且只有人類評論者選擇好的/排名靠前的響應。

人工智慧生成的答案有數千個,而這些答案通常需要具有專業知識的人詳細閱讀,才能確定答案實際上是錯誤的,這些錯誤資訊很容易破壞以志願者為基礎的高品質問答社群。

紙質新聞時代,每個事實都必須包含權威的一手或二手資料來源,但現在已經很少有出版物有事實核查員,這就把責任推給了記者和編輯。

資訊爆炸時代,以人為媒介傳播的虛假資訊尚且讓審核機制「頭疼」,很難想像當人工智慧開始傳播虛假資訊,所帶來的挑戰,尤其是在這個輿論時常反轉的時代,只要一個消息聽起來合理,許多人就會認為這是正確的。

本文為金色財經授權刊登,原文標題為「馬斯克資助的ChatGPT與AIGC 對內容生態的挑戰