ChatGPT一小時之內手把手寫出好論文

文 / 柳子厚

在 ChatGPT 的幫助下,兩位科學家在不到一個小時的時間內寫出了一篇研究論文。ChatGPT 是一種由人工智能 (AI) 驅動的工具,可以理解並生成類似人類的文本。這篇文章流暢、富有洞察力,並以科學論文的預期結構呈現,但研究人員表示,在該工具真正發揮作用之前,還有許多障礙需要克服。傑瑪·康羅伊(Gemma Conroy)發表在《自然》(Nature)上的<科學家們使用 ChatGPT 從頭開始生成整篇論文 - 但這有什麼好處嗎?>(Scientists used ChatGPT to generate an entire paper from scratch — but is it any good?)說,通過在每一步都握著聊天機器人的手,研究人員寫出了一篇流暢且富有洞察力的論文。但他們仍然心存疑慮。(By holding the chatbot’s hand at every step, researchers produced a paper that was fluent and insightful. Yet they still have concerns.)。

一篇有關糖尿病水果和蔬菜消耗以及體力活動的論文

位於海法的以色列理工學院的生物學家兼數據科學家 Roy Kishony 表示,我們的目標是探索 ChatGPT 作為研究「副駕駛」的能力,並引發關於其優勢和缺陷的爭論。他說:「我們需要討論如何才能獲得好處,同時減少壞處。」

Kishony 和他的學生 Tal Ifargan(同樣在以色列理工學院工作的數據科學家)從美國疾病控制與預防中心的行為風險因素監測系統(與健康相關的電話調查數據庫)下載了公開數據集。該數據集包括從超過 250,000 人收集的有關糖尿病狀況、水果和蔬菜消耗以及體力活動的信息。

研究人員要求 ChatGPT 編寫代碼,用於發現數據中的模式,以便進一步分析。在第一次嘗試時,聊天機器人生成的代碼充滿了錯誤並且無法工作。但當科學家們轉發錯誤消息並要求它糾正錯誤時,它最終生成了可用於探索數據集的代碼。

它生成了虛假引用和不準確的信息

有了更結構化的數據集,Kishony 和 Ifargan 隨後請求 ChatGPT 幫助他們制定研究目標。該工具建議他們探索身體活動和飲食如何影響糖尿病風險。一旦生成更多代碼,ChatGPT 就會得出結果:多吃水果和蔬菜以及鍛煉可以降低患糖尿病的風險。然後,ChatGPT 被提示在表格中總結主要發現並寫出整個結果部分。他們一步步要求 ChatGPT 寫一篇稿件的摘要、引言、方法和討論部分。最後,他們要求 ChatGPT 完善文本。「我們根據許多提示的輸出撰寫了(這篇論文),」基肖尼說。「每一步都是建立在之前步驟的產品的基礎上的。」

Kishony 表示,雖然 ChatGPT 生成了一份清晰的手稿和可靠的數據分析,但這篇論文遠非完美。研究人員遇到的一個問題是 ChatGPT 傾向於通過編造事實來填補空白,這種現像被稱為幻覺。在這種情況下,它生成了虛假引用和不準確的信息。例如,論文指出,這項研究「解決了文獻中的一個空白」——這句話在論文中很常見,但在本例中並不准確,耶路撒冷希伯來大學的計算機科學家湯姆·霍普 (Tom Hope) 表示。他說,這一發現「不會讓任何醫學專家感到驚訝」。「這離小說還差得遠。」

製造假論文如此容易,我們就可能需要做更多的事情了

Kishony 還擔心,這些工具可能會讓研究人員更容易從事不誠實的行為,例如P -hacking,即科學家在數據集上測試多個假設,但只報告那些產生顯著結果的假設。他補充說,另一個擔憂是,使用生成式人工智能工具生成論文的便利性可能會導致期刊充斥著低質量的論文。他說,他的從數據到論文的方法,以人為監督為每一步的核心,可能是確保研究人員能夠輕鬆理解、檢查和複製方法和發現的一種方法。阿德萊德南澳大利亞大學開發人工智能教育技術的維托米爾·科瓦諾維奇 (Vitomir Kovanović) 表示,研究論文中需要提高人工智能工具的可見度。他說,否則,將很難評估研究結果是否正確。「如果製造假論文如此容易,我們將來可能需要做更多的事情。」

馬薩諸塞州劍橋市麻省理工學院和哈佛大學博德研究所的計算生物學家 Shantanu Singh 表示,生成式人工智能工具有潛力通過執行簡單但耗時的任務(例如編寫摘要和生成代碼)來加速研究過程。他說,它們可能用於從數據集生成論文或提出假設。但由於研究人員很難發現幻覺和偏見,辛格說,「我認為寫整篇論文——至少在可預見的未來——不會有特別好的用途。」