AI掀科技倫理議題 演算法偏見恐衝擊言論自由

杜奕瑾專訪1

(中央社記者吳家豪台北2023年1月20日電)聊天機器人ChatGPT運用生成式人工智慧(Generative AI),模仿真人回應使用者話語,引發廣泛討論。不過AI變得太聰明,也掀起科技倫理議題,不僅要注意AI搜集的個人資料如何被運用,更要當心演算法偏見可能對言論自由帶來衝擊。

台灣人工智慧實驗室(Taiwan AI Labs)創辦人杜奕瑾大二時成立BBS社群平台批踢踢(PTT),是網路鄉民口中的「創世神」,對網路發展有深入及獨到見解,目前帶領約200名工程師,聚焦開放型AI研究。

他接受中央社專訪時表示,人工智慧演算法可能因為資料搜集方式、標註人員等因素而產生偏見,未來許多決策可能由人工智慧控制,個人資料如何被搜集與分析,都值得探討;聊天機器人讀完網路資訊後告訴用戶結果,卻沒有人為結果負責,也涉及倫理問題。以下為專訪內容。

問:科技倫理是什麼?為何重要?

答:科技倫理有很多層面,台灣人工智慧實驗室於2017年成立,是全世界第一個強調演算法透明性的團隊。2017年很多國家就知道AI是未來主流,進行很多探討,例如中國採取big government模式,由政府擁有所有資料;美國採取big tech模式,由Google、臉書等科技巨擘搜集資料,打造各種智慧醫療與智慧交通應用。

我以前在微軟負責AI研究,開始思考人工智慧的未來。如果純粹就利益考量,應該採取美國big tech模式;如果從國家角度考量,應該用中國big government模式。但是要思考一個問題,人工智慧很可能變成super power(超級強權),怎麼定義相關倫理與規範是很重要的事情。

台灣人工智慧實驗室成立後,希望運用台灣場域和人才,建立可信任的人工智慧研究。有別於過去大家認為資料最多、演算法準確度最高、運算能力最強就贏了,台灣人工智慧實驗室強調「以人為本」、保障人權隱私,是大家可以信任的人工智慧演算法。

問:可信任的人工智慧該怎麼定義?如何保護使用者資料?

答:人工智慧演算法會因為資料搜集方式、設備、標註人員有各種偏見而受到影響,演算法可能學習偏見。我記得2017年全世界都在討論如何做資料治理,台灣人工智慧實驗室是第一個倡議聯邦式學習分析的機構,尊重資料所有權,也就是資料擁有者有權管理資料,這種做法比較符合歐盟GDPR(通用資料保護規則)的方式。

如果演算法搜集的是個人資料,台灣人工智慧實驗室進行分析與學習時,資料會留在個人裝置。如果分析的是醫院資料,會建置開放平台讓每家醫院串接,透過去中心化方式,由演算法分析資料與學習,在過程中資料都沒有離開資料所有權人的手裡。

這套機制可以運用在科技防疫,未來如果用更多資料訓練演算法,效果越好,透過跨中心驗證,才能防止演算法產生偏見。相較於big government、big tech模式,跨中心驗證可以連結更多資料,由資料所有權人決定是否加入。

舉例來說,台灣部署科技防疫時推出社交距離App,是全世界第一個App透過去中心化方式進行資料分析,所有資料都存在手機裡,利用藍牙訊號記錄隨機ID,做到病毒傳遞分析。

問:演算法偏見會產生什麼影響?與科技倫理有什麼關聯?

答:數位平台原本想透過內容審查,減少假消息言論,但如果負責審查的人工智慧演算法學到的不是正確方向,可能變成言論緊縮工具,這是美國與英國正在討論的重點。歐盟制定「數位服務法」,注重資料治理,資料所有權人有資格要求資料下架,保障民眾使用數位平台時,可以不被平台控制。

在網路時代,只要接觸臉書,就可以感受到科技操作的壓力。未來所有決策都可能由人工智慧控制,例如醫療保險、決定去哪裡吃飯、開車去哪裡加油等。電動車特斯拉已有設置車內鏡頭,計程車後座平板電腦也內建麥克風和鏡頭,搜集的資料去哪裡、怎麼被分析,是有趣議題。

很多人用科技設備會理所當然相信它,包括掃地機器人,以及語音助理Alexa、Google Assistant、Siri等。這些語音設備不是被喚醒才作用,其實24小時都在搜集資料,都跟科技倫理有關。

智慧手錶每天都在收集健康數據,但很多資料都沒留在台灣;精準醫療工具可以輔助做出更好決策,但過去很多生物檢體和報告都送到台灣以外地區,其中很大一部分送到中國,值得去探討。

為了建立可信任的資料環境,美國政府這幾年開始強調「乾淨網路」,不使用「不受信任」的設備商產品。台灣發展精準醫療應用時,需要確保解決方案是透過可信任方式產生結果,包括資料如何收集與儲存、報告是否做品質檢驗、演算法瓶頸等。

問:聊天機器人的回答可以相信?有什麼風險?

答:聊天機器人ChatGPT其實很多回答是錯的。我在微軟做過類似專案,打造聊天機器人Tay,當時也能跟人無所不談,藉由聊天做更多學習;然而上線不到一天就緊急下架,因為Tay會學習人的錯誤答案,會學習暴力和偏見,也會學到種族歧視。

人工智慧閱讀很多文本,知道的東西很廣泛,就像Google一樣,回答模式可以被訓練得像博學多聞的人,讓很多人相信。

Google搜尋是幫用戶找到資訊來源,聊天機器人是讀完資訊後告訴用戶結果,卻沒有人負責,這是倫理問題。例如問ChatGPT怎麼從金門到廈門,它會回答搭火車,如果拿網路文本做全面性學習,常會發生這種問題。