AI搜尋真的可靠? 研究實測8工具「6成都答錯」 這款最糟錯9成

由哥倫比亞大學新聞學研究所成立的陶氏數位新聞研究中心,日前發表研究顯示,人工智慧搜尋引擎大多數時候都是錯誤的,當被問及新聞文章的正確引用時,它們會向用戶提供錯誤的資訊和答案,就連目前最受歡迎的生成式AI搜尋工具包含ChatGPT、DeepSeek等同樣表現不好,整體而言超過6成的問題答案完全錯誤。

陶氏數位新聞研究中心從20家新聞機構隨機選取200篇文章(每家10篇),確保每篇文章摘錄的內容在傳統Google搜尋中,都能在前三個結果中找到原始來源,研究人員向每個AI搜尋工具提供這些摘錄,要求識別對應文章的標題、原始發布來源、發布日期和網址,並且對準確性進行評分,結果表現並不理想。

研究顯示,目前最受歡迎的生成式AI搜尋工具普遍表現不佳,整體而言超過6成的問題答案都錯誤,受測工具共有8款,包括ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search和Copilot。

根據研究顯示,在所有測試工具當中以Perplexity表現最佳,但回答錯誤率仍有37%,表現最差的則是Grok 3,回答錯誤率高達94%。研究團隊強調,「總體來說,聊天機器人通常無法檢索到正確的文章,在不同的平台上,錯誤程度也不同。」

值得一提的是,AI工具在提供錯誤答案時,很少使用「可能」、「似乎」等詞彙,總是以斬釘截鐵的說法來提供內容,也很少坦承訊息量不足,因此可能存在誤導用戶的風險,例如ChatGPT在200個回應中,僅15次表示缺乏信心,但從未拒絕提供搜尋答案。

研究團隊還發現,某些AI搜尋工具的「付費服務」,錯誤率比免費版更高,例如付費版本Perplexity Pro(每月大約新台幣639元)或是Grok 3(每月大約新台幣1278元)雖然比免費版答對更多問題,但整體錯誤率反而更高,主因在於傾向提供明確但錯誤的答案,而非拒絕回答,因此認為付費AI模型能享受更卓越的運算能力以及精確性,這種觀念可能是錯誤的。

研究也顯示,AI搜尋工具提供的網址準確度也不佳,例如超過一半來自Gemini和Grok 3的回應引用虛構或損壞的網址,導致錯誤頁面,即使在正確識別文章時,也經常連結到虛構的網址。

根據該研究團隊說法,曾經針對報告內容聯繫過這些AI工具的開發企業,只有 OpenAI和微軟做出回應,但都沒有回應有關報告發現的問題。

(封面示意圖/Pexels)

更多東森財經新聞報導

遺傳老爸? 黃仁勳女兒黃敏珊GTC演講「揪團逛夜市」

堵新青安亂象! 台銀、土銀揪出逾3千違規戶

最新「老黃概念股」出爐! 黃仁勳狂讚矽光子:瘋狂的科技