

一項最新研究指出,從谷歌的Gemini到Anthropic的Claude,以至OpenAI最新推出的GPT-4o等所有生成式人工智能(AI)都會產生「幻覺」,亦即含有貌似事實的虛假或誤導性資訊,而且各個模型出現「幻覺」的頻率不同,其內容真偽取決於它們所接受訓練的資訊來源。
科技新聞網站TechCrunch報道,康乃爾大學、華盛頓大學和加拿大滑鐵盧大學研究員與非牟利研究所AI2最近進行研究,將GPT-4o等各個生成式AI模型,與法律、健康、歷史和地理等主題相關權威來源比較,展開幻覺基準測試。
研究發現,沒有一個模型在所有題目上表現出眾,一些模型出現最少幻覺的部份原因是拒絕回答可能出錯的問題。
研究作者之一、康乃爾大學博士生Wenting Zhao(音譯︰趙文婷)向科技網站TechCrunch表示,「這項研究的最重要收穫是,我們還不可以完全信賴模型所產生的結果。目前為止,即使最好的模型,也只能在35%的情況下產生無幻覺的文字。」
學術界曾出現其他針對AI模型「真實性」的研究,包括AI2附屬團隊。趙文婷提到,那些早期測試問模型的問題,相關答案都能輕易在維基百科上找到,而鑑於大多數模型都利用維基百科數據接受訓練,所以這不是最難問題。
在最新研究中,研究人員確定所問題目中超過一半無法在網上找到維基百科內容做參考,同時為了平衡,包括一些可能透過查找維基百科解答的問題,主題涉及包括文化、地理、天文學、流行文化、金融、醫學、電腦學和名人等。
研究員評估了10多種受歡迎AI模型,不少於去年推出。除了GPT-4o外,還包括開放式模型,例如Meta Llama 3 70B、Mistral的Mixtral 8x22B以及非開放式模型谷歌Gemini 1.5 Pro、Anthropic的Claude 3 Opus等。
研究人員稱,與名人和金融相關的問題對於AI模型似乎最困難,而關於地理和電腦科學的問題對於模型來說是最容易回答的,可能是因為他們的訓練資料包含更多對這些問題的引用。在答案來源不是維基百科的情況下,每個模型的平均答案都不太真實(尤其是 GPT-3.5 和 GPT-4o),這表明它們都深受維基百科內容的影響。
趙文婷預期,AI模型的出現幻覺「將持續很長時間」。本報訊