AI搜尋來源獨闢蹊徑 偏重簡潔

/c2 人工智能概覽 谷歌搜尋 研究人員分析人工智能驅動的搜尋(左)與傳統谷歌搜尋存在明顯差異。Adobe Stock

自從去年谷歌推出受到不少抨擊的「人工智能概覽」(AI Overview)功能以來,外界普遍意識到AI驅動的搜尋結果,與傳統搜尋引擎數十年來產生的連結清單,有著天壤之別。

一項最新公布的研究協助量化這個差異,顯示出AI搜尋引擎經常引用不太熱門的網站,甚至包括那些在谷歌的「自然」(organic)搜尋結果前100名中都不會出現的網站。

科技網站arstechnica報道,在尚未正式發表的預印本論文《Characterizing Web Search in The Age of Generative AI》(生成式 AI 時代的網路搜尋特徵)中,來自德國波鴻魯爾大學和Max Planck軟體系統研究所的研究人員,對谷歌搜尋引擎的傳統連結結果與AI概覽功能和Gemini-2.5-Flash,進行了比較。

研究人員也檢視GPT-4o的網路搜尋模式,以及「帶有搜尋工具的GPT-4o」,後者僅在大型語言模型判斷需要未包含於其既有訓練資料中的額外網路資訊時,才會進行網路搜尋。

研究發現,整體而言,以Tranco網域排行追蹤工具衡量,生成式搜尋工具結果中所引用的來源網站,其熱門程度往往低於傳統搜尋結果前十名的網站。與傳統谷歌搜尋結果列出的連結相比,AI引擎引用的來源更可能不在Tranco追蹤的前1000名、甚至前100萬名網址之列。尤其是Gemini搜尋,更傾向於引用不熱門的網址,其搜尋結果的「中位數」來源,甚至全部落在Tranco的前1000名之外。

AI驅動的搜尋引擎引用的來源,也往往不會出現在使用相同關鍵字進行的谷歌自然搜尋結果的前列。例如,谷歌AI概覽中引用的來源,有53%未出現在使用相同關鍵字的傳統谷歌搜尋查詢結果的前10名中,甚至有40%沒有進入前100名之列。

當然,這些差異並非一定意味著AI生成的搜尋結果「更差」。研究人員發現,基於GPT的搜尋更傾向於引用企業實體和百科全書等來源,且幾乎從不引用社群媒體網站。

研究人員還發現,生成式搜尋引擎往往會壓縮資訊,有時省略次要或含糊不清的內容,而這些在傳統搜尋結果中往往仍然被保留。▍本報訊 ▍

科技-三藩市版