[featured_region_buttons]

AI為何總玩「太聰明」?研究揭示其對人類的誤判

2025 年 12 月 26 日

根據俄羅斯國立高等經濟大學(HSE University)科學家的一項最新研究,當前的人工智能(Artificial Intelligence)模型,包括 ChatGPT 和克勞德(Claude),在進行如「凱因斯選美競賽」等策略思考遊戲時,傾向於高估其人類對手的理性程度。研究發現,無論對手是大學一年級新生還是經驗豐富的科學家,這些AI模型雖然試圖預測人類行為,卻常常因為假設人類擁有比實際更高的邏輯水平而玩得「太聰明」,最終導致失敗。該研究已發表於《經濟行為與組織期刊》(Journal of Economic Behavior & Organization)。

凱因斯選美競賽:一場理性的博弈

「凱因斯選美競賽」的概念由英國經濟學家約翰·梅納德·凱因斯(John Maynard Keynes)於1930年代提出。一個經典例子是要求報紙讀者從100張照片中選出六張最吸引人的臉孔,獎品頒發給選擇結果最接近大眾平均選擇的參與者。一般人通常會選擇自己認為最吸引人的照片,但這樣往往會輸,因為真正的任務是預測大多數人會認為哪些臉孔有吸引力。因此,理性的參與者應根據他人對美的看法來做選擇。這類實驗旨在測試多層次的推理能力:別人如何思考、他們有多理性,以及他們預測他人推理的深度。

AI如何參與數字競猜遊戲?

國立高等經濟大學經濟科學學院體育研究實驗室主任德米特里·達加耶夫(Dmitry Dagaev)與來自彼爾姆國立高等經濟大學的同事索菲亞·帕克林娜(Sofia Paklina)和彼得·帕沙科夫(Petr Parshakov),以及來自瑞士洛桑大學(University of Lausanne)的尤利婭·阿列克謝延科(Iuliia Alekseenko)共同研究了五款最受歡迎的AI模型,包括ChatGPT-4o和Claude-Sonnet-4,在這種實驗中的表現。研究團隊指示聊天機器人玩「猜數字遊戲」,這是凱因斯選美競賽最著名的變體之一。遊戲規則是所有參與者同時獨立地選擇一個0到100之間的數字,最終獲勝者是其數字最接近所有參與者選擇數字平均值的一半(或三分之二,視實驗而定)。

研究發現:AI的策略性與局限

為了測試大型語言模型(LLM)的表現,研究人員複製了先前由其他學者進行的16個經典「猜數字遊戲」實驗結果。在每一輪中,LLM都會收到解釋遊戲規則的提示,以及對其對手的描述——從經濟學一年級本科生、學術會議參與者,到具有分析或直覺思維的個人,甚至是經歷憤怒或悲傷等情緒的人。研究發現,LLM會根據對手的社會、專業、年齡特徵以及他們對博弈論的了解和認知能力來調整其選擇。例如,當與博弈論會議的參與者對戰時,LLM傾向於選擇接近0的數字;而與一年級本科生對戰時,LLM則會預期對手經驗較少而選擇一個明顯更高的數字。

研究作者指出,儘管LLM能夠有效適應不同複雜程度的對手,並且其反應也顯示出策略性思維的元素,但它們在兩人遊戲中卻無法識別出佔優策略。凱因斯選美競賽長期以來被用來解釋金融市場的價格波動,正如達加耶夫所強調:「我們正處於一個AI模型開始在許多操作中取代人類的階段……在決策任務中,確保LLM以類似人類的方式行事通常很重要。」他預計,比較AI與人類行為的研究領域在不久的將來會迅速發展。

來源:eurekalert.org

封面來源:Adobe Stock