頂尖AI會議評審驚爆造假?逾兩成意見竟是AI生成

2025 年 11 月 29 日

學術界正因人工智能(Artificial Intelligence)的濫用而面臨新的挑戰。當研究人員懷疑自己的手稿被使用人工智能進行同行評審時,他們該如何應對?近日,數十名學者在社交媒體上對提交給明年國際學習表徵會議(International Conference on Learning Representations,ICLR)的手稿和同行評審表示擔憂。ICLR是機器學習專家的年度盛會,學者們指出評審中存在虛構的引文,以及對其研究提出異常冗長和含糊的反饋。

其中一位提出疑慮的是來自賓夕法尼亞州(Pennsylvania)匹茲堡市卡內基梅隆大學(Carnegie Mellon University)的人工智能研究員格雷厄姆·紐比格(Graham Neubig)。他表示,收到的評審報告「非常冗長,帶有大量點列式內容」,並要求進行一些「並非典型人工智能或機器學習論文評審員會要求的標準統計分析」。然而,紐比格需要幫助來證明這些報告是由AI生成的,於是他在社交平台X上發文,懸賞能掃描所有會議投稿及其同行評審中AI生成文本的人。第二天,他收到了來自紐約市(New York City)Pangram Labs的行政總裁馬克斯·斯佩羅(Max Spero)的回應,該公司專門開發檢測AI生成文本的工具。

分析揭示AI代筆驚人規模

Pangram Labs團隊對提交給將於明年四月在巴西(Brazil)里約熱內盧(Rio de Janeiro)舉行的ICLR 2026會議的全部19,490份研究和75,800份同行評審進行了篩查。紐比格及超過11,000名AI研究人員將出席該會議。Pangram的分析結果令人震驚:約21%的ICLR同行評審完全由AI生成,超過一半的評審含有使用AI的跡象。斯佩羅表示:「人們之前有所懷疑,但沒有任何具體證據。我們在12小時內編寫了一些代碼來解析所有這些論文投稿的文本內容。」

該分析不僅發現了評審中的問題,還識別出許多提交給會議的手稿也存在AI生成的嫌疑。結果顯示,199份手稿(佔1%)被發現完全由AI生成;61%的投稿主要由人類撰寫;但有9%的投稿包含超過50%的AI生成文本。有趣的是,Pangram團隊將其描述檢測模型的預印本論文也提交給了ICLR 2026,而在收到的四份同行評審中,一份被標記為完全由AI生成,另一份則被標記為輕度AI編輯。

學術界的反響與應對

會議主辦方表示,他們現在將使用自動化工具來評估投稿和同行評審是否違反了關於在提交和評審中使用AI的政策。紐約州(New York)伊薩卡(Ithaca)康奈爾大學(Cornell University)的計算機科學家、ICLR 2026的高級項目主席巴拉特·哈里哈蘭(Bharath Hariharan)表示,這是該會議首次大規模面臨此問題。對於許多向ICLR提交論文的研究人員來說,Pangram的分析證實了他們的懷疑。哥本哈根大學(University of Copenhagen)的計算機科學家德斯蒙德·埃利奧特(Desmond Elliott)表示,他收到的三份評審中有一份似乎完全「沒有抓住論文的重點」。

埃利奧特補充說,當Pangram發布其調查結果時,「我做的第一件事就是輸入我們論文的標題,因為我想知道我學生的直覺是否正確」。結果,那份可疑的同行評審被Pangram的分析標記為完全由AI生成,並且給予了該手稿最低的評分,使其處於「接受與拒絕的邊緣」。埃利奧特表示:「這令人深感沮喪。」這一事件凸顯了在學術出版領域中,確保同行評審過程的誠信與質量所面臨的嚴峻挑戰。

來源:nature.com