一場即將舉行的頂級人工智能(Artificial Intelligence)會議,正因其同行評審(peer review)過程的誠信問題而引發學術界的廣泛關注。數十名學者在社交媒體上表示,他們為明年的國際學習表徵會議(International Conference on Learning Representations, ICLR)提交的論文,收到了疑似由人工智能生成的審查意見。這些意見被指存在引用不存在的文獻、內容異常冗長含糊等問題,令學術評審的嚴肅性受到質疑。
來自賓夕法尼亞州(Pennsylvania)匹茲堡(Pittsburgh)卡內基梅隆大學(Carnegie Mellon University)的人工智能研究員紐比格(Graham Neubig)是其中一位收到可疑審查報告的學者。他表示,這些報告「非常冗長,包含大量點列式內容」,並要求進行一些「並非典型人工智能或機器學習論文審稿人會要求的標準統計分析」。由於難以證明這些報告是AI生成,紐比格在社交平台X上懸賞,尋求能掃描所有會議投稿及同行評審中AI生成文本的人。紐約市(New York City)一家開發AI文本檢測工具的公司龐格拉姆實驗室(Pangram Labs)的行政總裁斯佩羅(Max Spero)響應了請求。
Pangram Labs分析揭露驚人數據
龐格拉姆實驗室團隊對提交給ICLR 2026的所有19,490份研究和75,800份同行評審進行了篩查。分析結果令人震驚:大約21%的同行評審被證實完全由AI生成,超過半數的審查報告則顯示有使用AI的跡象。斯佩羅表示:「人們之前有所懷疑,但沒有具體證據。」他補充說:「我們花了12個小時編寫了一些代碼,來解析這些論文提交中的所有文本內容。」該公司的分析不僅針對審查報告,還發現了199份(佔總數1%)提交的論文手稿本身完全由AI生成,另有9%的論文手稿中,AI生成的內容超過50%。
會議方應對與學界反響
面對這一大規模的學術倫理挑戰,會議組織者表示將採取行動。將於明年四月在巴西里約熱內盧(Rio de Janeiro, Brazil)舉行的ICLR 2026,其高級項目主席、紐約州(New York)伊薩卡(Ithaca)康奈爾大學(Cornell University)的計算機科學家哈里哈蘭(Bharath Hariharan)表示,這是會議首次大規模面臨此類問題。他們將使用自動化工具來評估提交的論文和同行評審是否違反了關於使用AI的政策。哥本哈根大學(University of Copenhagen)的計算機科學家埃利奧特(Desmond Elliott)的經歷證實了許多研究人員的擔憂。他收到的一份審查報告被龐格拉姆實驗室的分析標記為完全由AI生成,該報告不僅給予其論文最低評分,使其處於「接受與拒絕的邊緣」,還誤解了論文的核心觀點並引用了錯誤的數據。埃利奧特對此表示「極度沮喪」。ICLR 2026的規定允許作者和審稿人使用AI工具潤飾文本或生成代碼,但必須披露,並嚴禁利用AI違反保密協議或偽造內容。
來源:nature.com
封面來源:Adobe Stock



