DeepMind最新研究警示失調AI潛在威脅

2025-09-25 05:58:00

DeepMind發布「前沿安全框架3.0」，剖析生成式AI可能失控的各種情境。谷歌/DeepMind

生成式人工智能（AI）模型遠不完美，但這不能阻止企業甚至政府將重要任務交給這些機器人。當AI失控時會發生甚麼？谷歌DeepMind的研究人員就此展開探討，發布「前沿安全框架3.0」，進一步剖析AI可能失控的各種情境，包括模型可能無視使用者將其關閉的指令。

DeepMind的安全框架基於稱為「關鍵能力等級」（CCL）的風險評估標準，旨在衡量AI模型的能力，並界定其行為何時在網路安全或生命科學等領域變得危險。該文件還詳細說明了開發者如何針對DeepMind識別出的CCL，對其模型採取應對措施。

谷歌等深度涉足生成式AI的企業已採用多種技術防止AI「惡意」運作，DeepMind探討的是生成式AI系統內固有的濫用和故障的可能性。

更新後的框架指出，開發者應採取預防措施確保模型的安全，特別呼籲對較強大的AI系統實施模型權重的妥善防護。研究人員擔憂模型權重外洩，將使惡意行為者有機會破壞防護機制，進而催生出危害性的AI系統，比如能夠製造高效惡意軟體，或協助設計生物武器等。

DeepMind同時指出，AI可能被調校成操縱性工具，系統性地改變人們的信念。然而團隊對此並未提出完善的解決方案，僅表示此為「低速度」威脅，現有「社會防禦機制」應足以應對。

當今最先進的模擬推理模型在思考過程中會產生「草稿輸出」，開發者應採用自動化監控機制，對此進行二次核查來發現失調或欺騙跡象，谷歌團隊認為未來數年內，模型或將演化出高效模擬推理能力，不再產生可驗證的思維鏈，人類可能完全無法排除其運作方向與人類操作者利益相悖的可能性。本報訊

科技-三藩市版