DeepMind最新研究 警示失調AI潛在威脅

DeepMind發布「前沿安全框架3.0」,剖析生成式AI可能失控的各種情境。谷歌/DeepMind

生成式人工智能(AI)模型遠不完美,但這不能阻止企業甚至政府將重要任務交給這些機器人。當AI失控時會發生甚麼?谷歌DeepMind的研究人員就此展開探討,發布「前沿安全框架3.0」,進一步剖析AI可能失控的各種情境,包括模型可能無視使用者將其關閉的指令。

DeepMind的安全框架基於稱為「關鍵能力等級」(CCL)的風險評估標準,旨在衡量AI模型的能力,並界定其行為何時在網路安全或生命科學等領域變得危險。該文件還詳細說明了開發者如何針對DeepMind識別出的CCL,對其模型採取應對措施。

谷歌等深度涉足生成式AI的企業已採用多種技術防止AI「惡意」運作,DeepMind探討的是生成式AI系統內固有的濫用和故障的可能性。

更新後的框架指出,開發者應採取預防措施確保模型的安全,特別呼籲對較強大的AI系統實施模型權重的妥善防護。研究人員擔憂模型權重外洩,將使惡意行為者有機會破壞防護機制,進而催生出危害性的AI系統,比如能夠製造高效惡意軟體,或協助設計生物武器等。

DeepMind同時指出,AI可能被調校成操縱性工具,系統性地改變人們的信念。然而團隊對此並未提出完善的解決方案,僅表示此為「低速度」威脅,現有「社會防禦機制」應足以應對。

當今最先進的模擬推理模型在思考過程中會產生「草稿輸出」,開發者應採用自動化監控機制,對此進行二次核查來發現失調或欺騙跡象,谷歌團隊認為未來數年內,模型或將演化出高效模擬推理能力,不再產生可驗證的思維鏈,人類可能完全無法排除其運作方向與人類操作者利益相悖的可能性。本報訊

科技-三藩市版