下一代聊天機器人「愚忠」 雖然更可靠但也易「越獄」

微軟大力支持OpenAI研發人工智能技術,包括最新大型語言模型GPT-4。微軟

根據一項微軟支持的研究,OpenAI的GPT-4大型語言模型可能比GPT-3.5更可信,但也更容易受到俗稱「越獄」的逃過防護措施和偏見的影響。

由伊利諾伊大學香檳分校、史丹福大學、柏克萊加州大學、人工智能(AI)安全中心和微軟研究院的研究人員撰寫的論文,給GPT-4的可信度打出了比上一代更高的分數。他們發現,GPT-4在保護私人信息、避免出現有毒結果(如有偏見的信息)以及抵禦對抗性攻擊方面,普遍更勝一籌。不過,人們也可能指示它無視安全措施,泄露個人信息和對話歷史。研究人員發現,用戶可以繞過GPT-4的防護措施,因為該模型「更精確地遵循誤導信息」,而且更有可能一絲不苟地完全按照非常狡猾的提示操作。

研究團隊表示,在面向消費者的基於GPT-4的產品,基本上是微軟目前的大部分產品中進行了測試,但並未發現這些漏洞,因為「成品AI程式採用了一系列緩解方法,以解決可能在技術模型層面發生的潛在危害」。

為了衡量可信度,研究人員對幾個類別的結果進行了衡量,包括有毒、刻板印象、隱私、機器倫理、公平性和抵禦對抗性測試的能力等。

在測試中,研究人員首先用標準提示測試了GPT-3.5和GPT-4,包括使用可能已被禁止的詞語。接下來,研究人員使用了一些提示,旨在促使模型打破內容政策限制,同時又不表現出對特定群體的偏見,最後故意誘使模型完全忽略保障措施。

研究人員說,他們與OpenAI團隊分享了這項研究。本報訊

科技-三藩市版