下一代聊天機器人「愚忠」雖然更可靠但也易「越獄」

2023-10-19 05:57:00

微軟大力支持OpenAI研發人工智能技術，包括最新大型語言模型GPT-4。微軟

根據一項微軟支持的研究，OpenAI的GPT-4大型語言模型可能比GPT-3.5更可信，但也更容易受到俗稱「越獄」的逃過防護措施和偏見的影響。

由伊利諾伊大學香檳分校、史丹福大學、柏克萊加州大學、人工智能（AI）安全中心和微軟研究院的研究人員撰寫的論文，給GPT-4的可信度打出了比上一代更高的分數。他們發現，GPT-4在保護私人信息、避免出現有毒結果（如有偏見的信息）以及抵禦對抗性攻擊方面，普遍更勝一籌。不過，人們也可能指示它無視安全措施，泄露個人信息和對話歷史。研究人員發現，用戶可以繞過GPT-4的防護措施，因為該模型「更精確地遵循誤導信息」，而且更有可能一絲不苟地完全按照非常狡猾的提示操作。

研究團隊表示，在面向消費者的基於GPT-4的產品，基本上是微軟目前的大部分產品中進行了測試，但並未發現這些漏洞，因為「成品AI程式採用了一系列緩解方法，以解決可能在技術模型層面發生的潛在危害」。

為了衡量可信度，研究人員對幾個類別的結果進行了衡量，包括有毒、刻板印象、隱私、機器倫理、公平性和抵禦對抗性測試的能力等。

在測試中，研究人員首先用標準提示測試了GPT-3.5和GPT-4，包括使用可能已被禁止的詞語。接下來，研究人員使用了一些提示，旨在促使模型打破內容政策限制，同時又不表現出對特定群體的偏見，最後故意誘使模型完全忽略保障措施。

研究人員說，他們與OpenAI團隊分享了這項研究。本報訊

下一代聊天機器人「愚忠」雖然更可靠但也易「越獄」

最新⽂章

科技-三藩市版

亞利桑那槍案死者以AI「發聲」

青年洞悉商機創立Rove 購物也能賺哩程換機票

Threads測試投放影片廣告

引入Gemini Nano Chrome加強防詐騙

ChatGPT「深度研究」現可連接GitHub

Figma四款新工具產品設計一條龍

三星下周一發布超薄手機Galaxy S25 Edge

亞馬遜最新機器人Vulcan配備感測器

谷歌「簡化」網頁暫僅適用iOS用戶

杜絕AI Reddit檢測用戶是否真人

下一代聊天機器人「愚忠」 雖然更可靠但也易「越獄」

最新⽂章

科技-三藩市版

下一代聊天機器人「愚忠」雖然更可靠但也易「越獄」