機器人外交官 折沖樽俎游刃有餘

AI機器人「西塞羅」(CICERO)玩外交遊戲時的構想。Meta

圖為網絡遊戲webDiplomacy。

從2011年人工智能(AI)界老大哥Watson第一次贏得智力遊戲Jeopardy算起,機器學習(ML)系統與人類對手打交道已經有十多年了,不過AI擅長的遊戲類型相當有限,通常是棋盤類競技遊戲,或使用有限的遊戲場地、有次序的步驟和至少有一個明確定義的對手的視頻遊戲。任何需要計算數字的遊戲都是它們所長。然而,外交遊戲Diplomay需要的計算量很少,更重要的是玩家一邊與對手談判,一邊各自遊戲。Meta公司的研究人員設計出一個AI模型,可以像聯合國大使那樣協商全球政策立場。

Meta人工智能研究人員發佈了第一個在外交領域表現出人類水平的AI機器人「西塞羅」(CICERO)。該團隊在網絡遊戲webDiplomacy.net上進行了5萬個回合,對西塞羅進行了27億個參數的訓練。在5局聯賽中,它最終在19名參賽者中獲得了第二名,比對手的平均得分高出一倍。

該AI被證明如此善於「使用自然語言與人進行外交談判,以至於人們經常喜歡與西塞羅而不是其他人類參與者合作」,Meta團隊稱,「Diplomacy是一個關於人而不是棋子的遊戲。如果AI不能認識到某個玩家很可能是在虛張聲勢,或者不知道一個玩家會覺得某一舉動咄咄逼人,那麼它很快就會輸。同樣,如果它不能像真人那樣說話,表現出同理心,與人建立關係,並如數家珍地討論遊戲,就不會有其他玩家願意與它合作。」

基本上,西塞羅將Pluribot或AlphaGO的戰略思維與Blenderbot或GPT-3的自然語言處理(NLP)功能相結合,它甚至能夠進行預想。研究團隊指出,例如,西塞羅可以推斷出,在遊戲後期它將需要某個特定玩家的支持,然後制定一個策略來贏得該玩家的青睞,甚至可以認識到該玩家從群其自身角度所看到的風險和機遇。

該AI沒有像其他類似系統那樣,通過標準的強化學習方案進行訓練。

相反,西塞羅使用「疊代規劃算法,可以平衡對話的一致性和合理性」。它首先會根據談判回合中發生的事情預測對手的行動,以及它認為對手以為它會採取的行動,然後再「通過嘗試選擇在其他玩家的策略下具有較高預期價值的新策略,反覆改進這些預測,同時還努力使新預測接近原始的策略預測。」本報訊

美東地區