
谷歌利用其人工智能(AI)模型Gemini訓練它的DeepMind機器人,使機器人在領路導航和完成任務方面有更佳表現。
DeepMind機器人團隊在新研究論文中,解釋了如何利用Gemini 1.5 Pro的決定AI模型可處理多少資訊的長上下文窗口,來讓用戶能用自然語言指示,更輕鬆地與它的RT-2機器人進行互動。
科技新聞網站The Verge報道,這個原因是透過拍攝家居或辦公空間等指定區域的影片導覽,然後研究人員利用Gemini 1.5 Pro讓機器人「收看」這部影片來了解環境狀況。
接著,機器人可以依據它所觀察到的東西,利用口頭和/或圖像輸出來執行命令,例如用戶向它展示一台手機,並問「我可以在哪裡充電?」後,機器人就會指示用戶去找一個插座。
DeepMind表示,由Gemini驅動的機器人在9,000多平方呎的操作區域中發出50多個使用者指令時,成功率高達90%。
研究人員又發現「初步證據」,顯示Gemini 1.5 Pro使機器人能夠規劃如何完成導航以外的指示。
例如,當用戶的桌上有很多可樂罐,並問機器人是否有他們喜歡的口味時,研究團隊稱Gemini「知道機器人應該導航到冰箱,檢查是否有可樂,然後回去向用戶報告結果」。DeepMind表示,他們計劃進一步調查這些結果。
雖然由谷歌提供的示範帶令人印象深刻,但該篇研究論文承認,機器人確認每項要求後的明顯剪輯隱藏了處理這些指令所需要的10到30秒時間。雖然我們可能需要一段時才能跟更先進的環境繪製機器人分享我們的家居,但至少這些機器人可能可以找到我們弄掉的鑰匙或錢包。本報訊