
谷歌發佈了新款聊天機器人Gemini AI模型的預覽版,旨在通過瀏覽器瀏覽網路並與之互動,讓AI代理人能在為人類用戶而非機器人設計的界面中執行任務。
谷歌稱,這款名為「Gemini 2.5電腦使用」(Gemini 2.5 Computer Use」的模型,運用「視覺理解與推理能力」分析用戶請求並執行任務,例如填寫並提交表格。
該模型可用於測試界面,或用於操作沒有API等直接接口的、面向人類用戶的系統。此類模型此前已經應用於AI Mode的代理人功能,以及研究原型Mariner計劃——該計劃使用AI代理人在瀏覽器中自主執行任務,例如根據食材清單自動將商品加入購物車。
就在谷歌宣布該項AI模型前一天,OpenAI在年度開發者活動上推出ChatGPT與多款程式相融合的模式,聚焦能代替用戶完成複雜任務的ChatGPT代理人功能。另外Anthropic去年已推出了其Claude AI「電腦使用」模型版本。
谷歌宣稱其電腦使用模型「在多項網頁與行動基準測試中超越業界領先方案」。與ChatGPT Agent及Anthropic的電腦使用工具不同,谷歌的新AI模型僅能接管瀏覽器,而非整個電腦環境。谷歌特別說明,該模型「尚未針對桌面操作系統層級控制進行優化」,目前支持13項操作,包含開啟網頁瀏覽器、輸入文字以及拖放元素等功能。
開發者可通過Google AI Studio和Vertex AI獲取「Gemini 2.5電腦使用」模型,Browserbase平台亦提供示範演示,用戶可觀看該模型執行「玩一場2048遊戲」或「瀏覽Hacker News熱門討論」等任務。本報訊