Gemini 2.5新模型 AI直接操作瀏覽器

2025-10-09 05:57:00

谷歌推出Gemini AI電腦使用模型。谷歌

谷歌發佈了新款聊天機器人Gemini AI模型的預覽版，旨在通過瀏覽器瀏覽網路並與之互動，讓AI代理人能在為人類用戶而非機器人設計的界面中執行任務。

谷歌稱，這款名為「Gemini 2.5電腦使用」（Gemini 2.5 Computer Use」的模型，運用「視覺理解與推理能力」分析用戶請求並執行任務，例如填寫並提交表格。

該模型可用於測試界面，或用於操作沒有API等直接接口的、面向人類用戶的系統。此類模型此前已經應用於AI Mode的代理人功能，以及研究原型Mariner計劃——該計劃使用AI代理人在瀏覽器中自主執行任務，例如根據食材清單自動將商品加入購物車。

就在谷歌宣布該項AI模型前一天，OpenAI在年度開發者活動上推出ChatGPT與多款程式相融合的模式，聚焦能代替用戶完成複雜任務的ChatGPT代理人功能。另外Anthropic去年已推出了其Claude AI「電腦使用」模型版本。

谷歌宣稱其電腦使用模型「在多項網頁與行動基準測試中超越業界領先方案」。與ChatGPT Agent及Anthropic的電腦使用工具不同，谷歌的新AI模型僅能接管瀏覽器，而非整個電腦環境。谷歌特別說明，該模型「尚未針對桌面操作系統層級控制進行優化」，目前支持13項操作，包含開啟網頁瀏覽器、輸入文字以及拖放元素等功能。

開發者可通過Google AI Studio和Vertex AI獲取「Gemini 2.5電腦使用」模型，Browserbase平台亦提供示範演示，用戶可觀看該模型執行「玩一場2048遊戲」或「瀏覽Hacker News熱門討論」等任務。本報訊

Gemini 2.5新模型 AI直接操作瀏覽器

最新⽂章

科技-三藩市版

Sora 2標註AI生成水印幾近形同虛設

道高一尺魔高一丈求職者用隱藏指令騙AI

谷歌擴大AI試穿功能

新創公司研發薄層不\xf9袗\xfb 延橋樑壽命

OpenAI揭發多國帳號利用ChatGPT監聽和詐騙

谷歌懸賞揭露AI產品漏洞

Windows 11更新讓用戶在任何螢幕開啟通知中心

與其他程式整合ChatGPT願當好幫手

Sora生成視頻將融入虛構人物

前思科執行長錢伯斯警戒AI勿蹈互聯網泡沫覆轍