
本報綜合報道
Google人工智能(AI)部門DeepMind發布一款名為Gemini Robotics On-Device的新大型語言模型,能在無需連接網絡的情況下,直接控制機械人執行各類任務。
據科技新聞網站TechCrunch報道,該模型建基於今年3月推出的Gemini Robotics版本,專為控制單一機械人設計。開發人員可透過自然語言提示控制並調整模型,以配合不同應用情境。
Google表示,在基準測試中,這款機內模型的表現接近雲端版本,並於多項測試指標中超越其他設備端模型,惟未透露具體對比對象。
公司同時釋出示範影片,展示機械人執行如拉開手袋拉鏈、摺疊衣物等日常任務。Google指出,雖然模型最初以ALOHA機械人進行訓練,經調整後已能應用於德國Franka公司生產的雙臂機械人FR3,以及美國新創企業Apptronik開發的人型機械人Apollo(阿波羅)。Google更指,FR3能處理過往未曾「見過」的場景與物件,例如在工業輸送帶上進行組裝作業。
此外,Google DeepMind亦同時推出Gemini Robotics 軟件開發套件(SDK)。據DeepMind介紹,開發人員可向機械人示範50至100個任務範例,並在MuJoCo物理模擬器中進行訓練,協助其掌握新任務。
多家人工智能企業亦積極投身機械人技術研發。輝達(NVIDIA)正打造一個平台,專為人型機械人開發基礎模型;Hugging Face則開放相關模型與數據集,並自行開發應用技術;獲韓國證券公司大宇未來資產(Mirae Asset)支持的新創企業RLWRLD,亦正在開發機械人專用基礎模型。