英偉達視覺語言新模型 協助車輛完全自主駕駛

英偉達推出用於自動駕駛研究的開放式推理視覺語言模型。Nvidia

晶片巨擘英偉達(Nvidia,又稱輝達)宣布推出新的基礎設施和人工智能(AI)模型,目標是打造「實體 AI」的骨幹技術,實體AI指的是能夠感知並與現實世界互動的系統,包括機器人和無人車。

這家半導體巨頭在加州聖地牙哥舉行的NeurIPS AI大會上發布了Alpamayo-R1,一款用於自動駕駛研究的開放式推理視覺語言模型,聲稱這是首款專注於自動駕駛的視覺語言動作模型。視覺語言模型可以同時處理文字和影像,使車輛能夠「看見」周圍環境,並根據感知到的訊息做出決策。

這款新模型基於英偉達的Cosmos-Reason模型所打造,後者是一款推理模型,在做出回應之前會進行思考。英偉達最初於2025年1月發布Cosmos模型系列,並在8月推出更多相關模型。英偉達官方網誌中指出,像Alpamayo-R1這樣的技術,對於企業達成第四級(Level 4)的自動駕駛至關重要。第四級自動駕駛意味著在特定區域以及具體情況下,實現完全自主駕駛。

英偉達希望這種推理模型能夠賦予無人車類似的「常識」,使其能夠像人類一樣妥善處理各種具有差別的駕駛決策。這款新模型已在GitHub和Hugging Face上發布。

除了新的視覺模型外,英偉達還在GitHub上傳一系列新的逐步指南、推理資源、以及訓練後流程(post-training workflows)——統稱為Cosmos Cookbook,幫助開發者更有效地使用和訓練Cosmos模型,以滿足其特定情況之需求。該指南涵蓋資料整理、合成資料生成及模型評估等內容。本報訊

科技-三藩市版