矽谷押注「環境」技術訓練AI智能體

多年來,科技巨頭的首席執行官們一直宣揚AI智能體(AIagents)的願景——這類智能體可自主使用軟件應用為人類完成任務。但如今將消費者級AI智能體(無論是OpenAI的ChatGPTAgent,還是Perplexity的Comet)投入實際使用便會發現,這項技術的局限性仍十分明顯。要讓AI智能體具備更強的穩健性,或許需要行業尚未完全探索出的一系列新技術支持。

其中一項技術便是精心模擬「工作空間」,讓智能體在其中接受多步驟任務訓練——這種「工作空間」被稱為強化學習(reinforcement learning,簡稱RL)環境。正如帶標籤的資料集推動了上一波AI發展浪潮,強化學習環境正逐漸成為智能體開發過程中的關鍵要素。

AI研究人員、創業者及投資者透露,目前頂尖AI實驗室對強化學習環境的需求大幅增加,而有意提供此類技術的初創公司也不在少數。

「所有大型AI實驗室都在內部搭建強化學習環境,」安德森.霍洛維茨基金(Andreessen Horowitz)普通合夥人珍妮佛.李表示,「但可想而知,創建這類資料集的複雜度極高,因此AI實驗室也在尋找能打造高品質環境與評估體系的協力廠商供應商。整個行業都在關注這一領域。」

對強化學習環境的需求催生了一批資金雄厚的新興初創公司,例如Mechanize Work和Prime Intellect,這些公司均致力於在該領域佔據領先地位。與此同時,Mercor、Surge等大型資料標注公司表示,隨著行業正從靜態資料集向互動式類比轉型,它們也在加大對強化學習環境的投入以跟上趨勢。大型實驗室同樣在考慮巨額投資:據《The Information》報道,Anthropic的管理層已討論計劃在未來一年內,為強化學習環境投赤字10億美元。投資者與創業者們期望,這些初創公司中能誕生出「強化學習環境領域的ScaleAI」。

財經