研發AI合成數據 或可成明日之星

科技公司研究用AI合成數據訓練AI,圖為今年3月18日Nvida GTC大會上展示的即時AI數據雕塑。美聯社

OpenAI、谷歌和其他科技公司現時使用從書籍、維基百科文章、新聞報道和網路其他來源收集的大量資料,來訓練其研發的聊天機器人,但在未來,這些公司希望使用一種稱為「合成數據」(synthetic data)的替代品。

據《紐約時報》報道,科技公司可能耗盡當前互聯網為人工智能(AI)發展提供的高品質內容,同時面臨作者、新聞機構和電腦程式設計師對未經許可使用其作品,而提起的版權訴訟。科技公司相信,合成數據將有助於化解版權糾紛,並增加AI培訓材料的供應。

合成數據是AI產生的數據。諸如谷歌、OpenAI和Anthropic等科企希望利用其他AI模型產生的數據,來訓練他們的AI技術。問題是AI模型會犯錯,還會捏造事實,過去的經驗發現,它們時常採納訓練時在網路上發現的數據中的偏見。因此,如果科技公司使用AI來訓練AI,最終可能使缺陷進一步放大。

目前合成數據尚未被科技公司普遍採用,只是在進行嘗試。但由於合成數據有潛在缺陷,並非當今AI的重要組成。

然而,科技公司認為可以改進合成數據的創建方式,使其成為明日之星。OpenAI等公司探索了一種技術,讓兩種不同的AI協作,產生更加實用和可靠的合成數據。比如由一個AI模型負責生成數據,另一個模型會像人類一樣判斷數據,決定是好是壞、準確或不準確。事實上,AI模型更擅長判斷文本,勝過創造文本。AI初創公司SynthLabs的執行長利爾(Nathan Lile)表示:「如果你給AI兩件東西,它擅長選擇看起來最佳的那件。」本報訊

科技-三藩市版