研發AI合成數據或可成明日之星

2024-04-10 05:58:00

科技公司研究用AI合成數據訓練AI，圖為今年3月18日Nvida GTC大會上展示的即時AI數據雕塑。美聯社

OpenAI、谷歌和其他科技公司現時使用從書籍、維基百科文章、新聞報道和網路其他來源收集的大量資料，來訓練其研發的聊天機器人，但在未來，這些公司希望使用一種稱為「合成數據」（synthetic data）的替代品。

據《紐約時報》報道，科技公司可能耗盡當前互聯網為人工智能（AI）發展提供的高品質內容，同時面臨作者、新聞機構和電腦程式設計師對未經許可使用其作品，而提起的版權訴訟。科技公司相信，合成數據將有助於化解版權糾紛，並增加AI培訓材料的供應。

合成數據是AI產生的數據。諸如谷歌、OpenAI和Anthropic等科企希望利用其他AI模型產生的數據，來訓練他們的AI技術。問題是AI模型會犯錯，還會捏造事實，過去的經驗發現，它們時常採納訓練時在網路上發現的數據中的偏見。因此，如果科技公司使用AI來訓練AI，最終可能使缺陷進一步放大。

目前合成數據尚未被科技公司普遍採用，只是在進行嘗試。但由於合成數據有潛在缺陷，並非當今AI的重要組成。

然而，科技公司認為可以改進合成數據的創建方式，使其成為明日之星。OpenAI等公司探索了一種技術，讓兩種不同的AI協作，產生更加實用和可靠的合成數據。比如由一個AI模型負責生成數據，另一個模型會像人類一樣判斷數據，決定是好是壞、準確或不準確。事實上，AI模型更擅長判斷文本，勝過創造文本。AI初創公司SynthLabs的執行長利爾（Nathan Lile）表示：「如果你給AI兩件東西，它擅長選擇看起來最佳的那件。」本報訊

研發AI合成數據或可成明日之星

最新⽂章

科技-三藩市版

Wacom推出首款OLED繪圖板

M3晶片OLED iPad Pro即將登場

Tinder新功能分享約會細節

Proton Mail推出暗網監控功能

Adobe新AI技術提升影片畫質八倍

蘋果發布多款AI模型

Windows 11更新後出現應用程式廣告

iOS版WhatsApp支援密鑰

高通筆電晶片強打速度和AI

谷歌致力提高手機視頻拍攝品質

研發AI合成數據 或可成明日之星

最新⽂章

科技-三藩市版

研發AI合成數據或可成明日之星