訓練AI模型 科企涉用未經許可資料

調查發現多家大型公司利用YouTube視頻字幕訓練人工智能模型。Proof News

本報訊

非牟利新聞組織Proof News偵查發現,一份被多家全球大型科技公司用來訓練人工智能(AI)模型的資料集,包括未經許可使用的17.3萬多部YouTube視頻的文字紀錄,突顯AI技術很大程度建立在未經創作者同意或提供補償的情況下竊取資料的基礎上。

這份資料集由非牟利公司EleutherAI建立,包含來自4.8萬多個YouTube頻道的視頻的文字紀錄,使用的公司包括Anthropic、蘋果和輝達等。

資料集沒有包含YouTube任何影像,卻包括布朗利(Marques Brownlee)和MrBeast等該平台上多位網紅,以及《紐約時報》、英國廣播公司(BBC)和ABC新聞等新聞媒體的視頻文字紀錄。

布朗利在社交平台X上發文表示,「蘋果為訓練AI從多家公司取得數據,其中一家公司從YouTube視頻抓取了大量數據/文字紀錄,包括我的視頻,這將會是一個不斷演變的長期問題」。

YouTube、蘋果、輝達、Anthropic及EleutherAI等均未回應媒體相關查詢。

目前為止,AI公司對它們訓練AI模型所用的數據並不透明。本月稍早,有藝術家和攝影師批評蘋果沒有披露該公司自行研發,將於今年稍後向蘋果裝置推出的AI模型「蘋果智能」(Apple Intelligence)所用的資料來源。

YouTube是全球規模最大視頻儲存庫,有豐富的各類影像、音訊及文字紀錄,使它成為訓練AI模型具吸引力的資料集。

OpenAI科技長穆拉提(Mira Murati)日前接受《華爾街日報》訪問時,迴避了關於該公司是否利用YouTube視頻訓練OpenAI即將推出的AI視頻生成工具Sora的問題,僅重申那些資料是公開或獲授權的。

YouTube執行長莫漢(Neal Mohan)和谷歌母公司Alphabet執行長皮蔡(Sundar Pichai)都曾經表明,使用YouTube資料訓練AI模型的公司,違反該平台的服務條款。

Proof News提供一份名單,讓外界可以查閱其YouTube視頻或喜歡的頻道是否屬於該份資料集的一部份,網址為https://www.proofnews.org/youtube-ai-search/。

科技-三藩市版