訓練人工智能模型耗費大 數據搶手

/

/

各家致力研發人工智能的科技公司如谷歌、Meta和OpenAI等正面對培訓AI的數據不足的問題。美聯社資料圖片

本報綜合報道

在2000年代初達到鼎盛時期的Photobucket是全球頂級的圖像託管網站,擁有7000萬名用戶,佔美國網上照片市場近一半的份額。據分析追蹤器Sametimeweb表示,如今僅剩200萬人仍在使用Photobucket,當前正在發生的生成式人工智能(AI)革命可能使之起死復活。

位於科羅拉多州Photobucket的執行長倫納德(Ted Leonard)現有約40名員工,他向《路透社》透露,正在與多家科技公司進行談判,打算授權Photobucket的130億張照片和影片,用於訓練生成式AI模型,以產生對文本提示做出回應的新內容。

他表示,已經討論過每張照片5仙到1元的價格,每部影片超過1元的價格,價格因買家和所尋求的圖像類型而差異懸殊。他指稱「我們與一些公司交談過,他們表示需要更多的照片和視頻。」其中一位買家告訴他,想要超過10億部視頻,比Photobucket平台擁有的還要多。

Photobucket引述商業機密為由拒絕透露潛在買家的身分。正在進行的談判在之前從未被報道過,顯示這家公司可能掌握了價值數十億元的內容,讓人一窺在爭奪生成式AI技術主導地位的競爭中,數據市場的繁忙景象。

谷歌、Meta和微軟支援的OpenAI等科技巨頭,最初使用從網上免費抓取的大量數據,來訓練諸如ChatGPT等模仿人類創造力的生成式人工智能模型。縱使他們堅稱此舉合法又合乎道德,仍面臨一系列版權所有者提訟控告。

另外,這些科技公司還悄悄地支付鎖在付費牆和登錄屏幕後的內容,從聊天記錄到已被遺忘的個人照片,這一切都在不知不覺中被暗中議價進行買賣。

Klaris Law律師事務所的克拉里斯(Edward Klaris)指出,這些科企「現在正爭先恐後地接洽版權持有者,因為後者擁有的私人收藏內容是無法被刪除的。」

許多主要市場調研公司表示,還未開始估算這個不透明的AI數據市場的規模,因為公司通常不會公開協議。而那些已經進行估算的研究機構如「商業研究洞察」(BRI)則將這個市場估計為大約250億元,並預測在未來十年內可能增長到接近300億元。

科技-三藩市版