

在德國漢堡郊區的一棟房子前,郵箱上有用鉛筆寫出的「LAION」字樣,表明這所房子主人是一項大規模數據收集工作的幕後人物。他就是高中教師舒赫曼(Christoph Schumann)。
LAION是「大規模AI(人工智能)開放網絡」的簡稱,是他的激情項目。舒赫曼在教學之餘與一個由志願者小團隊一起建立了世界上最大的免費AI訓練數據集,已被用於谷歌的Imagen和Stable Diffusion等文本—圖像生成器。
據彭博社報道,AI文本—圖像生成器依靠LAION之類的數據庫來獲取用於解構和創建新圖像的大量視覺材料。去年年底,這些產品的首次亮相堪稱一次範式轉移:使科技界的AI軍備競賽進入高速發展階段,並引發了無數的倫理和法律問題。在幾個月內,人們對生成式AI公司Stability AI和Midjourney提出了侵權的訴訟,批評者對其數據集中的暴力、性和其他問題圖像敲響了警鐘,稱這些圖像引入了幾乎無法緩解的偏見。
但這些並不是舒赫曼擔心的。他只是想讓數據自由。
兩年前,這位40歲的教師和演員在一個AI愛好者的Discord服務器上閒逛後,參與創立了LAION。當時,OpenAI的DALL-E剛剛發布。這個深度學習模型,可以從語言提示中生成數字圖像。舒赫曼既受到啟發,又擔心這將鼓勵大科技公司將更多數據專有化。舒赫曼說,「我一下子就明白了,如果這些數據被集中到一家、兩家或三家公司,它將對社會產生非常糟糕的影響。」
作為回應,他們決定創建一個開源數據集,幫助訓練從圖像到文本的擴散模型。這一過程長達數月,類似於用數百萬張閃卡教人學習外語。該小組使用加州非牟利組織Common Crawl收集的原始HTML代碼來定位網絡上的圖像,並將它們與描述性文本聯繫起來,不使用任何人工和人為整理。
在幾周內,舒赫曼和等人獲得了300萬個圖像—文本對。三個月後,他們發布了一個有4億對的數據集,現在已經超過50億,使LAION成為最大的圖像和標題的免費數據集。
莫斯塔克提出支付計算能力的費用,不附帶任何條件。他想推出自己的開源AI業務,並渴望利用LAION來訓練他的產品。2022年Stablility AI將LAION的數據集用於旗艦AI圖像生成器Stable Diffusion,並僱用了LAION的兩名研究人員。一年後的今天,該公司正在尋求40億元的估值,主要得益於LAION提供的數據。舒赫曼沒有從LAION中獲利,「因為我想讓這一切保持獨立」。本報訊