搜羅數據訓練智能模型 谷歌允許網站拒絕提供

谷歌剛已宣布,將允許網站選擇不讓本身數據用於訓練谷歌的AI模型,而不影響民眾繼續通過谷歌搜索訪問這些網站。

據The Verge報道,這個名為Google-Extended的新工具,允許網站繼續被Googlebot等爬蟲抓取並編入索引,同時避免其數據隨後被用於訓練AI模型。

谷歌公司表示,Google-Extended將讓網站開發者「管理其網站是否參與幫助改進Bard和Vertex AI生成式API」,並補充說,網絡開發者可以使用該切換開關「控制對網站內容的訪問」。谷歌今年7月證實,它正在利用從網上搜羅的公開數據訓練其AI聊天機器人Bard。

Google-Extended可通過robots.txt(用於告知網絡爬蟲是否可以訪問某些網站的文本文件)使用。

谷歌指出,「隨著AI應用的擴展」,它將繼續探索「更多機器可讀的方法,為網站提供選擇和控制」,並將很快分享更多信息。

目前,許多網站已經開始屏蔽OpenAI用來搜索數據和訓練ChatGPT的網絡爬蟲,包括《紐約時報》、CNN、路透社和Medium。不過,如何屏蔽谷歌一直是個問題。畢竟,網站不能完全關閉谷歌的爬蟲,否則就無法被收錄在搜索中。這促使《紐約時報》等一些網站通過更新服務條款,禁止其他公司使用其內容訓練AI,從而從法律上屏蔽谷歌。本報訊

科技-三藩市版