展會信息港展會大全

谷歌AI正在吞食一切!爬取所有公開內(nèi)容用于訓(xùn)練AI,隱私政策已更新
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-07-11 07:08:34   瀏覽:6799次  

導(dǎo)讀:蕭簫 發(fā)自 凹非寺 量子位 | 公眾號 QbitAI 從今往后,你在網(wǎng)上公開說的每一句話,都可能被 谷歌 拿去訓(xùn)練AI! 沒錯,繼畫畫之后, 文字作品 也要被用來喂大模型了 無論是技術(shù)博客、代碼、論文,還是所有你在網(wǎng)上公開的帖子,都可能被扔進(jìn)谷歌大模型攪拌機(jī),...

蕭簫 發(fā)自 凹非寺

量子位 | 公眾號 QbitAI

從今往后,你在網(wǎng)上公開說的每一句話,都可能被谷歌拿去訓(xùn)練AI!

沒錯,繼畫畫之后,文字作品也要被用來喂大模型了

無論是技術(shù)博客、代碼、論文,還是所有你在網(wǎng)上公開的帖子,都可能被扔進(jìn)“谷歌大模型攪拌機(jī)”,即使有版權(quán)也是如此。

就在這周,谷歌更新了一版隱私政策,明確表示他們保留有抓取網(wǎng)上所有公開內(nèi)容,以構(gòu)建其AI工具的權(quán)利。

網(wǎng)友們立刻炸了。有人警告“谷歌正抓取一切”:

一旦谷歌能夠讀取你寫的東西,就意味著這些都是他們的“所有物”了。

還有網(wǎng)友抱持更悲觀的想法:

很快啊,所有內(nèi)容產(chǎn)出者就都會是AI了。

所以,這版隱私政策究竟是怎么回事?

用于訓(xùn)練Bard等AI產(chǎn)品

事情還得從谷歌這幾天更新的隱私政策說起。

在最新的隱私權(quán)政策中,谷歌增加了一個關(guān)于“研究和開發(fā)”的AI模型條款:

Google會利用信息來改進(jìn)我們的服務(wù)并開發(fā)新的產(chǎn)品、功能和技術(shù),以惠及我們的用戶和公眾。

例如,我們會利用公開信息來幫助訓(xùn)練Google的AI模型并打造實用產(chǎn)品和功能(比如Google翻譯、Bard和Cloud AI功能)。

換言之,就是將所有可能收集到的公開信息,用在谷歌翻譯、BardCloud AI等AI相關(guān)產(chǎn)品或功能的訓(xùn)練中。

那么,這些公開信息具體包括什么?

例如互聯(lián)網(wǎng)、網(wǎng)絡(luò)和其他活動信息,包括搜索字詞、應(yīng)用和瀏覽器與谷歌服務(wù)進(jìn)行互動的相關(guān)信息,以及在第三方網(wǎng)站和應(yīng)用中使用谷歌服務(wù)等。

換而言之,不止是此前已經(jīng)公開的博客等內(nèi)容,包括公開到網(wǎng)上的谷歌文檔、或是一些包含個人信息的發(fā)帖,也可能會被谷歌收集起來,用于大模型訓(xùn)練。

當(dāng)然,目前這些內(nèi)容都還限定在“公開信息”。

像谷歌提供的Gmail等電子郵件服務(wù),應(yīng)該還是不會被爬進(jìn)數(shù)據(jù)里的。

而且谷歌也明確在隱私權(quán)政策中表示,在其他如防范安全威脅、信息審核、服務(wù)維護(hù)、個性化廣告或法律等原因情況下,同樣可以使用這些個人或公開信息。

不過,谷歌為啥在這個節(jié)骨眼更新這個政策?

“AI正挑戰(zhàn)文字版權(quán)”

或許也與Reddit和推特等一眾公司搞出的“限流”操作有關(guān)。

先是今年4月,Reddit宣布對接入API的公司開始收費。

公司CEO認(rèn)為,Reddit的數(shù)據(jù)庫很有價值,但是他們不想將這些有價值的內(nèi)容免費提供給科技大公司。

隨后,推特也開始以“不想讓AI公司白嫖數(shù)據(jù)”的理由,來給推特限流,未經(jīng)驗證用戶日瀏覽量只有600,經(jīng)過驗證后增加到6000。

這一系列政策對用戶和第三方工具影響很嚴(yán)重,例如Reddit引發(fā)了大規(guī)模的討論版塊抗議,不少版主直接關(guān)閉了自己管理的論壇,以對Reddit這一活動進(jìn)行抗議,推特上也有不少人在聲討,甚至有網(wǎng)友表示“推特被殺死了”。

但無論如何,讓AI白嫖數(shù)據(jù)這件事,現(xiàn)在都已經(jīng)是一個無法忽視的矛盾了。

對于谷歌AI爬數(shù)據(jù)這件事,有網(wǎng)友表示疑惑:

為啥之前互聯(lián)網(wǎng)如搜索引擎也有爬取數(shù)據(jù)一類的操作,但人們卻偏偏對“AI抓取”感到抗拒。

有網(wǎng)友回應(yīng)稱:

本質(zhì)上還是版權(quán)的問題。如果只是引用受版權(quán)保護(hù)的材料,那么不一定侵犯版權(quán),但如果用AI對有版權(quán)的內(nèi)容進(jìn)行“攪拌清洗”,而且這事兒合法化了,那么本質(zhì)上版權(quán)已死。

也正是因此,他對于這件事感到悲觀:

如果有人在不標(biāo)注來源的情況下復(fù)制了你的博客,或是將你的開源代碼拿去做付費服務(wù),又或是將你在StackOverflow上的答案用作答題方法,你能接受這些情況發(fā)生嗎?

我之前做的一切都是免費的。但現(xiàn)在如果AI想讓我消失,那我就會消失。

當(dāng)然,也有網(wǎng)友已經(jīng)接受了這個政策的推出,警惕大家自身防范意識不可或缺:

細(xì)讀新政策,注意我們泄露了多少信息到網(wǎng)上。

那么,你怎么看待這件事?

參考鏈接:

[1]https://gizmodo.com/google-says-itll-scrape-everything-you-post-online-for-1850601486

[2]https://news.ycombinator.com/item?id=36577626

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港