展會(huì)信息港展會(huì)大全

生成式AI熱潮掀起“淘數(shù)據(jù)熱”,背后風(fēng)險(xiǎn)有多大?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-04-11 09:07:49   瀏覽:4708次  

導(dǎo)讀:在2000年最鼎盛時(shí)期,Photobucket是全球頂級(jí)的圖像托管網(wǎng)站,一度擁有7000萬用戶,占據(jù)了美國在線照片市場(chǎng)的近一半市...

在2000年最鼎盛時(shí)期,Photobucket是全球頂級(jí)的圖像托管網(wǎng)站,一度擁有7000萬用戶,占據(jù)了美國在線照片市場(chǎng)的近一半市常

根據(jù)分析追蹤機(jī)構(gòu)Similarweb的數(shù)據(jù),如今只有約200萬人仍在使用Photobucket。但該公司首席執(zhí)行官(CEO)倫納德(Ted Leonard)透露,目前正在與多家科技公司進(jìn)行談判,以授權(quán)其130億張照片和視頻,讓科技公司用于訓(xùn)練生成式人工智能(AI)大模型,使得這些模型能夠響應(yīng)文本提示,生成新內(nèi)容。目前談判的每張照片的價(jià)格在5美分~1美元之間,每條視頻的價(jià)格超過1美元,各個(gè)買家所需圖像、視頻的類型都存在差異。

“許多科技企業(yè)告訴我們,他們需要更多AI訓(xùn)練數(shù)據(jù)。一位潛在買家想要超過10億個(gè)視頻,比我們平臺(tái)擁有的還多。突然之間,我們不再擔(dān)心沒生意可做,而是要抓耳撓腮地想,我們?nèi)ツ睦锱敲炊鄶?shù)據(jù)?”他表示。

倫納德以商業(yè)機(jī)密為由拒絕透露潛在買家的身份,但根據(jù)其透露的數(shù)據(jù)推算,其擁有的數(shù)據(jù)內(nèi)容將價(jià)值數(shù)十億美元。Photobucket的境遇可謂該行業(yè)的縮影。除了對(duì)人才的競(jìng)爭(zhēng)外,科技巨頭新一輪競(jìng)賽還轉(zhuǎn)向了對(duì)AI訓(xùn)練數(shù)據(jù)。生成式AI革命可能會(huì)給這類企業(yè)賦予新生命。但同時(shí),這一競(jìng)賽背后的數(shù)據(jù)仍存在一些風(fēng)險(xiǎn)。

生成式AI熱潮掀起“淘數(shù)據(jù)熱”

最初,谷歌、Meta和OpenAI等科技巨頭使用從互聯(lián)網(wǎng)上免費(fèi)的大量數(shù)據(jù)來訓(xùn)練生成式AI模型。這些科技公司表示,這樣做既合法,也合乎道德。并且,如果不能使用大量免費(fèi)抓取的、在他們看來可“公開可用”的網(wǎng)頁數(shù)據(jù),例如非盈利機(jī)構(gòu)Common Crawl提供的數(shù)據(jù),訓(xùn)練AI模型的成本將難以承受。

但隨著生成式AI領(lǐng)域的熱潮和競(jìng)爭(zhēng)加劇,他們開始面臨一系列來自版權(quán)持有人的訴訟和監(jiān)管關(guān)注,同時(shí)也促使部分內(nèi)容發(fā)布者采取措施阻止科技公司的數(shù)據(jù)抓齲科技公司還開始需要解釋如何獲取并使用大量數(shù)據(jù)來訓(xùn)練他們的模型。

也因此,在繼續(xù)為自己的行為辯護(hù)的同時(shí),科技巨頭們也開始悄悄針對(duì)一些付費(fèi)內(nèi)容進(jìn)行談判,涉及的內(nèi)容從聊天記錄到那些已經(jīng)式微的社交媒體應(yīng)用程序所擁有的、被遺忘已久的個(gè)人照片和視頻等,使得相關(guān)隱性交易逐漸火熱起來。

例如,據(jù)媒體援引知情人士消息,在ChatGPT于2022年底推出后的數(shù)月內(nèi),Meta、谷歌、亞馬遜和蘋果等科技巨頭都與圖片平臺(tái)Shutterstock簽訂協(xié)議,以使用其數(shù)億張圖片、視頻和音樂文件進(jìn)行AI模型訓(xùn)練。Shutterstock的首席財(cái)務(wù)官亞哈斯(Jarrod Yahes)透露,與大型科技公司的最初交易額在2500萬~5000萬美元,大多數(shù)交易規(guī)模后來均有所擴(kuò)大。一些較小的科技公司也加入了這一“淘數(shù)據(jù)熱”,在過去兩個(gè)月中加入談判。

Shutterstock的競(jìng)爭(zhēng)對(duì)手Freepik也透露,已與兩家大型科技公司達(dá)成協(xié)議,授權(quán)擁有的2億張圖片檔案中的大部分,每張圖片的價(jià)格在2~4美分。公司CEO阿布拉(Joaquin Cuenca Abela)表示,目前還有五筆類似交易正在談判中,但他不愿透露買家身份。

作為Shutterstock早期客戶的OpenAI,還與包括美聯(lián)社、Axel Springer和湯森路透(Thomson Reuters)等至少四家新聞機(jī)構(gòu)簽署了數(shù)據(jù)授權(quán)協(xié)議,以幫助訓(xùn)練其AI大語言模型,但未披露具體細(xì)節(jié)。

Klaris law律師事務(wù)所的克拉里斯(Edward Klaris)稱:“目前,科技公司正競(jìng)相爭(zhēng)取那些擁有私人數(shù)據(jù)版權(quán)的持有者,這些私人數(shù)據(jù)無法通過網(wǎng)絡(luò)免費(fèi)抓齲”他補(bǔ)充稱,該事務(wù)所也正在為私人數(shù)據(jù)持有者提供咨詢服務(wù),涉及價(jià)值數(shù)千萬美元的交易,通過交易,這些數(shù)據(jù)持有者會(huì)將照片、電影和書籍檔案授權(quán)給科技公司,用于AI訓(xùn)練。

對(duì)于上述情況,谷歌、Meta、微軟、蘋果、亞馬遜和OpenAI均拒絕予以置評(píng),不過微軟和谷歌提供了包含數(shù)據(jù)隱私條款的供應(yīng)商行為準(zhǔn)則。谷歌并表示,如果發(fā)現(xiàn)數(shù)據(jù)供應(yīng)商違規(guī),將立即采取行動(dòng),包括終止與其合作協(xié)議。

許多主要的市場(chǎng)研究機(jī)構(gòu)表示,他們尚未開始評(píng)估這個(gè)不透明的、隱形的AI數(shù)據(jù)交易市場(chǎng)的規(guī)模,因?yàn)樵谶@個(gè)市場(chǎng)中,公司通常不會(huì)公開協(xié)議內(nèi)容。少數(shù)正在試圖對(duì)該市場(chǎng)進(jìn)行評(píng)估的研究機(jī)構(gòu),比如Business Research Insights,估計(jì)該市場(chǎng)目前價(jià)值約25億美元,預(yù)測(cè)在未來十年內(nèi)可能增長至近300億美元規(guī)模。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港