展會(huì)信息港展會(huì)大全

OpenAI要向出版商付費(fèi),終究是沒(méi)有免費(fèi)的午餐
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-01-07 18:24:04   瀏覽:9403次  

導(dǎo)讀:此前在去年年末,OpenAI CEO Sam Altman在社交平臺(tái)公布了OpenAI的2024年愿望清單,下一代人工智能模型GPT-5赫然在列。此前有傳言稱,GPT-4的參數(shù)量達(dá)到了1.5萬(wàn)億,模型規(guī)模是GPT-3的數(shù)倍,因此也可想而知,未來(lái)GPT-5的參數(shù)規(guī)模必然將會(huì)更上一層樓。而這也就...

此前在去年年末,OpenAI CEO Sam Altman在社交平臺(tái)公布了OpenAI的2024年“愿望清單”,下一代人工智能模型GPT-5赫然在列。此前有傳言稱,GPT-4的參數(shù)量達(dá)到了1.5萬(wàn)億,模型規(guī)模是GPT-3的數(shù)倍,因此也可想而知,未來(lái)GPT-5的參數(shù)規(guī)模必然將會(huì)更上一層樓。而這也就意味著,OpenAI訓(xùn)練GPT-5所需的語(yǔ)料也將會(huì)達(dá)到史無(wú)前例的程度。

為此,OpenAI已經(jīng)開(kāi)始為GPT購(gòu)買新的語(yǔ)料。去年12月中旬,OpenAI方面就曾宣布與新聞出版巨頭施普林格出版集團(tuán)(Axel Springer)達(dá)成一項(xiàng)史無(wú)前例的協(xié)議,OpenAI將付費(fèi)使用施普林格旗下出版物的內(nèi)容,以填充ChatGPT的答案、并將媒體的內(nèi)容作為其訓(xùn)練數(shù)據(jù)。日前OpenAI的知識(shí)產(chǎn)權(quán)和內(nèi)容主管Tom Rubin在接受媒體采訪時(shí)也證實(shí),OpenAI正在積極與傳媒行業(yè)接觸。

Tom Rubin表示,“我們正在與許多出版商進(jìn)行許多談判和討論。他們很活躍,也非常積極,談判進(jìn)展得很順利。你已經(jīng)看到了我們公開(kāi)的部分交易,未來(lái)還會(huì)有更多。”

然而,海外的出版商似乎對(duì)于OpenAI給出的價(jià)碼不太滿意。最近與OpenAI進(jìn)行談判的兩名媒體公司高管就表示,OpenAI僅僅愿意向部分媒體公司提供每年100萬(wàn)至500萬(wàn)美元的授權(quán)費(fèi)用。即使是對(duì)小型出版商來(lái)說(shuō),這也是一個(gè)很小的數(shù)字,所有有觀點(diǎn)認(rèn)為這可能會(huì)讓OpenAI很難達(dá)成協(xié)議。

OpenAI最近開(kāi)始積極投身于購(gòu)買版權(quán)內(nèi)容的原因其實(shí)很簡(jiǎn)單,因?yàn)橐呀?jīng)版權(quán)方“盯上”了他們。就在去年12月27日,大名鼎鼎的《紐約時(shí)報(bào)》就指控OpenAI和微軟未經(jīng)授權(quán)使用其數(shù)以百萬(wàn)計(jì)的報(bào)道,以訓(xùn)練ChatGPT等人工智能聊天機(jī)器人。

《紐約時(shí)報(bào)》方面認(rèn)為,“(OpenAI)試圖搭《紐約時(shí)報(bào)》在新聞?lì)I(lǐng)域巨額投資的便車,在未經(jīng)許可或未付款的情況下利用《紐約時(shí)報(bào)》的內(nèi)容來(lái)制造替代產(chǎn)品”。

為什么在2023年年末,OpenAI使用未經(jīng)許可的數(shù)據(jù)會(huì)被拿出說(shuō)事呢?答案是GPT-4對(duì)于數(shù)據(jù)或者說(shuō)語(yǔ)料的渴求,使得目前互聯(lián)網(wǎng)上公開(kāi)數(shù)據(jù)源的開(kāi)源語(yǔ)料庫(kù)已經(jīng)無(wú)法滿足。

比如,訓(xùn)練ChatGPT的45TB數(shù)據(jù)主要來(lái)源于Common Crawl、維基百科、美國(guó)專利文件數(shù)據(jù)庫(kù)。其中,Common Crawl是一個(gè)抓取互聯(lián)網(wǎng)、并提供數(shù)據(jù)開(kāi)源下載的開(kāi)源數(shù)據(jù)庫(kù),截止2023年4月其一共匯聚了31億個(gè)網(wǎng)頁(yè)、共有400TB的原始數(shù)據(jù),而紐約時(shí)報(bào)》的域名就是最具代表性的專有來(lái)源之一,貢獻(xiàn)了超過(guò)1600萬(wàn)條內(nèi)容。

然而Common Crawl、維基百科、美國(guó)專利文件數(shù)據(jù)庫(kù)不是政府機(jī)構(gòu)、就是非盈利性組織,所以《紐約時(shí)報(bào)》沒(méi)法使用版權(quán)這個(gè)武器,但OpenAI就不一樣了,擁有ChatGPT Plus的它已經(jīng)是一個(gè)盈利組織。而《紐約時(shí)報(bào)》的底氣,則源自于OpenAI單單是訓(xùn)練ChatGPT,就已經(jīng)幾乎將互聯(lián)網(wǎng)一切英語(yǔ)資源一網(wǎng)打盡,GPT-4的訓(xùn)練更是使用了超過(guò)13萬(wàn)億tokens,甚至OpenAI方面自己都承認(rèn),訓(xùn)練GPT-4時(shí)使用了來(lái)自《紐約時(shí)報(bào)》的版權(quán)內(nèi)容。

為了避免第二個(gè)、第三個(gè)《紐約時(shí)報(bào)》出現(xiàn),OpenAI就只能選擇付錢(qián)來(lái)購(gòu)買內(nèi)容。

那么問(wèn)題就來(lái)了,每年100萬(wàn)至500萬(wàn)美元的授權(quán)費(fèi)用,出版商為什么會(huì)覺(jué)得這筆錢(qián)很少呢?因?yàn)樵诔霭嫔炭磥?lái),向OpenAI授權(quán)相關(guān)數(shù)據(jù)幾乎就等于“賣出絞死自己的最后一根絞索”。

如果說(shuō)當(dāng)年的搜索引擎與出版商是雙贏的關(guān)系,畢竟前者需要內(nèi)容源來(lái)滿足用戶的信息需求,出版商則需要搜索引擎將流量引導(dǎo)到自己的網(wǎng)站,并且搜索引擎只提供簡(jiǎn)介和鏈接,詳情則要用戶點(diǎn)開(kāi)鏈接到內(nèi)容提供方的源頭去看。可現(xiàn)在的ChatGPT、Bing Chat卻是直接在自己的頁(yè)面中向用戶提供內(nèi)容,這無(wú)疑就是對(duì)于出版商的釜底抽薪。

換而言之,通過(guò)ChatGPT用戶可以直接看到由AI整合的新聞,根本就不需要去《紐約時(shí)報(bào)》官網(wǎng)再去看相關(guān)的內(nèi)容,長(zhǎng)此以往,新聞出版機(jī)構(gòu)存在的意義又在哪里呢?

并且由于AI大模型的發(fā)展趨勢(shì)儼然已經(jīng)勢(shì)不可擋,正如當(dāng)年新聞出版行業(yè)被迫與搜索引擎、社交網(wǎng)絡(luò)媾和一樣,因此以《紐約時(shí)報(bào)》為代表的新聞出版商選擇以自己手中的版權(quán)作為武器,試圖在蓬勃發(fā)展的AI行業(yè)中分到一杯羹。

而OpenAI大張旗鼓地向出版商購(gòu)買版權(quán),其實(shí)也是一個(gè)陽(yáng)謀。現(xiàn)階段,大模型賽道的現(xiàn)狀是資本和技術(shù)雙密集,算力成本極其昂貴,以至于有相當(dāng)多的AI初創(chuàng)企業(yè)被迫接受擁有算力資源的英偉達(dá)的投資,以此來(lái)獲得更便宜的算力。如果未來(lái)數(shù)據(jù)或者語(yǔ)料也成為大模型行業(yè)的成本,無(wú)疑就將會(huì)勸退一大批競(jìng)爭(zhēng)者,這對(duì)于保持OpenAI競(jìng)爭(zhēng)力的相對(duì)領(lǐng)先,顯然是有很大意義的事情。

可是OpenAI訓(xùn)練GPT需要的內(nèi)容實(shí)在太多,以至于即使不缺資金支持,也難以讓每一家出版商都滿意,這就是當(dāng)下OpenAI面臨的困局。當(dāng)擁有數(shù)據(jù)的一方經(jīng)過(guò)了2023年AI大模型領(lǐng)域爆發(fā)式的增長(zhǎng)后,已經(jīng)充分認(rèn)識(shí)到了手中的數(shù)據(jù)是有價(jià)值的,已經(jīng)處于衰退的出版商就必然指望從這些AI企業(yè)手獲得更多的收益。

因此從某種意義上來(lái)說(shuō),在OpenAI造出GPT-5、并產(chǎn)生一個(gè)能自我生產(chǎn)內(nèi)容的AI之前,被新聞出版商圍獵幾乎是必然。

【本文圖片來(lái)自網(wǎng)絡(luò)】

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港