鞭牛士報道,11月9日消息,據(jù)外電報道,根據(jù)Ziff Davis 的一項新研究,谷歌、OpenAI 和 Meta 等人工智能巨頭在訓(xùn)練大型語言模型時更加重視來自知名新聞來源的內(nèi)容。
這一發(fā)現(xiàn)可以幫助公眾了解聊天機器人從哪里獲取信息,并為 Ziff Davis、芝加哥論壇報、新聞集團和紐約時報等媒體公司在尋求版權(quán)保護或支付被人工智能吞噬的材料時提供更多籌碼。
研究指出:我們的研究表明,關(guān)鍵的AI培訓(xùn)數(shù)據(jù)集主要由新聞和媒體網(wǎng)站商業(yè)出版商擁有的高質(zhì)量內(nèi)容組成。在AI技術(shù)發(fā)展短暫的歷史上,主要的AI公司已在培訓(xùn)最重要的AI時優(yōu)先考慮了這些內(nèi)容。
Ziff Davis 是 PCMag 的母公司。這項研究由該公司首席 AI 律師 George Wukoson 和首席技術(shù)官 Joey Fortuna 進行。它檢查了 AI 公司承認使用的數(shù)據(jù)集的開源副本,包括 Common Crawl、C4、OpenWebText 和 OpenWebText2。
OpenAI 承認會對其認為高質(zhì)量的數(shù)據(jù)集賦予更多權(quán)重,包括新聞媒體、受版權(quán)保護的書籍以及 Reddit 熱門帖子中嵌入的鏈接。這是一種對 LLM 從網(wǎng)絡(luò)上抓取的所有內(nèi)容進行排名的方式,目的是為用戶提供更好的答案。
例如,盡管 WebText2 只占 3.8% 的 token,但它在訓(xùn)練 GPT-3 時賦予了它 22% 的權(quán)重。WebText2 中嵌入的近 13.5% 的 URL 來自 15 家頂級媒體出版商,其中包括新聞集團、紐約時報、Gannett、Ziff Davis、Vox Media、Axel Springer、Alden Capital、赫斯特、華盛頓郵報、BuzzFeed、Future、IAC 和 Bustle。
數(shù)據(jù)集的內(nèi)容也會隨時間而變化。例如,OpenAI 在 OpenWebText 中高度重視《華盛頓郵報》的內(nèi)容,但在 OpenWebText2 發(fā)布后,其重要性有所降低。
齊夫戴維斯 (Ziff Davis) 表示,研究結(jié)果量化了新聞媒體對人工智能聊天機器人未來的重要性,而且新聞媒體無需為此付費。這種長期利用優(yōu)質(zhì)出版商內(nèi)容(對 LLM 公司來說利潤豐厚)[意味著] 失去了一些全球估值最高的公司的許可收入。
如果不為內(nèi)容付費,出版商可能會破產(chǎn),從而威脅人工智能時代優(yōu)質(zhì)信息的持續(xù)流動。
據(jù)路透社報道,此前,一名聯(lián)邦法官駁回了 Raw Story 和 AlterNet 對 OpenAI 提起的訴訟,該訴訟稱,OpenAI 未經(jīng)許可使用其內(nèi)容培訓(xùn)法學(xué)碩士。 《紐約時報》提起的相關(guān)案件仍在審理中。OpenAI 還與許多頂級媒體公司簽署了許可協(xié)議。
OpenAI 最新推出的產(chǎn)品ChatGPT 搜索現(xiàn)在除了總結(jié)其中的內(nèi)容外,還引用了部分來源。