展會(huì)信息港展會(huì)大全

史蒂芬·金、扎迪·史密斯等人作品被用于訓(xùn)練人工智能
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-08-25 09:54:15   瀏覽:16332次  

導(dǎo)讀:據(jù)介紹,扎迪史密斯、史蒂芬金等人的小說被納入一個(gè)叫Book3的人工智能工具數(shù)據(jù)集,用于訓(xùn)練Meta旗下的大型語言模型LLaMA這類語言模型中最著名的就是今年年初極受關(guān)注的OpenAI公司旗下ChatGPT。此外,該數(shù)據(jù)集還被彭博公司用于訓(xùn)練他們的模型BloombergGPT。...

據(jù)介紹,扎迪史密斯、史蒂芬金等人的小說被納入一個(gè)叫Book3的人工智能工具數(shù)據(jù)集,用于訓(xùn)練Meta旗下的大型語言模型LLaMA這類語言模型中最著名的就是今年年初極受關(guān)注的OpenAI公司旗下ChatGPT。此外,該數(shù)據(jù)集還被彭博公司用于訓(xùn)練他們的模型BloombergGPT。

英國(guó)《衛(wèi)報(bào)》的報(bào)道表示,Book3中包含的圖書數(shù)據(jù)大約三分之一是小說,三分之二是非虛構(gòu)作品,這些作品基本是過去二十年中出版的。除了以上已經(jīng)列出的作品外,費(fèi)蘭特、阿特伍德、村上春樹、喬納森弗蘭岑等人的多部作品也包括其中。而已經(jīng)輸入到Meta等公司的語言模型中用于訓(xùn)練的數(shù)據(jù)也已包括了超過170000本書。

用于訓(xùn)練的圖書覆蓋的出版商十分廣泛,包括企鵝蘭登書屋(30000多本)、哈珀柯林斯出版(14000本)、麥克米倫(7000本)、牛津大學(xué)出版社(1800本)等。未來計(jì)劃納入的作品可能還包括約翰麥克阿瑟(John MacArthur)、麗貝卡索爾尼特 (Rebecca Solnit)等人。

史蒂芬金。圖源英國(guó)《衛(wèi)報(bào)》。

用于“喂養(yǎng)”這些模型的數(shù)據(jù)常來自開放網(wǎng)絡(luò),其中也包括Library Genesis、Zlibrary等影子圖書館,其中包含的大量圖書資源成為大公司眼中絕佳的分析材料。2020年發(fā)布的一篇論文顯示,OpenAI訓(xùn)練語言模型的數(shù)據(jù)來源中,有一個(gè)名為Book2的包含30萬本圖書的數(shù)據(jù)庫。今年6月的一份訴訟案中提到,Book2的數(shù)據(jù)很可能就源自影子圖書館,而這些被納入數(shù)據(jù)庫的作品常常受到版權(quán)的保護(hù)。

ChatGPT等大型語言模型對(duì)作家版權(quán)的侵犯已經(jīng)是一個(gè)被爭(zhēng)論了許久的問題。今年7月,莎拉西爾弗曼 (Sarah Silverman)、理查德卡德雷 (Richard Kadrey)和克里斯托弗戈?duì)柕?(Christopher Golden)三位作家就針對(duì)Meta的LLaMA提起訴訟,表示自己受版權(quán)保護(hù)的作品被Book3利用。

此前,作家莫娜阿瓦德(Mona Awad)和保羅特倫布萊(Paul Tremblay)也針對(duì)OpenAI提起訴訟,聲稱公司未經(jīng)作者許可將他們的小說用于訓(xùn)練語言模型,侵犯了作者版權(quán)。兩人的律師表示,對(duì)于大公司的語言模型來說,系統(tǒng)化的書籍是用于訓(xùn)練的最好選擇,因?yàn)橄噍^于自由散亂的網(wǎng)絡(luò)在線數(shù)據(jù),它們經(jīng)過了高質(zhì)量的編輯。當(dāng)時(shí)的訴狀稱,OpenAI等公司從竊取來的原創(chuàng)想法中“不公平地獲利”,理應(yīng)向作者賠償。然而,英國(guó)《衛(wèi)報(bào)》的報(bào)道顯示,兩位作者很難證明自己因小說被用于語言模型訓(xùn)練而蒙受經(jīng)濟(jì)損失。

最初創(chuàng)建 Books3 的獨(dú)立人工智能開發(fā)人員肖恩普雷瑟(Shawn Presser)在接受采訪時(shí)表示,他理解作者們的擔(dān)憂,但他創(chuàng)建這個(gè)數(shù)據(jù)集的目的恰恰是為了讓任何人都可以開發(fā)生成式人工智能工具,避免大公司壟斷技術(shù)的風(fēng)險(xiǎn)。Meta的發(fā)言人拒絕了就使用Book3發(fā)表評(píng)論。

人工智能對(duì)內(nèi)容行業(yè)的沖擊可能在未來很長(zhǎng)一段時(shí)間里都是值得憂慮的課題。《洛杉磯時(shí)報(bào)》今年5月的一篇報(bào)道就梳理了ChatGPT等語言模型可能對(duì)文學(xué)、藝術(shù)創(chuàng)作者帶來的多方面影響。文中提到,相較于職業(yè)的媒體工作者、專業(yè)作家等,缺乏工會(huì)保護(hù)的自由職業(yè)者、獨(dú)立藝術(shù)家更需要受到關(guān)注,因?yàn)樗麄兠鎸?duì)人工智能不經(jīng)同意就利用其作品用于增強(qiáng)自身的行為幾乎毫無反抗能力。

在侵權(quán)爭(zhēng)議之外,人工智能還正在深度參與內(nèi)容行業(yè)的審查工作。據(jù)《滾石》等雜志報(bào)道,美國(guó)已有學(xué)校的圖書館開始利用ChatGPT輔助圖書中敏感內(nèi)容的審查。ChatGPT判定出《追風(fēng)箏的人》《使女的故事》等暢銷書包含對(duì)性行為的“描述”并建議其下架。然而,后續(xù)的多次驗(yàn)證也說明這種判定有其不穩(wěn)定性。

參考鏈接:

1. Zadie Smith, Stephen King and Rachel Cusk’s pirated works used to train AI

https://www.theguardian.com/books/2023/aug/22/zadie-smith-stephen-king-and-rachel-cusks-pirated-works-used-to-train-ai

2. This article is more than 1 month oldAuthors file a lawsuit against OpenAI for unlawfully ‘ingesting’ their books

https://www.theguardian.com/books/2023/jul/05/authors-file-a-lawsuit-against-openai-for-unlawfully-ingesting-their-books

3. Column: Your boss wants AI to replace you. The writers’ strike shows how to fight back

https://www.latimes.com/business/technology/story/2023-05-11/column-the-writers-strike-is-only-the-beginning-a-rebellion-against-ai-is-underway

4. Sarah Silverman Sues OpenAI and Meta Over Copyright Infringement

https://www.nytimes.com/2023/07/10/arts/sarah-silverman-lawsuit-openai-meta.html?action=click&module=RelatedLinks&pgtype=Article

編譯/劉亞光

編輯/張婷

校對(duì)/柳寶慶

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港