展會信息港展會大全

Meta 承認使用盜版書籍來訓練 AI,并拒絕賠償作家
來源:互聯網   發(fā)布日期:2024-01-14 19:16:02   瀏覽:5322次  

導讀:IT之家 1 月 14 日消息,大型語言模型(LLM)技術近年來取得了巨大進步,但其背后卻隱藏著版權糾紛的陰云?萍季揞^們利用海量文本數據訓練 LLM,其中難免會涉及到受版權保護的作品,招致作者和媒體組織的強烈抗議。 圖源 Pexels 近日,Meta(前身為 Faceboo...

IT之家 1 月 14 日消息,大型語言模型(LLM)技術近年來取得了巨大進步,但其背后卻隱藏著版權糾紛的陰云?萍季揞^們利用海量文本數據訓練 LLM,其中難免會涉及到受版權保護的作品,招致作者和媒體組織的強烈抗議。

圖源 Pexels

近日,Meta(前身為 Facebook)就因使用包含大量盜版書籍的“Books3”數據集訓練其 LLAM 1 和 LLAM 2 模型而面臨包括喜劇演員 Sarah Silverman 和作家 Richard Kadrey 在內的一眾作者的集體訴訟。Meta 雖承認使用了 Books3 數據集,卻拒絕向作者支付適當的補償。

Books3 是一個包含 19.5 萬本圖書、總容量近 37GB 的文本數據集,由 AI 研究者 Shawn Presser 于 2020 年創(chuàng)建,旨在為改進機器學習算法提供更好的數據源。Meta 也將其用于訓練自己的 LLAM 模型,然而 Books3 中包含大量從盜版網站 Bibliotik 爬取的受版權保護作品,使得 Meta 的行為面臨法律風險。

IT之家注意到,Meta 的做法并非特例。此前,《紐約時報》也因 OpenAI 和微軟使用其文章訓練聊天機器人 ChatGPT 而對其提起訴訟。OpenAI 則辯稱,不使用受版權保護的材料來訓練 AI 模型“幾乎不可能”,并要求法院駁回相關訴訟。Meta 同樣否認故意侵犯版權,聲稱其使用 Books3 數據集屬于合理使用范疇,無需獲得許可、署名或支付補償。

此外,Meta 還在對訴訟作為集體訴訟的合法性提出異議,拒絕向提起訴訟的作家或其他參與 Books3 爭議的人士提供任何形式的經濟“補償”。

值得注意的是,Books3 數據集中的部分內容來自盜版網站 Bibliotik,該數據集在 2023 年被丹麥反盜版組織 Rights Alliance 要求下架,目前面臨數字存檔禁令。

贊助本站

人工智能實驗室
相關內容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港