展會信息港展會大全

紐約時報起訴OpenAI:原文章內容幾乎逐字“回吐”,還生產(chǎn)虛假信息
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-01-18 10:20:16   瀏覽:9709次  

導讀:騰訊新聞《潛望》 紀振宇 發(fā)自硅谷 人工智能初創(chuàng)公司OpenAI憑借旗下大語言模型驅動的對話機器人ChatGPT,迅速崛起為新一輪人工智能領域的領軍公司,然而在大語言模型展現(xiàn)出驚人的能力的同時,OpenAI作為風口浪尖上的公司,也在接受著更多的拷問,其中一個無...

科技新聞《潛望》 紀振宇 發(fā)自硅谷

人工智能初創(chuàng)公司OpenAI憑借旗下大語言模型驅動的對話機器人ChatGPT,迅速崛起為新一輪人工智能領域的領軍公司,然而在大語言模型展現(xiàn)出驚人的能力的同時,OpenAI作為風口浪尖上的公司,也在接受著更多的拷問,其中一個無法回避的問題是:訓練數(shù)據(jù)從何而來?

從互聯(lián)網(wǎng)上獲取大量的信息作為大模型訓練數(shù)據(jù),已經(jīng)成為了大家所默認的大模型訓練數(shù)據(jù)來源的慣例,但這其中有多少數(shù)據(jù)是人工智能公司有權使用的,存在不小的灰色地帶。剛剛過去的2023年12月底,擁有超過170年歷史的媒體《紐約時報》提交一紙訴狀,控告OpenAI及微軟在未經(jīng)授權的情況下,使用《紐約時報》文章內容進行大模型訓練。

無論接受與否,大語言模型作為一個新生事物,已經(jīng)來到人們身邊,并且在可預見的未來會一直存在下去,內容行業(yè)如何處理好與這個新生事物之間的關系,正是《紐約時報》提出訴訟的最終意義所在。

這成為近日人工智能行業(yè)和媒體發(fā)行行業(yè)最受人矚目的事件,雙方都是各自領域最知名的機構,案件的走向和最終結果,無疑都將深刻影響到人工智能行業(yè)及媒體內容行業(yè)未來的發(fā)展。

第一起!OpenAI突遭紐約時報起訴

2023年底,《紐約時報》向ChatGPT背后的公司OpenAI及微軟提起訴訟,稱后者在沒有獲得授權的情況下,使用了《紐約時報》的文章內容用于大模型訓練。

在起訴書中,《紐約時報》稱,微軟和OpenAI在訓練其大模型時,“復制和使用了數(shù)百萬”該報的文章,并與該報的內容直接形成“競爭”,侵犯了其權益。

《紐約時報》并沒有在這份起訴書中提出具體的賠償金額,但表示,被告方擔負著“數(shù)十億美元賠償”的責任!都~約時報》還要求OpenAI銷毀所有未經(jīng)授權的訓練數(shù)據(jù)和相關的模型。

該報表示,曾向微軟和OpenAI提出上述侵犯知識產(chǎn)權的問題,但未能獲得妥善解決。

在收到起訴書后,OpenAI發(fā)言人Lindsey Held在一份聲明中表示,與《紐約時報》的談判正在處在“建設性發(fā)展”的階段,因此對于《紐約時報》突然提出訴訟的舉動感到驚訝和失望。

OpenAI方面表示,公司一直尊重內容創(chuàng)作者和所有者,并且致力于與他們合作以確保他們能夠從人工智能、科技和新的商業(yè)模式中獲益。

在海量數(shù)據(jù)的訓練下,GPT模型展現(xiàn)出非同以往的理解力,由此應運而生的ChatGPT文本聊天機器人從2022年底發(fā)布至今一年多的時間內,迅速引領了新一輪的生成式人工智能熱潮,但OpenAI以及其他大模型公司所面臨的一個難以回避的問題是,用于模型訓練的數(shù)據(jù)的獲取來源。

據(jù)公開資料顯示,OpenAI的GPT3模型所使用的訓練數(shù)據(jù),是在過去12年時間,通過從6000萬個互聯(lián)網(wǎng)站點網(wǎng)絡爬取的方式獲取,包括有版權保護的文章、互聯(lián)網(wǎng)發(fā)布內容、網(wǎng)頁和書籍等。

科技媒體TechCrunch曾報道,OpenAI的訓練數(shù)據(jù)包括從BBC、紐約時報、Reddit、在線書籍等有版權保護的內容。

2019年,在回復美國專利局關于人工智能創(chuàng)新專利保護方面的質詢時,OpenAI表示,“在現(xiàn)有的法律下,訓練AI系統(tǒng)(包括GPT模型)的方式是符合‘公平使用’ (fair use)的”,但是在缺乏這一點上明確的“判例”,OpenAI和其他的人工智能開發(fā)者將面臨巨大的法律和合規(guī)方面的不確定性和成本。

《紐約時報》對OpenAI的起訴,是第一起美國主要媒體機構對人工智能公司就內容版權問題所提起的訴訟,已經(jīng)吸引了許多的關注,這牽涉到許多的問題,包括未來像如何規(guī)范OpenAI這樣的人工智能企業(yè)對訓練數(shù)據(jù)的使用,《紐約時報》等媒體或內容生產(chǎn)方與人工智能企業(yè)之間的關系如何發(fā)展等。

起訴書細節(jié):原文章內容幾乎逐字“回吐”

在起訴書中,《紐約時報》稱,自己的網(wǎng)站nytimes.com的內容,是被OpenAI用網(wǎng)絡爬取的方式獲取內容數(shù)據(jù)最多的私營站點,在所有站點中排名僅次于谷歌專利站點(patents.google.com)和維基百科。

《紐約時報》列舉了許多ChatGPT和微軟必應搜索生成結果與《紐約時報》文章幾乎完全一樣的例子,包括一篇2012年發(fā)表的關于蘋果全球產(chǎn)業(yè)鏈的文章,ChatGPT幾乎是將《紐約時報》文章完全逐字生成出來。

《紐約時報》稱,OpenAI是在完全知情的情況下,有著侵權的主觀意愿(Willful Infringement),被告方在模型訓練階段大量地進行了未經(jīng)授權的對時報文章內容的復制,最終不可避免地導致將未經(jīng)授權的內容經(jīng)過ChatGPT生成的結果,呈現(xiàn)給用戶。

該報還提出,OpenAI的首席執(zhí)行官Sam Altman在去年11月底被董事會罷免,就因為與另一位董事會成員Helen Toner在包含版權問題方面有許多的意見沖突。

除了指出OpenAI和微軟涉嫌侵權外,《紐約時報》還更進一步指出大模型的幻覺問題導致虛假信息這一更嚴重問題,例如在要求GPT模型列舉出主要媒體報道“橙汁會導致淋巴瘤”的文章時,GPT模型煞有介事地引出了《紐約時報》在2020年1月10日的一篇標題為“研究表明橙汁與淋巴瘤有關聯(lián)”的文章,但實際上《紐約時報》從來沒有發(fā)表過這樣的文章。

OpenAI方面在收到《紐約時報》起訴書后保持沉默了幾天,在1月8日發(fā)表了一份官方聲明作為對此次訴訟的回應。在這份聲明中,OpenAI表達了愿意與媒體、新聞行業(yè)合作的姿態(tài),同時強調《紐約時報》的這份訴訟沒有任何可取之處。

OpenAI列舉了自己對于這件事的四個方面的立場,首先OpenAI認為自己與媒體是合作的姿態(tài)并創(chuàng)造了新的機會;第二,對媒體內容的使用符合“公平使用”原則,同時OpenAI也提供了“選擇退出”的選項;第三,“內容反吐”是一個罕見的漏洞,OpenAI正在致力于將這種情況的發(fā)生降低至零;第四,《紐約時報》并沒有展現(xiàn)事情的全貌。

對于將訓練數(shù)據(jù)直接作為結果“反吐”出來的情況,OpenAI表示,自己的大模型設計和訓練的目的是學習概念并運用到新的問題解決中去,將訓練數(shù)據(jù)直接記憶并且“反吐”出來作為結果,是罕見的失誤。

對于OpenAI在聲明中所稱對版權保護內容的使用是“公平使用”(fair use),一位在美國從事商業(yè)版權保護相關的律師對科技新聞《潛望》表示,對于任何一個AI系統(tǒng)來說,如果輸出的內容與被版權保護的內容類似,就能夠被稱為“公平使用”,但是如果用戶可以從AI那里直接獲取到與原內容一樣的內容,所謂的“公平使用”在抗辯上就很難站得住腳。

在這起起訴事件發(fā)生后,業(yè)界許多人士也發(fā)表了看法。人工智能專家、百度前首席科學家Andrew Ng認為,與人類通過閱讀公開網(wǎng)絡上的文檔、學習并產(chǎn)生新思想的行為類似,AI也應該被允許這樣做,并認為這應該被視為合理使用,盡管這最終需要立法者和法院來決定。

至于幾乎逐字復述文章的問題,Andrew Ng懷疑這是由于AI的某種機制導致的,但不確定這是否與大眾所認為的完全相同。

他表示,同情那些擔心生成性AI會破壞他們業(yè)務的媒體公司,但不認為《紐約時報》的訴訟是正確的應對方式。

大概率達成和解:好內容能否爭取到更多利益

一位從事美國商業(yè)版權法相關的律師對科技新聞《潛望》表示,構成版權侵權主要包含原告版權所有權、原創(chuàng)作、版權保護、未經(jīng)授權使用、傳播等,原告有舉證的義務,從這幾點來看,《紐約時報》對OpenAI和微軟關于侵權的起訴是成立的。

但這位律師提出,就《紐約時報》所提出的OpenAI與該報的內容直接形成競爭,其實有進一步探討的余地,因為大模型的訓練使用的都是歷史數(shù)據(jù)內容,并非是最新的內容,從這個意義上來看,大模型并不會直接影響《紐約時報》或其他內容生產(chǎn)者的業(yè)務。

“但對于一個用戶來說,如果通過ChatGPT就能查詢到《紐約時報》過去需要付費才能查看的文章,這樣也會對(紐約時報)訂閱有一定影響。”這位律師表示。

對于媒體或內容行業(yè)來說,如何應對新的一輪生成式AI也面臨著巨大的挑戰(zhàn),部分媒體已經(jīng)選擇了合作,例如美聯(lián)社,和旗下?lián)碛姓晤惷襟wPolitico和商業(yè)媒體Business Insider的Axel Springer SE公司等,已經(jīng)與OpenAI簽訂了合作協(xié)議,允許OpenAI使用內容進行模型訓練。但更多的媒體選擇了抵制,除了《紐約時報》通過訴訟方式爭取權益外,BBC、路透、CNN等都關閉了OpenAI網(wǎng)絡爬取的渠道。

《喬布斯傳》和《馬斯克傳》作家Issacson表示,這起訴訟案將是我們有生以來記者和出版行業(yè)最重要的案件。如果AI公司能夠與新聞和出版商達成協(xié)議獲得內容的授權來訓練他們的AI模型,這將會拯救地方性媒體、雜志和出版。

“這將會為做新聞報道的人提供一個商業(yè)模式的支持,對于準確、高質量的媒體內容會有額外的回饋,”Issacson說,“AI公司都會爭相追捧最具價值、最可靠的訓練數(shù)據(jù)。”

他對美聯(lián)社和Axel Springer能夠與OpenAI達成協(xié)議表示祝賀,也贊賞了《紐約時報》向OpenAI發(fā)起訴訟的舉動。

這一案件接下來的走向,無論對于人工智能還是媒體出版行業(yè)來說,都可能產(chǎn)生重大影響,因為除了OpenAI以外,幾乎所有的大模型相關的公司,都或多或少使用了存在爭議的訓練數(shù)據(jù)。有律師表示,這一案件最終雙方達成和解的可能性很大,也是雙方最希望達成的結果。

但媒體內容與大語言模型訓練數(shù)據(jù)之間的關系如何處理,未來仍有許多路要嘗試。有人提出建議媒體內容可以增加一層僅向大模型訓練授權的部分,這部分可以與大模型AI公司達成授權協(xié)議,在確保媒體或內容生產(chǎn)方利益不受損害的同時,也能保證大模型獲得所需的訓練數(shù)據(jù)。

贊助本站

人工智能實驗室
AiLab云推薦
推薦內容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港