展會信息港展會大全

一文讀懂:AI大模型訓(xùn)練中的核心版權(quán)問題
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-10-19 18:06:24   瀏覽:6541次  

導(dǎo)讀:朱開鑫 騰訊研究院 AIGC大模型的快速崛起,在重塑內(nèi)容行業(yè)創(chuàng)作邏輯、賦能人們工作生活的同時,也引發(fā)了版權(quán)制度層面一系列新的挑戰(zhàn)。相較于AI生成內(nèi)容的版權(quán)屬性和權(quán)利分配, 大模型訓(xùn)練階段究竟涉及哪些版權(quán)利用行為,這一過程可能存在哪些侵權(quán)風(fēng)險,以及如...

朱開鑫騰訊研究院

AIGC大模型的快速崛起,在重塑內(nèi)容行業(yè)創(chuàng)作邏輯、賦能人們工作生活的同時,也引發(fā)了版權(quán)制度層面一系列新的挑戰(zhàn)。相較于AI生成內(nèi)容的版權(quán)屬性和權(quán)利分配,大模型訓(xùn)練階段究竟涉及哪些版權(quán)利用行為,這一過程可能存在哪些侵權(quán)風(fēng)險,以及如何借鑒域外既有探索,從產(chǎn)業(yè)發(fā)展角度搭建科學(xué)的大模型訓(xùn)練責(zé)任豁免機制,更為各界所關(guān)注。在全球各國紛紛發(fā)力AIGC領(lǐng)域的大背景下,迫切需要對于上述議題加以研究、探討,以減少技術(shù)進步和產(chǎn)業(yè)發(fā)展面臨的不確定性。

問題提出:

大模型訓(xùn)練中的版權(quán)爭議備受關(guān)注

1.這是探討大模型版權(quán)所有問題的起點

一方面,大模型訓(xùn)練問題存在于生成式人工智能生命周期的伊始,如不能妥善解決,AIGC大模型的研發(fā)便始終處于侵權(quán)不確定狀態(tài)。從行業(yè)實踐和技術(shù)原理來看,目前各類生成式人工智能利用海量內(nèi)容數(shù)據(jù)進行模型訓(xùn)練的方法大致可抽象為如下兩步:第一步,通過購買數(shù)據(jù)庫、公開爬取等方式獲得海量內(nèi)容數(shù)據(jù),進行一定形式的轉(zhuǎn)換之后,存儲在相關(guān)服務(wù)器之中;第二步,對內(nèi)容數(shù)據(jù)進行分析處理,以發(fā)現(xiàn)一定的模式、趨勢以及相關(guān)性并轉(zhuǎn)變?yōu)榇竽P蛥?shù),供后續(xù)內(nèi)容生成時調(diào)取使用。

另一方面,當(dāng)下生成式人工智能領(lǐng)域的版權(quán)糾紛大都聚焦于,模型訓(xùn)練階段未經(jīng)授權(quán)的版權(quán)利用行為。據(jù)不完全統(tǒng)計,自2022年11月至2023年10月,僅美國加州北區(qū)法院便已經(jīng)受理了10起,版權(quán)人起訴Stability AI、Open AI、Meta、Alphabet等AIGC研發(fā)企業(yè)未經(jīng)授權(quán),利用版權(quán)作品進行模型訓(xùn)練的案件。2023年6月,國內(nèi)在網(wǎng)絡(luò)教培行業(yè)也曾發(fā)生過,未經(jīng)授權(quán)利用第三方平臺作品數(shù)據(jù)進行大模型訓(xùn)練導(dǎo)致的紛爭。

2.傳統(tǒng)“授權(quán)許可模式”在AI時代的失靈

第一,授權(quán)的基礎(chǔ)不明確,授予的是版權(quán)法上的何種權(quán)利有待論證。表面看AIGC模型訓(xùn)練行為類似于自然人閱讀文字作品、欣賞美術(shù)作品后的“思考、吸收、再創(chuàng)作的行為”,這和既有的版權(quán)專有權(quán)利無法具體對應(yīng)。[1]需要注意的是,模型對于作品藝術(shù)風(fēng)格的學(xué)習(xí)模仿并不是版權(quán)法上規(guī)制的問題,藝術(shù)風(fēng)格應(yīng)當(dāng)允許公眾自由使用,這關(guān)系到表達(dá)自由與創(chuàng)意經(jīng)濟的發(fā)展。即便將這一行為納入版權(quán)規(guī)制范疇,也存在版權(quán)人行權(quán)的現(xiàn)實困難。原因在于,AIGC模型訓(xùn)練行為本質(zhì)上是一種機器內(nèi)部的非外顯性作品利用行為,版權(quán)人存在發(fā)現(xiàn)模型侵權(quán)、舉證模型侵權(quán)以及侵權(quán)內(nèi)容比對等方面的判定困境。

第二,授權(quán)的可行性存疑,存在規(guī)模過大、主體不明、機制困難等系列問題。AIGC模型訓(xùn)練涉及的作品數(shù)量眾多、來源各異、權(quán)屬不同,若采用事先授權(quán)許可的方式:一方面,需要精準(zhǔn)地將受保護的作品從海量數(shù)據(jù)中進行分離、提;另一方面,再找到每一部版權(quán)作品對應(yīng)的權(quán)利人與之協(xié)商授權(quán),并支付價格不一的授權(quán)費用。這一過程漫長復(fù)雜且極難落地操作。

第三,授權(quán)的意義待評估,可能產(chǎn)生“過度擬合”“寒蟬效應(yīng)”“模型偏見”等負(fù)面效應(yīng)。實踐中,具有諷刺結(jié)果的是,任何限制模型訓(xùn)練內(nèi)容規(guī)模與可用性的舉措都可能產(chǎn)生意想不到的問題,即增加模型簡單輸出被訓(xùn)練作品復(fù)制內(nèi)容的概率。此外,高昂的授權(quán)許可費用和侵權(quán)風(fēng)險的不確定性,將可能直接帶來人工智能技術(shù)和產(chǎn)業(yè)發(fā)展的“寒蟬效應(yīng)”,并產(chǎn)生因數(shù)據(jù)規(guī)模不足和數(shù)據(jù)質(zhì)量不高引發(fā)的“模型偏見”等不良后果。[2]

責(zé)任聚焦:

大模型訓(xùn)練涉及哪些版權(quán)規(guī)制行為?

從AIGC模型訓(xùn)練階段的技術(shù)流程和基本原理來看,當(dāng)我們談及這一階段的版權(quán)問題時,實際上討論的是如何從版權(quán)法角度看待,“作品獲取”“作品存儲”與“作品分析”這三個行為。目前,整體來看只有“作品存儲”行為可以納入版權(quán)法“復(fù)制權(quán)”規(guī)制范疇,而更為核心的“作品分析”行為能否受到版權(quán)法規(guī)制仍值得探討。

1.如何從版權(quán)法角度看待“作品獲取”行為?

在“作品獲取”階段,需要關(guān)注內(nèi)容數(shù)據(jù)獲取合法性的問題,包括對數(shù)據(jù)庫內(nèi)容、網(wǎng)絡(luò)公開內(nèi)容等的獲取是否合法,是否存在破壞計算機信息系統(tǒng)、違反數(shù)據(jù)爬取保護措施、違反API端口協(xié)議等行為。之所以對于模型訓(xùn)練階段的版權(quán)問題探討,將“作品獲取”行為和“作品存儲”行為加以區(qū)分,是因為后續(xù)伴隨技術(shù)模式的發(fā)展,存在通過“云端計算”“聯(lián)邦學(xué)習(xí)”等方式,在不存儲數(shù)據(jù)的情況下,便可以通過對內(nèi)容數(shù)據(jù)的接觸獲取而直接進行模型訓(xùn)練的可能。

從版權(quán)法角度看,“獲取作品”或者說對于作品的接觸類似線上瀏覽網(wǎng)頁和線下閱讀書籍,只接觸不存在后續(xù)的傳播利用大概率并不會觸發(fā)版權(quán)侵權(quán)責(zé)任。這一階段的核心版權(quán)問題主要涉及是否存在破壞作品“技術(shù)保護措施”的行為。根據(jù)我國《著作權(quán)法》規(guī)定,違反保護作品技術(shù)措施的規(guī)定亦構(gòu)成侵權(quán)。即使在滿足“合理使用制度”的情況下使用作品,但需要規(guī)避技術(shù)措施才可以獲得該作品,如果此種規(guī)避并不符合《著作權(quán)法》第50條關(guān)于避開技術(shù)措施的豁免規(guī)定,則可以在認(rèn)定滿足合理使用的基礎(chǔ)上,同時認(rèn)定構(gòu)成違反技術(shù)措施而承擔(dān)侵權(quán)責(zé)任。[3]

2.如何從版權(quán)法角度看待“作品存儲”行為?

應(yīng)當(dāng)說在模型訓(xùn)練階段,對于內(nèi)容數(shù)據(jù)的儲存行為落入到版權(quán)法上“復(fù)制權(quán)”的規(guī)制范疇,沒有過多疑問。但值得注意,伴隨內(nèi)容生產(chǎn)和傳播領(lǐng)域新技術(shù)的應(yīng)用,也需要我們思考是否存在過度孤立看待“復(fù)制權(quán)”的問題。因為“復(fù)制”往往僅是依附于“作品主要利用行為”的準(zhǔn)備行為而已,若不存在復(fù)制之后的發(fā)行、廣播、信息網(wǎng)絡(luò)傳播等版權(quán)法規(guī)制的作品利用行為,侵權(quán)損害實際上無從談起,版權(quán)人也無從發(fā)現(xiàn)自身作品是否被利用。

時至今日,是否應(yīng)為信息技術(shù)和商業(yè)模式的演進,預(yù)留出一定的“復(fù)制自由”,類似于“避風(fēng)港制度”誕生之際創(chuàng)設(shè)的“緩存自由”一般,有待進一步探討。[4]在最高人民法院2013年十大知識產(chǎn)權(quán)案件“王莘(棉棉)訴谷歌公司等圖書搜索案”中,核心爭議便是在后續(xù)對于圖書片段“信息網(wǎng)絡(luò)傳播行為”構(gòu)成合理使用的情況下,前期的“復(fù)制行為”是否構(gòu)成單獨的侵權(quán)(北京一中院觀點)或者可以被后續(xù)合理使用行為所吸收(北京高院觀點)。

具體來看,在“谷歌圖書館案”一審中,北京一中院提出了在早期“文本與數(shù)據(jù)挖掘”案件中之所以需要單獨認(rèn)定“復(fù)制行為”的原因:一方面,以“使用”為目的而對作品進行復(fù)制,從實際損害來看,雖然不會使公眾獲得這一復(fù)制件,但使得復(fù)制者在無需購買合法復(fù)制件的情況下即可使用這一作品,這會影響到合法復(fù)制件的銷售;另一方面,從潛在損害來看,侵權(quán)危險通常來源于他人以“傳播作品”(如發(fā)行、廣播、信息網(wǎng)絡(luò)傳播等)為目的而進行的復(fù)制行為。但從當(dāng)下AIGC模型訓(xùn)練來看,對標(biāo)上述邏輯分析:一方面,只要獲取被訓(xùn)練內(nèi)容數(shù)據(jù)的方式合法,實際損害這個問題便無需過度關(guān)注;另一方面,潛在損害也存在疑問,因為模型訓(xùn)練涉及的內(nèi)容處理分析行為,本身能否構(gòu)成版權(quán)法規(guī)制的行為,進而對版權(quán)人帶來損害仍存在一定爭議,下文會詳細(xì)論述。

3.如何從版權(quán)法角度看待“作品處理”行為?

模型內(nèi)部的內(nèi)容分析處理行為對應(yīng)版權(quán)法上的何種權(quán)利存在疑問,且理論界和實務(wù)界目前尚未有明確結(jié)論。有觀點認(rèn)為“作品處理”行為落入版權(quán)法中“改編權(quán)”的規(guī)制范疇,但所謂的改編權(quán)是指改編既有作品形成新作品的行為,然而對作品數(shù)據(jù)進行分析處理,并生成包含一定模式、趨勢以及相關(guān)性的參數(shù),這一過程不涉及新作品的形成,明顯難以契合“改編權(quán)”的要求。也有觀點表示由于現(xiàn)行《著作權(quán)法》缺乏具體權(quán)利對應(yīng)“作品處理”行為,可以通過“權(quán)利兜底條款”加以規(guī)制。

還有觀點認(rèn)為,上述行為不屬于版權(quán)規(guī)制的權(quán)利范疇。從目前廣泛應(yīng)用的AIGC產(chǎn)品模型來看,模型訓(xùn)練階段的“作品處理”行為大致有兩類:一類是“文生圖”領(lǐng)域比如Stable Diffusion模型,通過對既有圖像內(nèi)容的分析處理,獲得思想層面的藝術(shù)風(fēng)格、感覺、靈感等作為模型參數(shù)加以存儲;另一類是“文生文”領(lǐng)域比如GPT模型,是在統(tǒng)計學(xué)“自回歸原理”下,不斷學(xué)習(xí)海量在先作品中不同文字之間排列組合的概率和規(guī)律,然后內(nèi)化為自身的模型參數(shù)。

版權(quán)法遵循“思想表達(dá)二分法”的基本邏輯,強調(diào)“不保護自然人的思想,只保護自然人對于思想的外在表達(dá)”。對于第一類“作品處理”行為,本質(zhì)上僅是對作品思想層面藝術(shù)風(fēng)格等的分析、學(xué)習(xí),故而這一行為作用的對象不屬于版權(quán)法保護的客體,行為本身便也不屬于版權(quán)法可以規(guī)制的權(quán)利范疇。對于第二類“作品處理”行為,對于作品僅僅是進行統(tǒng)計學(xué)意義上文字組合概率的學(xué)習(xí),不是為了使用和展示作品中的表達(dá)性內(nèi)容,因此亦不屬于版權(quán)法意義上的作品利用行為。

域外觀察:

加速探索大模型訓(xùn)練責(zé)任豁免機制

本輪AIGC變革始于2022年11月底ChatGPT的發(fā)布,至今不足1年時間,各國版權(quán)立法尚未能做出針對性的調(diào)整。但在此前弱人工智能階段,一些國家為促進本國AI產(chǎn)業(yè)發(fā)展,已經(jīng)進行了版權(quán)立法改革探索,以豁免AIGC平臺在模型訓(xùn)練階段的版權(quán)責(zé)任。目前來看大致可分為三類:一是歐盟“文本與數(shù)據(jù)挖掘”模式;二是日本的“非欣賞性作品利用”模式;三是美國的“四要素分析法+轉(zhuǎn)換性使用”模式。

1.歐盟“文本與數(shù)據(jù)挖掘”模式

早在2016年9月,歐盟委員會提出修改版權(quán)法以適應(yīng)數(shù)字經(jīng)濟發(fā)展之初,“文本與數(shù)據(jù)挖掘”(Text Data Mining)便構(gòu)成了此次修法的重點。歐盟指出,新技術(shù)能夠?qū)?shù)字形式的信息進行自動計算分析,例如文本、聲音、圖像或數(shù)據(jù)。文本和數(shù)據(jù)挖掘使處理大量信息成為可能,以便獲得新知識和發(fā)現(xiàn)新趨勢。但文本與數(shù)據(jù)挖掘往往涉及大量受版權(quán)保護的內(nèi)容,為了消除相關(guān)主體面臨的法律確定性,實現(xiàn)對創(chuàng)新的激勵,應(yīng)當(dāng)給予這一行為對作品或其他客體的復(fù)制和提取以責(zé)任限制或例外。

由此,在2019年3月26日最終通過的《單一數(shù)字市場版權(quán)指令》中,歐盟便在“第二章:使例外和限制適應(yīng)數(shù)字和跨境環(huán)境的措施”下,創(chuàng)設(shè)了第3條“以科學(xué)研究為目的的文本和數(shù)據(jù)挖掘”和第4條不限制目的的“文本和數(shù)據(jù)挖掘”。具體內(nèi)容如下圖:

整體來看,目前絕大多數(shù)AIGC模型訓(xùn)練階段的作品利用行為隸屬于商業(yè)利用領(lǐng)域,僅適用第4條規(guī)定的“不限制目的的文本和數(shù)據(jù)挖掘”責(zé)任豁免情形。該規(guī)定對于“文本與數(shù)據(jù)挖掘”采取的是類似于“默示許可+‘opt-out’”的機制,有三點問題需要注意。

第一,該條規(guī)定豁免的核心是“文本與數(shù)據(jù)挖掘”過程中的“作品復(fù)制行為”。歐盟在《單一數(shù)字市場版權(quán)指令》“立法背景”中指出,為了文本和數(shù)據(jù)挖掘而進行的復(fù)制和提。“提取”針對的是“數(shù)據(jù)庫權(quán)利”中對標(biāo)作品“復(fù)制”的權(quán)利)需要在合法訪問的作品或其他客體上進行,特別是當(dāng)為了技術(shù)流程而進行的復(fù)制或提取不符合關(guān)于“臨時復(fù)制”(即“避風(fēng)港制度”對應(yīng)的緩存行為)的現(xiàn)有責(zé)任豁免條件時。由此來看,本文在第二部分關(guān)于“模型訓(xùn)練階段版權(quán)侵權(quán)風(fēng)險解構(gòu)”的分析結(jié)論,未經(jīng)版權(quán)人授權(quán)的模型訓(xùn)練行為,法律層面明顯的侵權(quán)風(fēng)險只涉及“復(fù)制權(quán)”,能夠得到歐盟修法邏輯的驗證。

第二,該條規(guī)定豁免的要件是“對于被訓(xùn)練作品和其他內(nèi)容的獲取是合法的”。歐盟指出,這種例外或限制只應(yīng)適用于被豁免主體,“合法訪問作品或其他內(nèi)容的情況”,包括已在網(wǎng)上向公眾公開以及權(quán)利人未以適當(dāng)方式保留這一權(quán)利的情形。而在此前,由于大量有價值本文的數(shù)據(jù)庫通常是收費的,因而文本與數(shù)據(jù)挖掘的例外情形并未在實質(zhì)上減輕行為人獲得許可的負(fù)擔(dān)。但在本輪以ChatGPT等為代表的生成式人工智能場景下,模型訓(xùn)練涉及的內(nèi)容大部分來源于CC(Common Crawl)、維基百科等網(wǎng)絡(luò)公開數(shù)據(jù),由此可以獲得的責(zé)任豁免價值得以凸顯。

第三,該條規(guī)定豁免的前提是“版權(quán)人未以適當(dāng)方式保留文本與數(shù)據(jù)挖掘的權(quán)利”。歐盟強調(diào),權(quán)利人應(yīng)當(dāng)能夠采取措施,確保對于文本與數(shù)據(jù)挖掘的權(quán)利保留得到尊重。根據(jù)《單一數(shù)字市場版權(quán)指令》“立法背景”的說明,“以適當(dāng)方式保留權(quán)利”可以做如下理解:對于已經(jīng)在網(wǎng)上公開提供的內(nèi)容,應(yīng)該只考慮通過使用機器可讀手段保留這些權(quán)利,包括相關(guān)的反爬等技術(shù)保護措施;在線下對于實體出版物的掃描利用等情況下,可以通過合同約定或聲明等其他方式保留。簡單來說,只要版權(quán)人不事先通過技術(shù)等方式保留自身權(quán)利,或者向模型訓(xùn)練平臺發(fā)出專門通知,明確表示自己的作品內(nèi)容不允許被訓(xùn)練,原則上模型訓(xùn)練平臺就可以不經(jīng)過版權(quán)人授權(quán)、不向其支付費用。

2.日本“非欣賞性利用”模式

2018年日本對《著作權(quán)法》進行了修改,在第30條第4款設(shè)置了新的合理使用條款“不以欣賞作品原有價值為目的的利用”。根據(jù)日本文化廳的解讀,此次修改整體上擴大了對于著作權(quán)的限制,其目的是鼓勵創(chuàng)新,迎接以人工智能、物聯(lián)網(wǎng)和大數(shù)據(jù)為代表的第四次產(chǎn)業(yè)革命。[5]值得注意的是,新一輪的日本《著作權(quán)法》修正案已于2023年5月17日通過參議院表決,并未對第30條第4款進行修改。這一定程度上也表明了立法者認(rèn)為該條能夠涵攝本輪生成式人工智能帶來的版權(quán)制度挑戰(zhàn)。

依據(jù)該條規(guī)定,AIGC模型訓(xùn)練階段的版權(quán)利用行為可以適用“不以欣賞作品原有價值為目的”的責(zé)任豁免,符合該條列舉出的“用于信息分析的情形”和兜底性“在電子計算機信息處理過程中對作品表達(dá)所進行的不被人類感知和識別的使用情形”兩項要求。因此,只要模型訓(xùn)練階段的作品利用行為,不存在“根據(jù)作品的性質(zhì)、目的和使用情況,不合理地?fù)p害版權(quán)人利益”的情形,大概率可以受到第30條第4款的責(zé)任豁免。

對于日本《著作權(quán)法》“不以欣賞作品原有價值為目的利用”的責(zé)任豁免,可以從以下幾個方面把握適用的關(guān)鍵。第一,該規(guī)定本質(zhì)上對應(yīng)的是作品的“非表達(dá)型利用”,與其說是侵權(quán)責(zé)任的豁免,不如說是對版權(quán)法中一類非侵權(quán)行為的明確。本條款列舉的具體情形,對應(yīng)的是“不以欣賞作品原有價值為目的利用”,實際涉及的是對于作品的信息分析以及機器內(nèi)部的加工處理,都不是為了向公眾傳播被利用作品的表達(dá)性內(nèi)容,也即不屬于版權(quán)法意義上的作品使用行為。

第二,該規(guī)定豁免的行為類型并不限于“作品存儲行為”,而是“必要范圍內(nèi)任何利用作品的方式”。由此,可以避免AIGC模型訓(xùn)練階段對于各類具體行為屬性認(rèn)定帶來的紛爭,例如“作品處理行為是否受到《著作權(quán)法》權(quán)利范疇的規(guī)制”。一定程度上可以說,日本“不以欣賞作品原有價值為目的利用”責(zé)任豁免模式,給予了模型訓(xùn)練研發(fā)方更明確的行為預(yù)期。

第三,該規(guī)定存在適用上的限制條件即“但因作品的種類、用途及利用方式等原因,不當(dāng)損害著作權(quán)人利益的,不在此限”。前文已述,從目前AIGC模型內(nèi)容生成模式來看,模型訓(xùn)練行為是否落入版權(quán)法專有權(quán)利規(guī)制的范疇存在疑問,因此并不會與版權(quán)人正常行使權(quán)利產(chǎn)生明顯沖突。此外,因為模型訓(xùn)練行為本質(zhì)上是對于在先作品“非表達(dá)型的利用”以及對于思想層面風(fēng)格、感覺的學(xué)習(xí),所以也不會對作品原有傳播利用市場產(chǎn)生明顯替代效應(yīng)。

2023年5月,日本政府公開了自身對于版權(quán)法領(lǐng)域模型訓(xùn)練行為的態(tài)度不會對AIGC模型訓(xùn)練中使用的內(nèi)容加以版權(quán)保護。日本文部科學(xué)大臣長岡惠子(Keiko Nagaoka)表示,日本法律不會保護AIGC模型訓(xùn)練集中使用的版權(quán)材料,也即允許AIGC模型訓(xùn)練對于版權(quán)人作品的利用,無論是出于非營利或商業(yè)目的,無論是復(fù)制還是復(fù)制以外的行為。這在一定程度驗證了,日本《著作權(quán)法》第30條第4款“不以欣賞作品原有價值為目的利用”的責(zé)任豁免,能夠適用于當(dāng)下的AIGC模型訓(xùn)練行為。

3.美國“四要素分析+轉(zhuǎn)換性使用”模式

2023年5月17日,美國國會召開“交互中的人工智能與版權(quán)法”聽證會,美國版權(quán)局前總法律顧問Sy Damle表示:“任何強制模型對于訓(xùn)練內(nèi)容付費許可的嘗試,要么會使美國AI行業(yè)破產(chǎn),消除我們在國際舞臺上的競爭力;要么會驅(qū)使這些頭部AI公司離開這個國家。”美國之所以成為全球AI產(chǎn)業(yè)的研發(fā)中心,很大原因依賴于版權(quán)法中獨一無二、廣泛靈活的合理使用條款,相信其依然可以適用于AIGC模型。這些模型從數(shù)十億的訓(xùn)練數(shù)據(jù)中提取抽象的概念和模式(concepts and patterns),并創(chuàng)造出不同于且不侵權(quán)既有作品的全新內(nèi)容。

美國版權(quán)法以“例示列舉+一般要件”的方式對合理使用制度進行了規(guī)定,具有高度靈活性。第107條規(guī)定,任何特定案件中判斷對作品的使用是否屬于合理使用時,應(yīng)考慮的因素包括:(1)使用的目的與性質(zhì);(2)該版權(quán)作品的性質(zhì);(3)使用部分占被利用作品質(zhì)與量的比例;(4)該使用對版權(quán)作品潛在市場或價值所產(chǎn)生的影響。這被稱為合理使用認(rèn)定“四要素標(biāo)準(zhǔn)”。

“商業(yè)性質(zhì)的使用”最早被排斥在美國合理使用的范疇,無償使用他人作品牟利被認(rèn)為有違公平正義的一般原則。但在隨后的司法實踐中,美國法院從“四要素標(biāo)準(zhǔn)”中的“使用目的與性質(zhì)”慢慢延伸出了“轉(zhuǎn)換性使用規(guī)則”。由此,“商業(yè)性質(zhì)的使用”不再是合理使用認(rèn)定的關(guān)鍵,重要問題是考察新作品的“轉(zhuǎn)換性”程度。例如在備受關(guān)注的“谷歌圖書館案”中,美國聯(lián)邦第二巡回上訴法院認(rèn)為谷歌將數(shù)字化后的圖書存放于服務(wù)器,供用戶以“檢索有限文字片段的方式”發(fā)現(xiàn)所需圖書,不構(gòu)成對原有圖書購買市場的替代,符合轉(zhuǎn)換性使用的要求。

高度靈活性的“四要素標(biāo)準(zhǔn)”與“轉(zhuǎn)換性使用規(guī)則”,給予美國法院在個案中認(rèn)定特定行為是否構(gòu)成合理使用存在高度的自由裁量空間,也使得論證模型訓(xùn)練適用合理使用的正當(dāng)性存在可能。對于ChatGPT類產(chǎn)品而言,模型訓(xùn)練階段的作品使用具有較強的目的轉(zhuǎn)換性,即“對于作品的利用沒有將該作品的獨創(chuàng)性表達(dá)傳播給社會大眾”。新一輪AIGC內(nèi)容生成機制實際是“學(xué)習(xí)在先作品中不同文字之間排列組合的概率,或是對作品思想層面風(fēng)格、模式等的學(xué)習(xí)再生成”。因此,AIGC輸出的內(nèi)容基本不涉及完整作品(甚至作品片段)的復(fù)制利用,相較“谷歌圖書館”而言,“侵權(quán)傳播”概率更低、“轉(zhuǎn)換使用”程度更高。[6]

目前,美國行政和司法側(cè)尚未對模型訓(xùn)練階段的版權(quán)利用行為,能否適用“四要素標(biāo)準(zhǔn)”給予傾向性意見。但值得注意的是,同樣采納合理使用“四要素分析法”的以色列,已經(jīng)表示機器學(xué)習(xí)可以獲得版權(quán)法的責(zé)任豁免。在2023年1月,以色列司法部發(fā)布專門意見,支持將版權(quán)作品用于機器學(xué)習(xí)。以色列《版權(quán)法》第19節(jié)關(guān)于合理使用的規(guī)定,是以《美國版權(quán)法》第107條為藍(lán)本,這一定程度說明“四要素分析法”的制度框架可以囊括AI模型訓(xùn)練。但以色列司法部表示,相關(guān)責(zé)任豁免不適用于“完全以某個特定作者的作品進行機器訓(xùn)練”,因為這會產(chǎn)生明顯的市場替代效應(yīng)。同時,該意見指出責(zé)任豁免僅適用于模型訓(xùn)練階段而不涵蓋內(nèi)容輸出階段,因為可能存在模型直接輸出侵權(quán)內(nèi)容的情形。

規(guī)則探討:

大模型訓(xùn)練能否獲得版權(quán)責(zé)任豁免

從各國版權(quán)立法實踐來看,通過“權(quán)利限制與例外制度”給予生成式人工智能研發(fā)平臺在模型訓(xùn)練階段一定的責(zé)任豁免,是一種發(fā)展趨勢。目前來看,我國現(xiàn)行法《著作權(quán)法》尚未能對模型訓(xùn)練階段的版權(quán)利用問題加以有效涵攝,需要從“三步檢驗法”立法標(biāo)準(zhǔn)出發(fā),思考創(chuàng)設(shè)新的版權(quán)責(zé)任豁免機制的正當(dāng)性。

1.既有“合理使用制度”無法涵蓋大模型訓(xùn)練

我國《著作權(quán)法》第二十四條規(guī)定了“合理使用”(對于作品的利用,可以不經(jīng)版權(quán)人許可,不向其支付報酬)的具體情形,涉及AIGC模型訓(xùn)練的具體規(guī)則大致包括“個人使用”“適當(dāng)引用”“學(xué)習(xí)研究使用”等。“個人使用”適用目的存在嚴(yán)格限制,而目前AIGC模型最終落腳于對不特定主體的商業(yè)性服務(wù),難以與之契合;“適當(dāng)引用”適用前提是“為介紹、評論說明某一作品”或“說明某一問題”,AIGC模型商業(yè)化應(yīng)用上午現(xiàn)實顯然難以歸于此類;“科學(xué)研究”對作品的利用限定在“學(xué)校課堂教學(xué)或者科學(xué)研究”,同時還強調(diào)僅能“少量復(fù)制”,AIGC模型大量復(fù)制與利用作品的現(xiàn)狀無法滿足該項要求。

雖然2021年修訂后的《著作權(quán)法》對于“合理使用”規(guī)定,增加了“一般要件”和“兜底條款”。但“兜底條款”是一個半開放的內(nèi)容規(guī)定“法律、行政法規(guī)規(guī)定的其他情形”,無法在司法實踐中由法院結(jié)合“一般要件”,根據(jù)具體案情直接適用。因此,AIGC模型訓(xùn)練能否適用“合理使用”的豁免,仍有待后續(xù)《著作權(quán)法》《著作權(quán)實施條例》等相關(guān)立法的修訂加以明確。

此外,我國《著作權(quán)法》對于“法定許可”的規(guī)定較為分散,總結(jié)起來主要包括“期刊轉(zhuǎn)載”“文藝團體表演”“錄音唱片制作錄音制品”“廣播電臺和電視臺使用他人已發(fā)表的作品制作廣播和電視節(jié)目”四大類,和模型訓(xùn)練行為差異甚大,難以匹配適用。

2.“三步檢驗法”是判斷版權(quán)責(zé)任豁免的關(guān)鍵

從制度目標(biāo)來看,除保護版權(quán)人之外,版權(quán)法還需要服務(wù)于促進全社會文化知識的分享、內(nèi)容傳播技術(shù)的進步等更高層級的公共利益。所以《伯爾尼公約》、TRIPs協(xié)定以及《世界知識產(chǎn)權(quán)組織版權(quán)條約》均允許成員國對版權(quán)規(guī)定限制和例外,但都強調(diào)例外規(guī)定需要滿足“只能在特殊情況下做出、與作品的正常利用不相沖突,沒有不合理的損害版權(quán)人的利益”這三步檢驗標(biāo)準(zhǔn)。“三步檢驗法”也是各國設(shè)立版權(quán)限制與例外規(guī)則所應(yīng)當(dāng)遵循的立法標(biāo)準(zhǔn)。如若將AIGC模型訓(xùn)練行為納入我國版權(quán)法中“權(quán)利限制與例外”體系,也應(yīng)符合這一要求。

在“三步檢驗法”中,第一步“只能在特殊情況下做出”僅是原則性規(guī)定,目的是防止對權(quán)利的限制過于泛化而損害版權(quán)人利益,核心的判定標(biāo)準(zhǔn)仍是對于第二步“與作品的正常利用不相沖突”和第三步“沒有不合理的損害版權(quán)人的利益”的判斷。一方面,這兩步判斷標(biāo)準(zhǔn)都具有高度抽象性,目前來看立法、司法和理論層面都未能達(dá)成統(tǒng)一共識;另一方面這兩步判斷標(biāo)準(zhǔn)實際也難以完全區(qū)分,實踐中影響作品正常利用亦會導(dǎo)致版權(quán)人利益的損害,前者落腳于“行為判斷”層面,后者聚焦于“結(jié)果判斷”層面。

一般來看,“與作品的正常利用不相沖突”“沒有不合理的侵害著作權(quán)人的合法權(quán)益”大致可以總結(jié)為三個標(biāo)準(zhǔn)。第一,特定的利用行為,是否落入版權(quán)人日常行權(quán)的范疇即“正常利用的情形”,也就是說版權(quán)人原本是否可以通過正常授權(quán)的方式規(guī)制這一行為并獲得收益。第二,特定的利用行為,是否對作品的傳播、利用市場產(chǎn)生了明顯的替代效應(yīng)。第三,特定的利用行為,對版權(quán)人市場利益的沖擊和對社會公共利益的促進,二者間孰輕孰重的權(quán)衡問題。

3.“三步檢驗法”下如何看待大模型訓(xùn)練行為?

第一,授權(quán)自身作品進行模型訓(xùn)練是否是一種可以預(yù)見的版權(quán)人正常利用作品的情形?如果答案是肯定的,那么豁免未經(jīng)授權(quán)的模型訓(xùn)練行為便有違“不與作品的正常使用沖突”的要求。雖然在實踐層面,全球各地的版權(quán)人目前已經(jīng)有向大模型平臺主張付費利用的嘗試,例如Reddit等內(nèi)容平臺相繼宣布,將向Open Al、谷歌等大模型公司收取內(nèi)容使用費。但前文已論述,從模型訓(xùn)練階段的作品利用行為來看,除前期的“作品存儲”行為暫且可以納入“復(fù)制權(quán)”范疇外,更為核心的“作品處理”行為實際難很歸入版權(quán)人法定權(quán)利范疇,“既無權(quán)利、何來授權(quán)”。由此來看,目前AIGC模型對于作品內(nèi)容的訓(xùn)練在法律層面難謂是一種明確的作品“正常利用的情形”。

第二,未經(jīng)授權(quán)的模型訓(xùn)練行為是否會對被訓(xùn)練作品的潛在市場產(chǎn)生替代效應(yīng)?生成式人工智能顧名思義便是用來進行內(nèi)容生成的,不管是“文生文”領(lǐng)域的ChatGPT亦或是“文生圖”領(lǐng)域的Midjourney等,生成的內(nèi)容大概率都會投入到內(nèi)容利用和傳播領(lǐng)域。但值得注意的是,由于生成式人工智能輸出的內(nèi)容基本不存在對被訓(xùn)練作品整體甚至說片段的復(fù)現(xiàn),例如ChatGPT模式下更多是統(tǒng)計學(xué)概率下的“文字組合”“單字引用”。所以,在目前AIGC內(nèi)容生成機制下,并不會對被訓(xùn)練作品產(chǎn)生明顯的市場替代效應(yīng),只是會加劇相關(guān)內(nèi)容市場的競爭環(huán)境。但有一種例外情形,如果是僅利用單一作家或畫家的作品進行模型訓(xùn)練,則會存在正當(dāng)性上的質(zhì)疑。因為模型訓(xùn)練和使用者此時存在對特定版權(quán)人作品市場進行侵權(quán)替代的故意可能。[7]

第三,未經(jīng)授權(quán)的模型作品訓(xùn)練行為對被訓(xùn)練作品市場沖擊和對公共利益促進的平衡?本質(zhì)上,這是一種價值考量和利益平衡的過程,很難做出精確的判斷。AIGC發(fā)展方興未艾,其對于整個人類社會的影響具有無限可能,有人稱贊其誕生價值不亞于個人電腦與互聯(lián)網(wǎng),還有人甚至將其等同于一場新的“工業(yè)革命”。雖然模型訓(xùn)練對于在先版權(quán)人正常行權(quán)與既有市場的現(xiàn)實影響仍有待評估,但對于被訓(xùn)練內(nèi)容授權(quán)付費的過度強調(diào),無疑會對人工智能行業(yè)的技術(shù)進步和產(chǎn)業(yè)發(fā)展帶來極大的阻礙影響。2023年2月20日,韓國經(jīng)濟部長會議發(fā)布了《新增長4.0推進計劃》,在第三部分“關(guān)鍵舉措”和第四部分“未來規(guī)劃”,兩次指出需要“為促進ChatGPT等人工智能服務(wù)創(chuàng)新的發(fā)展,推動版權(quán)法的修訂,允許在數(shù)據(jù)分析中使用版權(quán)作品,以發(fā)展超大規(guī)模的人工智能”。

路徑展望:

思考大模型時代新的“合理使用”機制

目前來看,對于AIGC模型訓(xùn)練采用“法定許可模式”,現(xiàn)實中存在一系列難以克服的難題。鑒于AIGC模型訓(xùn)練行為本身的特殊性,更宜采取一種附限制條件的“合理使用”模式,在明確其適用商業(yè)目的的基礎(chǔ)下,賦予版權(quán)人“享有以適當(dāng)方式保留模型訓(xùn)練的權(quán)利”,從而實現(xiàn)更為邏輯周延和利益衡平的具體規(guī)則設(shè)計。如何構(gòu)建AIGC時代的版權(quán)“合理使用”機制,需要思考以下幾個問題關(guān)注。

關(guān)注一,思考責(zé)任豁免機制的應(yīng)用范圍。從實踐出發(fā),不宜將責(zé)任豁免的模型訓(xùn)練目的限縮于非商業(yè)領(lǐng)域。

關(guān)注二,思考責(zé)任豁免機制的適用前提。需要明確適用的前提是“賦予版權(quán)人享有以適當(dāng)方式保留模型訓(xùn)練的權(quán)利”。

關(guān)注三,思考責(zé)任豁免機制的核心條件。一方面,應(yīng)當(dāng)注意AIGC模型訓(xùn)練豁免的作品利用行為需要囊括“復(fù)制”。另一方面,需要注意此種責(zé)任豁免,應(yīng)當(dāng)嚴(yán)格限制于模型訓(xùn)練之目的,不得從事版權(quán)人享有的現(xiàn)行法保護和規(guī)制的其他傳播行為。

注:本文內(nèi)容僅代表作者個人研究觀點,原文發(fā)表于《版權(quán)理論與實務(wù)》雜志2023年第8期

參考資料來源:

[1]深層思考,“學(xué)習(xí)訓(xùn)練行為”,作用的對象是在先作品中的“思想”而非版權(quán)保護的“表達(dá)”。在“思想表達(dá)二分法”規(guī)則之下,模型“學(xué)習(xí)訓(xùn)練行為”存在納入版權(quán)權(quán)利框架的根本障礙

[2]參見朱開鑫、張藝群:《“你的AI侵犯了我的版權(quán)”:淺談AIGC背后的版權(quán)保護問題》,騰訊研究院公號

[3]參見“知產(chǎn)北京”公眾號,https://mp.weixin.qq.com/s/bsOtnaN4DTl_wSD1KxUm4g

[4]參見朱開鑫:《“AI孫燕姿”背后的版權(quán)迷宮》,騰訊研究院公眾號https://mp.weixin.qq.com/s/fDk_w-CqnTNsZYbgG9Q2yA

[5]參見:文化廳:著作法の一部を改正する法律概要明料,網(wǎng)址:https://www.bunka.go.jp/seisaku/chosakuken/hokaisei/h30_hokaisei/pdf/r1406693_02.pdf

[6]參見司曉:《奇點來臨:ChatGPT 時代的著作權(quán)法走向何處?兼回應(yīng)相關(guān)論點》,載《探索與爭鳴》2023年第5期

[7]參見朱開鑫:《ChatGPT生成的內(nèi)容,是否享有版權(quán)?》,騰訊研究院公眾號https://mp.weixin.qq.com/s/3_IVPrfdrDqS8uZeC7YsuQ

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港