當(dāng)前位置：人工智能實驗室> 人工智能動態(tài) > 一文讀懂：AI大模型訓(xùn)練中的核心版權(quán)問題

一文讀懂：AI大模型訓(xùn)練中的核心版權(quán)問題
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-10-19 18:06:24 瀏覽：6541次

導(dǎo)讀：朱開鑫騰訊研究院 AIGC大模型的快速崛起，在重塑內(nèi)容行業(yè)創(chuàng)作邏輯、賦能人們工作生活的同時，也引發(fā)了版權(quán)制度層面一系列新的挑戰(zhàn)。相較于AI生成內(nèi)容的版權(quán)屬性和權(quán)利分配，大模型訓(xùn)練階段究竟涉及哪些版權(quán)利用行為，這一過程可能存在哪些侵權(quán)風(fēng)險，以及如...

朱開鑫騰訊研究院

AIGC大模型的快速崛起，在重塑內(nèi)容行業(yè)創(chuàng)作邏輯、賦能人們工作生活的同時，也引發(fā)了版權(quán)制度層面一系列新的挑戰(zhàn)。相較于AI生成內(nèi)容的版權(quán)屬性和權(quán)利分配，大模型訓(xùn)練階段究竟涉及哪些版權(quán)利用行為，這一過程可能存在哪些侵權(quán)風(fēng)險，以及如何借鑒域外既有探索，從產(chǎn)業(yè)發(fā)展角度搭建科學(xué)的大模型訓(xùn)練責(zé)任豁免機制，更為各界所關(guān)注。在全球各國紛紛發(fā)力AIGC領(lǐng)域的大背景下，迫切需要對于上述議題加以研究、探討，以減少技術(shù)進步和產(chǎn)業(yè)發(fā)展面臨的不確定性。

問題提出：

大模型訓(xùn)練中的版權(quán)爭議備受關(guān)注

1.這是探討大模型版權(quán)所有問題的起點

一方面，大模型訓(xùn)練問題存在于生成式人工智能生命周期的伊始，如不能妥善解決，AIGC大模型的研發(fā)便始終處于侵權(quán)不確定狀態(tài)。從行業(yè)實踐和技術(shù)原理來看，目前各類生成式人工智能利用海量內(nèi)容數(shù)據(jù)進行模型訓(xùn)練的方法大致可抽象為如下兩步：第一步，通過購買數(shù)據(jù)庫、公開爬取等方式獲得海量內(nèi)容數(shù)據(jù)，進行一定形式的轉(zhuǎn)換之后，存儲在相關(guān)服務(wù)器之中；第二步，對內(nèi)容數(shù)據(jù)進行分析處理，以發(fā)現(xiàn)一定的模式、趨勢以及相關(guān)性并轉(zhuǎn)變?yōu)榇竽Ｐ蛥?shù)，供后續(xù)內(nèi)容生成時調(diào)取使用。

另一方面，當(dāng)下生成式人工智能領(lǐng)域的版權(quán)糾紛大都聚焦于，模型訓(xùn)練階段未經(jīng)授權(quán)的版權(quán)利用行為。據(jù)不完全統(tǒng)計，自2022年11月至2023年10月，僅美國加州北區(qū)法院便已經(jīng)受理了10起，版權(quán)人起訴Stability AI、Open AI、Meta、Alphabet等AIGC研發(fā)企業(yè)未經(jīng)授權(quán)，利用版權(quán)作品進行模型訓(xùn)練的案件。2023年6月，國內(nèi)在網(wǎng)絡(luò)教培行業(yè)也曾發(fā)生過，未經(jīng)授權(quán)利用第三方平臺作品數(shù)據(jù)進行大模型訓(xùn)練導(dǎo)致的紛爭。

2.傳統(tǒng)“授權(quán)許可模式”在AI時代的失靈

第一，授權(quán)的基礎(chǔ)不明確，授予的是版權(quán)法上的何種權(quán)利有待論證。表面看AIGC模型訓(xùn)練行為類似于自然人閱讀文字作品、欣賞美術(shù)作品后的“思考、吸收、再創(chuàng)作的行為”，這和既有的版權(quán)專有權(quán)利無法具體對應(yīng)。[1]需要注意的是，模型對于作品藝術(shù)風(fēng)格的學(xué)習(xí)模仿并不是版權(quán)法上規(guī)制的問題，藝術(shù)風(fēng)格應(yīng)當(dāng)允許公眾自由使用，這關(guān)系到表達(dá)自由與創(chuàng)意經(jīng)濟的發(fā)展。即便將這一行為納入版權(quán)規(guī)制范疇，也存在版權(quán)人行權(quán)的現(xiàn)實困難。原因在于，AIGC模型訓(xùn)練行為本質(zhì)上是一種機器內(nèi)部的非外顯性作品利用行為，版權(quán)人存在發(fā)現(xiàn)模型侵權(quán)、舉證模型侵權(quán)以及侵權(quán)內(nèi)容比對等方面的判定困境。

第二，授權(quán)的可行性存疑，存在規(guī)模過大、主體不明、機制困難等系列問題。AIGC模型訓(xùn)練涉及的作品數(shù)量眾多、來源各異、權(quán)屬不同，若采用事先授權(quán)許可的方式：一方面，需要精準(zhǔn)地將受保護的作品從海量數(shù)據(jù)中進行分離、提��；另一方面，再找到每一部版權(quán)作品對應(yīng)的權(quán)利人與之協(xié)商授權(quán)，并支付價格不一的授權(quán)費用。這一過程漫長復(fù)雜且極難落地操作。

第三，授權(quán)的意義待評估，可能產(chǎn)生“過度擬合”“寒蟬效應(yīng)”“模型偏見”等負(fù)面效應(yīng)。實踐中，具有諷刺結(jié)果的是，任何限制模型訓(xùn)練內(nèi)容規(guī)模與可用性的舉措都可能產(chǎn)生意想不到的問題，即增加模型簡單輸出被訓(xùn)練作品復(fù)制內(nèi)容的概率。此外，高昂的授權(quán)許可費用和侵權(quán)風(fēng)險的不確定性，將可能直接帶來人工智能技術(shù)和產(chǎn)業(yè)發(fā)展的“寒蟬效應(yīng)”，并產(chǎn)生因數(shù)據(jù)規(guī)模不足和數(shù)據(jù)質(zhì)量不高引發(fā)的“模型偏見”等不良后果。[2]

責(zé)任聚焦：

大模型訓(xùn)練涉及哪些版權(quán)規(guī)制行為？

從AIGC模型訓(xùn)練階段的技術(shù)流程和基本原理來看，當(dāng)我們談及這一階段的版權(quán)問題時，實際上討論的是如何從版權(quán)法角度看待，“作品獲取”“作品存儲”與“作品分析”這三個行為。目前，整體來看只有“作品存儲”行為可以納入版權(quán)法“復(fù)制權(quán)”規(guī)制范疇，而更為核心的“作品分析”行為能否受到版權(quán)法規(guī)制仍值得探討。

1.如何從版權(quán)法角度看待“作品獲取”行為？

在“作品獲取”階段，需要關(guān)注內(nèi)容數(shù)據(jù)獲取合法性的問題，包括對數(shù)據(jù)庫內(nèi)容、網(wǎng)絡(luò)公開內(nèi)容等的獲取是否合法，是否存在破壞計算機信息系統(tǒng)、違反數(shù)據(jù)爬取保護措施、違反API端口協(xié)議等行為。之所以對于模型訓(xùn)練階段的版權(quán)問題探討，將“作品獲取”行為和“作品存儲”行為加以區(qū)分，是因為后續(xù)伴隨技術(shù)模式的發(fā)展，存在通過“云端計算”“聯(lián)邦學(xué)習(xí)”等方式，在不存儲數(shù)據(jù)的情況下，便可以通過對內(nèi)容數(shù)據(jù)的接觸獲取而直接進行模型訓(xùn)練的可能。

從版權(quán)法角度看，“獲取作品”或者說對于作品的接觸類似線上瀏覽網(wǎng)頁和線下閱讀書籍，只接觸不存在后續(xù)的傳播利用大概率并不會觸發(fā)版權(quán)侵權(quán)責(zé)任。這一階段的核心版權(quán)問題主要涉及是否存在破壞作品“技術(shù)保護措施”的行為。根據(jù)我國《著作權(quán)法》規(guī)定，違反保護作品技術(shù)措施的規(guī)定亦構(gòu)成侵權(quán)。即使在滿足“合理使用制度”的情況下使用作品，但需要規(guī)避技術(shù)措施才可以獲得該作品，如果此種規(guī)避并不符合《著作權(quán)法》第50條關(guān)于避開技術(shù)措施的豁免規(guī)定，則可以在認(rèn)定滿足合理使用的基礎(chǔ)上，同時認(rèn)定構(gòu)成違反技術(shù)措施而承擔(dān)侵權(quán)責(zé)任。[3]

2.如何從版權(quán)法角度看待“作品存儲”行為？

應(yīng)當(dāng)說在模型訓(xùn)練階段，對于內(nèi)容數(shù)據(jù)的儲存行為落入到版權(quán)法上“復(fù)制權(quán)”的規(guī)制范疇，沒有過多疑問。但值得注意，伴隨內(nèi)容生產(chǎn)和傳播領(lǐng)域新技術(shù)的應(yīng)用，也需要我們思考是否存在過度孤立看待“復(fù)制權(quán)”的問題。因為“復(fù)制”往往僅是依附于“作品主要利用行為”的準(zhǔn)備行為而已，若不存在復(fù)制之后的發(fā)行、廣播、信息網(wǎng)絡(luò)傳播等版權(quán)法規(guī)制的作品利用行為，侵權(quán)損害實際上無從談起，版權(quán)人也無從發(fā)現(xiàn)自身作品是否被利用。

時至今日，是否應(yīng)為信息技術(shù)和商業(yè)模式的演進，預(yù)留出一定的“復(fù)制自由”，類似于“避風(fēng)港制度”誕生之際創(chuàng)設(shè)的“緩存自由”一般，有待進一步探討。[4]在最高人民法院2013年十大知識產(chǎn)權(quán)案件“王莘（棉棉）訴谷歌公司等圖書搜索案”中，核心爭議便是在后續(xù)對于圖書片段“信息網(wǎng)絡(luò)傳播行為”構(gòu)成合理使用的情況下，前期的“復(fù)制行為”是否構(gòu)成單獨的侵權(quán)（北京一中院觀點）或者可以被后續(xù)合理使用行為所吸收（北京高院觀點）。

具體來看，在“谷歌圖書館案”一審中，北京一中院提出了在早期“文本與數(shù)據(jù)挖掘”案件中之所以需要單獨認(rèn)定“復(fù)制行為”的原因：一方面，以“使用”為目的而對作品進行復(fù)制，從實際損害來看，雖然不會使公眾獲得這一復(fù)制件，但使得復(fù)制者在無需購買合法復(fù)制件的情況下即可使用這一作品，這會影響到合法復(fù)制件的銷售；另一方面，從潛在損害來看，侵權(quán)危險通常來源于他人以“傳播作品”（如發(fā)行、廣播、信息網(wǎng)絡(luò)傳播等）為目的而進行的復(fù)制行為。但從當(dāng)下AIGC模型訓(xùn)練來看，對標(biāo)上述邏輯分析：一方面，只要獲取被訓(xùn)練內(nèi)容數(shù)據(jù)的方式合法，實際損害這個問題便無需過度關(guān)注；另一方面，潛在損害也存在疑問，因為模型訓(xùn)練涉及的內(nèi)容處理分析行為，本身能否構(gòu)成版權(quán)法規(guī)制的行為，進而對版權(quán)人帶來損害仍存在一定爭議，下文會詳細(xì)論述。

3.如何從版權(quán)法角度看待“作品處理”行為？

模型內(nèi)部的內(nèi)容分析處理行為對應(yīng)版權(quán)法上的何種權(quán)利存在疑問，且理論界和實務(wù)界目前尚未有明確結(jié)論。有觀點認(rèn)為“作品處理”行為落入版權(quán)法中“改編權(quán)”的規(guī)制范疇，但所謂的改編權(quán)是指改編既有作品形成新作品的行為，然而對作品數(shù)據(jù)進行分析處理，并生成包含一定模式、趨勢以及相關(guān)性的參數(shù)，這一過程不涉及新作品的形成，明顯難以契合“改編權(quán)”的要求。也有觀點表示由于現(xiàn)行《著作權(quán)法》缺乏具體權(quán)利對應(yīng)“作品處理”行為，可以通過“權(quán)利兜底條款”加以規(guī)制。

還有觀點認(rèn)為，上述行為不屬于版權(quán)規(guī)制的權(quán)利范疇。從目前廣泛應(yīng)用的AIGC產(chǎn)品模型來看，模型訓(xùn)練階段的“作品處理”行為大致有兩類：一類是“文生圖”領(lǐng)域比如Stable Diffusion模型，通過對既有圖像內(nèi)容的分析處理，獲得思想層面的藝術(shù)風(fēng)格、感覺、靈感等作為模型參數(shù)加以存儲；另一類是“文生文”領(lǐng)域比如GPT模型，是在統(tǒng)計學(xué)“自回歸原理”下，不斷學(xué)習(xí)海量在先作品中不同文字之間排列組合的概率和規(guī)律，然后內(nèi)化為自身的模型參數(shù)。

版權(quán)法遵循“思想表達(dá)二分法”的基本邏輯，強調(diào)“不保護自然人的思想，只保護自然人對于思想的外在表達(dá)”。對于第一類“作品處理”行為，本質(zhì)上僅是對作品思想層面藝術(shù)風(fēng)格等的分析、學(xué)習(xí)，故而這一行為作用的對象不屬于版權(quán)法保護的客體，行為本身便也不屬于版權(quán)法可以規(guī)制的權(quán)利范疇。對于第二類“作品處理”行為，對于作品僅僅是進行統(tǒng)計學(xué)意義上文字組合概率的學(xué)習(xí)，不是為了使用和展示作品中的表達(dá)性內(nèi)容，因此亦不屬于版權(quán)法意義上的作品利用行為。

域外觀察：

加速探索大模型訓(xùn)練責(zé)任豁免機制

本輪AIGC變革始于2022年11月底ChatGPT的發(fā)布，至今不足1年時間，各國版權(quán)立法尚未能做出針對性的調(diào)整。但在此前弱人工智能階段，一些國家為促進本國AI產(chǎn)業(yè)發(fā)展，已經(jīng)進行了版權(quán)立法改革探索，以豁免AIGC平臺在模型訓(xùn)練階段的版權(quán)責(zé)任。目前來看大致可分為三類：一是歐盟“文本與數(shù)據(jù)挖掘”模式；二是日本的“非欣賞性作品利用”模式；三是美國的“四要素分析法+轉(zhuǎn)換性使用”模式。

1.歐盟“文本與數(shù)據(jù)挖掘”模式

早在2016年9月，歐盟委員會提出修改版權(quán)法以適應(yīng)數(shù)字經(jīng)濟發(fā)展之初，“文本與數(shù)據(jù)挖掘”(Text Data Mining)便構(gòu)成了此次修法的重點。歐盟指出，新技術(shù)能夠?qū)?shù)字形式的信息進行自動計算分析，例如文本、聲音、圖像或數(shù)據(jù)。文本和數(shù)據(jù)挖掘使處理大量信息成為可能，以便獲得新知識和發(fā)現(xiàn)新趨勢。但文本與數(shù)據(jù)挖掘往往涉及大量受版權(quán)保護的內(nèi)容，為了消除相關(guān)主體面臨的法律確定性，實現(xiàn)對創(chuàng)新的激勵，應(yīng)當(dāng)給予這一行為對作品或其他客體的復(fù)制和提取以責(zé)任限制或例外。

由此，在2019年3月26日最終通過的《單一數(shù)字市場版權(quán)指令》中，歐盟便在“第二章：使例外和限制適應(yīng)數(shù)字和跨境環(huán)境的措施”下，創(chuàng)設(shè)了第3條“以科學(xué)研究為目的的文本和數(shù)據(jù)挖掘”和第4條不限制目的的“文本和數(shù)據(jù)挖掘”。具體內(nèi)容如下圖：

整體來看，目前絕大多數(shù)AIGC模型訓(xùn)練階段的作品利用行為隸屬于商業(yè)利用領(lǐng)域，僅適用第4條規(guī)定的“不限制目的的文本和數(shù)據(jù)挖掘”責(zé)任豁免情形。該規(guī)定對于“文本與數(shù)據(jù)挖掘”采取的是類似于“默示許可+‘opt-out’”的機制，有三點問題需要注意。

第一，該條規(guī)定豁免的核心是“文本與數(shù)據(jù)挖掘”過程中的“作品復(fù)制行為”。歐盟在《單一數(shù)字市場版權(quán)指令》“立法背景”中指出，為了文本和數(shù)據(jù)挖掘而進行的復(fù)制和提�。�“提取”針對的是“數(shù)據(jù)庫權(quán)利”中對標(biāo)作品“復(fù)制”的權(quán)利）需要在合法訪問的作品或其他客體上進行，特別是當(dāng)為了技術(shù)流程而進行的復(fù)制或提取不符合關(guān)于“臨時復(fù)制”（即“避風(fēng)港制度”對應(yīng)的緩存行為）的現(xiàn)有責(zé)任豁免條件時。由此來看，本文在第二部分關(guān)于“模型訓(xùn)練階段版權(quán)侵權(quán)風(fēng)險解構(gòu)”的分析結(jié)論，未經(jīng)版權(quán)人授權(quán)的模型訓(xùn)練行為，法律層面明顯的侵權(quán)風(fēng)險只涉及“復(fù)制權(quán)”，能夠得到歐盟修法邏輯的驗證。

第二，該條規(guī)定豁免的要件是“對于被訓(xùn)練作品和其他內(nèi)容的獲取是合法的”。歐盟指出，這種例外或限制只應(yīng)適用于被豁免主體，“合法訪問作品或其他內(nèi)容的情況”，包括已在網(wǎng)上向公眾公開以及權(quán)利人未以適當(dāng)方式保留這一權(quán)利的情形。而在此前，由于大量有價值本文的數(shù)據(jù)庫通常是收費的，因而文本與數(shù)據(jù)挖掘的例外情形并未在實質(zhì)上減輕行為人獲得許可的負(fù)擔(dān)。但在本輪以ChatGPT等為代表的生成式人工智能場景下，模型訓(xùn)練涉及的內(nèi)容大部分來源于CC（Common Crawl）、維基百科等網(wǎng)絡(luò)公開數(shù)據(jù)，由此可以獲得的責(zé)任豁免價值得以凸顯。

第三，該條規(guī)定豁免的前提是“版權(quán)人未以適當(dāng)方式保留文本與數(shù)據(jù)挖掘的權(quán)利”。歐盟強調(diào)，權(quán)利人應(yīng)當(dāng)能夠采取措施，確保對于文本與數(shù)據(jù)挖掘的權(quán)利保留得到尊重。根據(jù)《單一數(shù)字市場版權(quán)指令》“立法背景”的說明，“以適當(dāng)方式保留權(quán)利”可以做如下理解：對于已經(jīng)在網(wǎng)上公開提供的內(nèi)容，應(yīng)該只考慮通過使用機器可讀手段保留這些權(quán)利，包括相關(guān)的反爬等技術(shù)保護措施；在線下對于實體出版物的掃描利用等情況下，可以通過合同約定或聲明等其他方式保留。簡單來說，只要版權(quán)人不事先通過技術(shù)等方式保留自身權(quán)利，或者向模型訓(xùn)練平臺發(fā)出專門通知，明確表示自己的作品內(nèi)容不允許被訓(xùn)練，原則上模型訓(xùn)練平臺就可以不經(jīng)過版權(quán)人授權(quán)、不向其支付費用。

2.日本“非欣賞性利用”模式

2018年日本對《著作權(quán)法》進行了修改，在第30條第4款設(shè)置了新的合理使用條款“不以欣賞作品原有價值為目的的利用”。根據(jù)日本文化廳的解讀，此次修改整體上擴大了對于著作權(quán)的限制，其目的是鼓勵創(chuàng)新，迎接以人工智能、物聯(lián)網(wǎng)和大數(shù)據(jù)為代表的第四次產(chǎn)業(yè)革命。[5]值得注意的是，新一輪的日本《著作權(quán)法》修正案已于2023年5月17日通過參議院表決，并未對第30條第4款進行修改。這一定程度上也表明了立法者認(rèn)為該條能夠涵攝本輪生成式人工智能帶來的版權(quán)制度挑戰(zhàn)。

依據(jù)該條規(guī)定，AIGC模型訓(xùn)練階段的版權(quán)利用行為可以適用“不以欣賞作品原有價值為目的”的責(zé)任豁免，符合該條列舉出的“用于信息分析的情形”和兜底性“在電子計算機信息處理過程中對作品表達(dá)所進行的不被人類感知和識別的使用情形”兩項要求。因此，只要模型訓(xùn)練階段的作品利用行為，不存在“根據(jù)作品的性質(zhì)、目的和使用情況，不合理地?fù)p害版權(quán)人利益”的情形，大概率可以受到第30條第4款的責(zé)任豁免。

對于日本《著作權(quán)法》“不以欣賞作品原有價值為目的利用”的責(zé)任豁免，可以從以下幾個方面把握適用的關(guān)鍵。第一，該規(guī)定本質(zhì)上對應(yīng)的是作品的“非表達(dá)型利用”，與其說是侵權(quán)責(zé)任的豁免，不如說是對版權(quán)法中一類非侵權(quán)行為的明確。本條款列舉的具體情形，對應(yīng)的是“不以欣賞作品原有價值為目的利用”，實際涉及的是對于作品的信息分析以及機器內(nèi)部的加工處理，都不是為了向公眾傳播被利用作品的表達(dá)性內(nèi)容，也即不屬于版權(quán)法意義上的作品使用行為。

第二，該規(guī)定豁免的行為類型并不限于“作品存儲行為”，而是“必要范圍內(nèi)任何利用作品的方式”。由此，可以避免AIGC模型訓(xùn)練階段對于各類具體行為屬性認(rèn)定帶來的紛爭，例如“作品處理行為是否受到《著作權(quán)法》權(quán)利范疇的規(guī)制”。一定程度上可以說，日本“不以欣賞作品原有價值為目的利用”責(zé)任豁免模式，給予了模型訓(xùn)練研發(fā)方更明確的行為預(yù)期。

第三，該規(guī)定存在適用上的限制條件即“但因作品的種類、用途及利用方式等原因，不當(dāng)損害著作權(quán)人利益的，不在此限”。前文已述，從目前AIGC模型內(nèi)容生成模式來看，模型訓(xùn)練行為是否落入版權(quán)法專有權(quán)利規(guī)制的范疇存在疑問，因此并不會與版權(quán)人正常行使權(quán)利產(chǎn)生明顯沖突。此外，因為模型訓(xùn)練行為本質(zhì)上是對于在先作品“非表達(dá)型的利用”以及對于思想層面風(fēng)格、感覺的學(xué)習(xí)，所以也不會對作品原有傳播利用市場產(chǎn)生明顯替代效應(yīng)。

2023年5月，日本政府公開了自身對于版權(quán)法領(lǐng)域模型訓(xùn)練行為的態(tài)度不會對AIGC模型訓(xùn)練中使用的內(nèi)容加以版權(quán)保護。日本文部科學(xué)大臣長岡惠子(Keiko Nagaoka)表示，日本法律不會保護AIGC模型訓(xùn)練集中使用的版權(quán)材料，也即允許AIGC模型訓(xùn)練對于版權(quán)人作品的利用，無論是出于非營利或商業(yè)目的，無論是復(fù)制還是復(fù)制以外的行為。這在一定程度驗證了，日本《著作權(quán)法》第30條第4款“不以欣賞作品原有價值為目的利用”的責(zé)任豁免，能夠適用于當(dāng)下的AIGC模型訓(xùn)練行為。

3.美國“四要素分析+轉(zhuǎn)換性使用”模式

2023年5月17日，美國國會召開“交互中的人工智能與版權(quán)法”聽證會，美國版權(quán)局前總法律顧問Sy Damle表示：“任何強制模型對于訓(xùn)練內(nèi)容付費許可的嘗試，要么會使美國AI行業(yè)破產(chǎn)，消除我們在國際舞臺上的競爭力；要么會驅(qū)使這些頭部AI公司離開這個國家。”美國之所以成為全球AI產(chǎn)業(yè)的研發(fā)中心，很大原因依賴于版權(quán)法中獨一無二、廣泛靈活的合理使用條款，相信其依然可以適用于AIGC模型。這些模型從數(shù)十億的訓(xùn)練數(shù)據(jù)中提取抽象的概念和模式（concepts and patterns），并創(chuàng)造出不同于且不侵權(quán)既有作品的全新內(nèi)容。

美國版權(quán)法以“例示列舉+一般要件”的方式對合理使用制度進行了規(guī)定，具有高度靈活性。第107條規(guī)定，任何特定案件中判斷對作品的使用是否屬于合理使用時，應(yīng)考慮的因素包括：（1）使用的目的與性質(zhì)；（2）該版權(quán)作品的性質(zhì)；（3）使用部分占被利用作品質(zhì)與量的比例；（4）該使用對版權(quán)作品潛在市場或價值所產(chǎn)生的影響。這被稱為合理使用認(rèn)定“四要素標(biāo)準(zhǔn)”。

“商業(yè)性質(zhì)的使用”最早被排斥在美國合理使用的范疇，無償使用他人作品牟利被認(rèn)為有違公平正義的一般原則。但在隨后的司法實踐中，美國法院從“四要素標(biāo)準(zhǔn)”中的“使用目的與性質(zhì)”慢慢延伸出了“轉(zhuǎn)換性使用規(guī)則”。由此，“商業(yè)性質(zhì)的使用”不再是合理使用認(rèn)定的關(guān)鍵,重要問題是考察新作品的“轉(zhuǎn)換性”程度。例如在備受關(guān)注的“谷歌圖書館案”中，美國聯(lián)邦第二巡回上訴法院認(rèn)為谷歌將數(shù)字化后的圖書存放于服務(wù)器，供用戶以“檢索有限文字片段的方式”發(fā)現(xiàn)所需圖書，不構(gòu)成對原有圖書購買市場的替代，符合轉(zhuǎn)換性使用的要求。

高度靈活性的“四要素標(biāo)準(zhǔn)”與“轉(zhuǎn)換性使用規(guī)則”,給予美國法院在個案中認(rèn)定特定行為是否構(gòu)成合理使用存在高度的自由裁量空間，也使得論證模型訓(xùn)練適用合理使用的正當(dāng)性存在可能。對于ChatGPT類產(chǎn)品而言，模型訓(xùn)練階段的作品使用具有較強的目的轉(zhuǎn)換性,即“對于作品的利用沒有將該作品的獨創(chuàng)性表達(dá)傳播給社會大眾”。新一輪AIGC內(nèi)容生成機制實際是“學(xué)習(xí)在先作品中不同文字之間排列組合的概率，或是對作品思想層面風(fēng)格、模式等的學(xué)習(xí)再生成”。因此，AIGC輸出的內(nèi)容基本不涉及完整作品（甚至作品片段）的復(fù)制利用，相較“谷歌圖書館”而言，“侵權(quán)傳播”概率更低、“轉(zhuǎn)換使用”程度更高。[6]

目前，美國行政和司法側(cè)尚未對模型訓(xùn)練階段的版權(quán)利用行為，能否適用“四要素標(biāo)準(zhǔn)”給予傾向性意見。但值得注意的是，同樣采納合理使用“四要素分析法”的以色列，已經(jīng)表示機器學(xué)習(xí)可以獲得版權(quán)法的責(zé)任豁免。在2023年1月，以色列司法部發(fā)布專門意見，支持將版權(quán)作品用于機器學(xué)習(xí)。以色列《版權(quán)法》第19節(jié)關(guān)于合理使用的規(guī)定，是以《美國版權(quán)法》第107條為藍(lán)本，這一定程度說明“四要素分析法”的制度框架可以囊括AI模型訓(xùn)練。但以色列司法部表示，相關(guān)責(zé)任豁免不適用于“完全以某個特定作者的作品進行機器訓(xùn)練”，因為這會產(chǎn)生明顯的市場替代效應(yīng)。同時，該意見指出責(zé)任豁免僅適用于模型訓(xùn)練階段而不涵蓋內(nèi)容輸出階段，因為可能存在模型直接輸出侵權(quán)內(nèi)容的情形。

規(guī)則探討：

大模型訓(xùn)練能否獲得版權(quán)責(zé)任豁免

從各國版權(quán)立法實踐來看，通過“權(quán)利限制與例外制度”給予生成式人工智能研發(fā)平臺在模型訓(xùn)練階段一定的責(zé)任豁免，是一種發(fā)展趨勢。目前來看，我國現(xiàn)行法《著作權(quán)法》尚未能對模型訓(xùn)練階段的版權(quán)利用問題加以有效涵攝，需要從“三步檢驗法”立法標(biāo)準(zhǔn)出發(fā)，思考創(chuàng)設(shè)新的版權(quán)責(zé)任豁免機制的正當(dāng)性。

1.既有“合理使用制度”無法涵蓋大模型訓(xùn)練

我國《著作權(quán)法》第二十四條規(guī)定了“合理使用”（對于作品的利用，可以不經(jīng)版權(quán)人許可，不向其支付報酬）的具體情形，涉及AIGC模型訓(xùn)練的具體規(guī)則大致包括“個人使用”“適當(dāng)引用”“學(xué)習(xí)研究使用”等。“個人使用”適用目的存在嚴(yán)格限制，而目前AIGC模型最終落腳于對不特定主體的商業(yè)性服務(wù)，難以與之契合；“適當(dāng)引用”適用前提是“為介紹、評論說明某一作品”或“說明某一問題”，AIGC模型商業(yè)化應(yīng)用上午現(xiàn)實顯然難以歸于此類；“科學(xué)研究”對作品的利用限定在“學(xué)校課堂教學(xué)或者科學(xué)研究”，同時還強調(diào)僅能“少量復(fù)制”，AIGC模型大量復(fù)制與利用作品的現(xiàn)狀無法滿足該項要求。

雖然2021年修訂后的《著作權(quán)法》對于“合理使用”規(guī)定，增加了“一般要件”和“兜底條款”。但“兜底條款”是一個半開放的內(nèi)容規(guī)定“法律、行政法規(guī)規(guī)定的其他情形”，無法在司法實踐中由法院結(jié)合“一般要件”，根據(jù)具體案情直接適用。因此，AIGC模型訓(xùn)練能否適用“合理使用”的豁免，仍有待后續(xù)《著作權(quán)法》《著作權(quán)實施條例》等相關(guān)立法的修訂加以明確。

此外，我國《著作權(quán)法》對于“法定許可”的規(guī)定較為分散，總結(jié)起來主要包括“期刊轉(zhuǎn)載”“文藝團體表演”“錄音唱片制作錄音制品”“廣播電臺和電視臺使用他人已發(fā)表的作品制作廣播和電視節(jié)目”四大類，和模型訓(xùn)練行為差異甚大，難以匹配適用。

2.“三步檢驗法”是判斷版權(quán)責(zé)任豁免的關(guān)鍵

從制度目標(biāo)來看，除保護版權(quán)人之外，版權(quán)法還需要服務(wù)于促進全社會文化知識的分享、內(nèi)容傳播技術(shù)的進步等更高層級的公共利益。所以《伯爾尼公約》、TRIPs協(xié)定以及《世界知識產(chǎn)權(quán)組織版權(quán)條約》均允許成員國對版權(quán)規(guī)定限制和例外，但都強調(diào)例外規(guī)定需要滿足“只能在特殊情況下做出、與作品的正常利用不相沖突，沒有不合理的損害版權(quán)人的利益”這三步檢驗標(biāo)準(zhǔn)。“三步檢驗法”也是各國設(shè)立版權(quán)限制與例外規(guī)則所應(yīng)當(dāng)遵循的立法標(biāo)準(zhǔn)。如若將AIGC模型訓(xùn)練行為納入我國版權(quán)法中“權(quán)利限制與例外”體系，也應(yīng)符合這一要求。

在“三步檢驗法”中，第一步“只能在特殊情況下做出”僅是原則性規(guī)定，目的是防止對權(quán)利的限制過于泛化而損害版權(quán)人利益，核心的判定標(biāo)準(zhǔn)仍是對于第二步“與作品的正常利用不相沖突”和第三步“沒有不合理的損害版權(quán)人的利益”的判斷。一方面，這兩步判斷標(biāo)準(zhǔn)都具有高度抽象性，目前來看立法、司法和理論層面都未能達(dá)成統(tǒng)一共識；另一方面這兩步判斷標(biāo)準(zhǔn)實際也難以完全區(qū)分，實踐中影響作品正常利用亦會導(dǎo)致版權(quán)人利益的損害，前者落腳于“行為判斷”層面，后者聚焦于“結(jié)果判斷”層面。

一般來看，“與作品的正常利用不相沖突”“沒有不合理的侵害著作權(quán)人的合法權(quán)益”大致可以總結(jié)為三個標(biāo)準(zhǔn)。第一，特定的利用行為，是否落入版權(quán)人日常行權(quán)的范疇即“正常利用的情形”，也就是說版權(quán)人原本是否可以通過正常授權(quán)的方式規(guī)制這一行為并獲得收益。第二，特定的利用行為，是否對作品的傳播、利用市場產(chǎn)生了明顯的替代效應(yīng)。第三，特定的利用行為，對版權(quán)人市場利益的沖擊和對社會公共利益的促進，二者間孰輕孰重的權(quán)衡問題。

3.“三步檢驗法”下如何看待大模型訓(xùn)練行為？

第一，授權(quán)自身作品進行模型訓(xùn)練是否是一種可以預(yù)見的版權(quán)人正常利用作品的情形？如果答案是肯定的，那么豁免未經(jīng)授權(quán)的模型訓(xùn)練行為便有違“不與作品的正常使用沖突”的要求。雖然在實踐層面，全球各地的版權(quán)人目前已經(jīng)有向大模型平臺主張付費利用的嘗試，例如Reddit等內(nèi)容平臺相繼宣布，將向Open Al、谷歌等大模型公司收取內(nèi)容使用費。但前文已論述，從模型訓(xùn)練階段的作品利用行為來看，除前期的“作品存儲”行為暫且可以納入“復(fù)制權(quán)”范疇外，更為核心的“作品處理”行為實際難很歸入版權(quán)人法定權(quán)利范疇，“既無權(quán)利、何來授權(quán)”。由此來看，目前AIGC模型對于作品內(nèi)容的訓(xùn)練在法律層面難謂是一種明確的作品“正常利用的情形”。

第二，未經(jīng)授權(quán)的模型訓(xùn)練行為是否會對被訓(xùn)練作品的潛在市場產(chǎn)生替代效應(yīng)？生成式人工智能顧名思義便是用來進行內(nèi)容生成的，不管是“文生文”領(lǐng)域的ChatGPT亦或是“文生圖”領(lǐng)域的Midjourney等，生成的內(nèi)容大概率都會投入到內(nèi)容利用和傳播領(lǐng)域。但值得注意的是，由于生成式人工智能輸出的內(nèi)容基本不存在對被訓(xùn)練作品整體甚至說片段的復(fù)現(xiàn)，例如ChatGPT模式下更多是統(tǒng)計學(xué)概率下的“文字組合”“單字引用”。所以，在目前AIGC內(nèi)容生成機制下，并不會對被訓(xùn)練作品產(chǎn)生明顯的市場替代效應(yīng)，只是會加劇相關(guān)內(nèi)容市場的競爭環(huán)境。但有一種例外情形，如果是僅利用單一作家或畫家的作品進行模型訓(xùn)練，則會存在正當(dāng)性上的質(zhì)疑。因為模型訓(xùn)練和使用者此時存在對特定版權(quán)人作品市場進行侵權(quán)替代的故意可能。[7]

第三，未經(jīng)授權(quán)的模型作品訓(xùn)練行為對被訓(xùn)練作品市場沖擊和對公共利益促進的平衡？本質(zhì)上，這是一種價值考量和利益平衡的過程，很難做出精確的判斷。AIGC發(fā)展方興未艾，其對于整個人類社會的影響具有無限可能，有人稱贊其誕生價值不亞于個人電腦與互聯(lián)網(wǎng)，還有人甚至將其等同于一場新的“工業(yè)革命”。雖然模型訓(xùn)練對于在先版權(quán)人正常行權(quán)與既有市場的現(xiàn)實影響仍有待評估，但對于被訓(xùn)練內(nèi)容授權(quán)付費的過度強調(diào)，無疑會對人工智能行業(yè)的技術(shù)進步和產(chǎn)業(yè)發(fā)展帶來極大的阻礙影響。2023年2月20日，韓國經(jīng)濟部長會議發(fā)布了《新增長4.0推進計劃》，在第三部分“關(guān)鍵舉措”和第四部分“未來規(guī)劃”，兩次指出需要“為促進ChatGPT等人工智能服務(wù)創(chuàng)新的發(fā)展，推動版權(quán)法的修訂，允許在數(shù)據(jù)分析中使用版權(quán)作品，以發(fā)展超大規(guī)模的人工智能”。

路徑展望：

思考大模型時代新的“合理使用”機制

目前來看，對于AIGC模型訓(xùn)練采用“法定許可模式”，現(xiàn)實中存在一系列難以克服的難題。鑒于AIGC模型訓(xùn)練行為本身的特殊性，更宜采取一種附限制條件的“合理使用”模式，在明確其適用商業(yè)目的的基礎(chǔ)下，賦予版權(quán)人“享有以適當(dāng)方式保留模型訓(xùn)練的權(quán)利”，從而實現(xiàn)更為邏輯周延和利益衡平的具體規(guī)則設(shè)計。如何構(gòu)建AIGC時代的版權(quán)“合理使用”機制，需要思考以下幾個問題關(guān)注。

關(guān)注一，思考責(zé)任豁免機制的應(yīng)用范圍。從實踐出發(fā)，不宜將責(zé)任豁免的模型訓(xùn)練目的限縮于非商業(yè)領(lǐng)域。

關(guān)注二，思考責(zé)任豁免機制的適用前提。需要明確適用的前提是“賦予版權(quán)人享有以適當(dāng)方式保留模型訓(xùn)練的權(quán)利”。

關(guān)注三，思考責(zé)任豁免機制的核心條件。一方面，應(yīng)當(dāng)注意AIGC模型訓(xùn)練豁免的作品利用行為需要囊括“復(fù)制”。另一方面，需要注意此種責(zé)任豁免，應(yīng)當(dāng)嚴(yán)格限制于模型訓(xùn)練之目的，不得從事版權(quán)人享有的現(xiàn)行法保護和規(guī)制的其他傳播行為。

注：本文內(nèi)容僅代表作者個人研究觀點，原文發(fā)表于《版權(quán)理論與實務(wù)》雜志2023年第8期

參考資料來源:

[1]深層思考，“學(xué)習(xí)訓(xùn)練行為”，作用的對象是在先作品中的“思想”而非版權(quán)保護的“表達(dá)”。在“思想表達(dá)二分法”規(guī)則之下，模型“學(xué)習(xí)訓(xùn)練行為”存在納入版權(quán)權(quán)利框架的根本障礙

[2]參見朱開鑫、張藝群：《“你的AI侵犯了我的版權(quán)”：淺談AIGC背后的版權(quán)保護問題》，騰訊研究院公號

[3]參見“知產(chǎn)北京”公眾號，https://mp.weixin.qq.com/s/bsOtnaN4DTl_wSD1KxUm4g

[4]參見朱開鑫：《“AI孫燕姿”背后的版權(quán)迷宮》，騰訊研究院公眾號https://mp.weixin.qq.com/s/fDk_w-CqnTNsZYbgG9Q2yA

[5]參見：文化廳：著作法の一部を改正する法律概要明料，網(wǎng)址：https://www.bunka.go.jp/seisaku/chosakuken/hokaisei/h30_hokaisei/pdf/r1406693_02.pdf

[6]參見司曉：《奇點來臨：ChatGPT 時代的著作權(quán)法走向何處?兼回應(yīng)相關(guān)論點》，載《探索與爭鳴》2023年第5期

[7]參見朱開鑫：《ChatGPT生成的內(nèi)容，是否享有版權(quán)？》，騰訊研究院公眾號https://mp.weixin.qq.com/s/3_IVPrfdrDqS8uZeC7YsuQ

上一篇：Gartner 發(fā)布《2024 十大戰(zhàn)略技術(shù)趨勢》：四項涉及人工智能

下一篇：一分鐘視頻就能訓(xùn)練出一位AI虛擬主播，最多能講129種語言

AiLab云推薦

一文讀懂：AI大模型訓(xùn)練中的核心版權(quán)問題
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-10-19 18:06:24 瀏覽：6541次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

一文讀懂：AI大模型訓(xùn)練中的核心版權(quán)問題 來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-10-19 18:06:24 瀏覽：6541次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

一文讀懂：AI大模型訓(xùn)練中的核心版權(quán)問題
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-10-19 18:06:24 瀏覽：6541次