整理 | 鄭麗媛
出品 | CSDN(ID:CSDNnews)
上個月,學(xué)而思曾透露消息稱,目前其正在自研數(shù)學(xué)大模型 MathGPT,即面向全球數(shù)學(xué)愛好者和科研機(jī)構(gòu),以數(shù)學(xué)領(lǐng)域的解題和講題算法為核心打造而成。
彼時許多人感慨,“理科生”版的 ChatGPT 終于要來了。
不曾想,MathGPT 還未真正面世,有關(guān)它的“丑聞”就先一步爆發(fā)了:本周二,筆神作文 App 指控學(xué)而思通過“爬蟲”技術(shù),非法訪問、緩存其服務(wù)器數(shù)據(jù)多達(dá) 258 萬次,以此開發(fā) MathGPT 的新產(chǎn)品“作文 AI 助手”。
6 年成果,一個周末被爬取超 200 萬次
此次事件的主角之一,筆神作文,是一個成立于 2017 年 12 月的 K12(從幼兒園到 12 年級的教育)作文教育平臺,隸屬于北京一筆兩劃科技有限公司。
當(dāng)時的 AI 市場遠(yuǎn)不如現(xiàn)在火爆,筆神作文卻憑借其“用人工智能技術(shù),幫助寫作者提升寫作能力”的特色,在 2018 年 1 月獲得了真格基金數(shù)百萬元種子輪融資,后來又在 2019 年 7 月完成了數(shù)百萬天使輪融資。
根據(jù)官方資料顯示,筆神作文上線六年,每月會收到超過 30 萬篇作文投稿和超過 40 萬次的點(diǎn)贊評論,積累了數(shù)百萬篇作文素材,月批改作文量超 3 萬篇。
而伴隨著去年年底 ChatGPT 的橫空出世,筆神作文的投資方之一世紀(jì)天鴻曾表示,“筆神”與 ChatGPT 技術(shù)同源,都是采用基于 Transformer 的最新算法作為 AI 模型底層。筆神作文創(chuàng)始人宋嘉偉也曾介紹道:“一筆兩劃目前團(tuán)隊(duì)有超過 60% 為技術(shù)研發(fā)人員,在成立公司之前該團(tuán)隊(duì)就曾創(chuàng)立過 NLP 類公司,部分骨干在自然語言理解領(lǐng)域合作并深耕多年。”
因此整體而言,筆神作文的算法模型為一筆兩劃公司自研訓(xùn)練,其平臺的大數(shù)據(jù)來自于自身累積。
因其在寫作方面的技術(shù)積累和顯著成果,三年前筆神作文與學(xué)而思達(dá)成了合作:與學(xué)而思旗下的學(xué)習(xí)工具 App “題拍拍”簽約,主要負(fù)責(zé)提供作文素材查詢服務(wù)。
而作為合作伙伴,本周筆神作文表示:在 4 月 13 日發(fā)生了一件我們都沒有預(yù)想的事情,我們團(tuán)隊(duì)從創(chuàng)業(yè)以來的 6 年成果,被合作多年的“學(xué)而思”在短短一個周末的時間爬取了超過兩百萬次!
訴求:1 元賠償金,公開道歉并刪除數(shù)據(jù)
從筆神作文官方微博的聲明來看,本身它沒有完備的數(shù)據(jù)安全機(jī)制,而對于“合作伙伴”學(xué)而思,更是沒有設(shè)置全部的提防,從而導(dǎo)致三體云聯(lián)公司(學(xué)而思子公司)利用這份信任,即:在未經(jīng)筆神作文 APP 授權(quán)許可的情況下,在 2023 年 4 月 13 日至 4 月 17 日期間通過“爬蟲”技術(shù)非法訪問、緩存筆神作文 APP 服務(wù)器數(shù)據(jù)多達(dá) 258 萬次。
對此,筆神作文主張?jiān)撔袨檫`反了雙方的合同條款,更違反了《數(shù)據(jù)保護(hù)法》第三十二條“任何組織、個人收集數(shù)據(jù),應(yīng)當(dāng)采取合法、正當(dāng)?shù)姆绞,不得竊取或者以其他非法方式獲取數(shù)據(jù)”的規(guī)定,嚴(yán)重侵犯了筆神作文 APP 的數(shù)據(jù)權(quán)益。
事后,筆神作文向?qū)W而思進(jìn)行了求證,對方直接承認(rèn)是他們的算法組在爬取數(shù)據(jù)并作為己用。因此筆神作文發(fā)送了律師函,卻沒有得到對方的實(shí)質(zhì)性回復(fù),而此時學(xué)而思的 AI 大模型 MathGPT 卻即將上線新產(chǎn)品“作文 AI 助手”。
“我們作為一家體量遠(yuǎn)小于‘學(xué)而思’的公司已經(jīng)別無他法,只能通過法律途徑來維護(hù)我們的權(quán)益。”但筆神作文在聲明中也指出,目前的法律法規(guī)并沒有【AI 大模型數(shù)據(jù)盜瓤的判決先例,因此只能“勇敢地走出這第一步”。
至于筆神作文的訴求,實(shí)際上也并非是索要大額賠償金:只想要學(xué)而思支付 1 元賠償金,公開道歉并刪除已爬取的數(shù)據(jù)。
對此,筆神作文解釋道:“數(shù)據(jù)是有價值的,但我們心血更是無價,索賠 1 元是因?yàn)楣焦⒉荒苡媒疱X衡量,我們希望通過訴訟告訴社會這種行為是錯誤的。人工智能行業(yè)的發(fā)展,靠的是共同創(chuàng)造,而非覬覦和剽竊他人的成果。”
確實(shí)正如筆神作文所說,其體量并不大,因此這封聲明也并未引起太多關(guān)注,不過僅有的幾條評論中都在譴責(zé)學(xué)而思的行為。
學(xué)而思回應(yīng):均符合合同要求
經(jīng)多家媒體報(bào)道后,這起事件逐漸發(fā)酵,于是昨晚學(xué)而思官方微博也對此發(fā)文回應(yīng):
首先,MathGPT 是專注于數(shù)學(xué)領(lǐng)域的自研大模型,沒有任何作文相關(guān)數(shù)據(jù);其次,“作文 AI 助手”目前處于開發(fā)狀態(tài),尚未發(fā)布,該服務(wù)并未使用筆神作文的任何數(shù)據(jù)。
而筆神作文聲稱被爬取二百多萬次的數(shù)據(jù),學(xué)而思指出合同中明確過“每月保底費(fèi)用包含的調(diào)用次數(shù)為百萬次量級”,其調(diào)用的接口“屬于雙方合同約定的正常合作范圍”。
在回應(yīng)的最后,學(xué)而思強(qiáng)調(diào)其“一直尊重知識產(chǎn)權(quán)、重視知識產(chǎn)權(quán)保護(hù)”,所有行為均嚴(yán)格按照合同約定履行,但是:“筆神作文的公開聲明已經(jīng)對學(xué)而思品牌聲譽(yù)造成了傷害,我們將保留追究其名譽(yù)侵權(quán)責(zé)任的權(quán)利。”
AI 訓(xùn)練數(shù)據(jù)的版權(quán)問題
從目前雙方給出的聲明來看,此次糾紛還不能給出最終結(jié)論,但這也揭示了近來日益火熱的 AI 大模型角逐下,一個容易被忽略卻又十分重要的盲點(diǎn):AI 訓(xùn)練數(shù)據(jù)的版權(quán)問題。
事實(shí)上,最近在外網(wǎng)鬧得沸沸揚(yáng)揚(yáng)的“美版貼吧” Reddit 強(qiáng)制對 API 進(jìn)行收費(fèi)的決定也出于這個原因。
近年來 Reddit 上發(fā)布的聊天內(nèi)容,已成為谷歌、OpenAI 和微軟等企業(yè)訓(xùn)練 AI 大模型的素材,以此來開發(fā) ChatGPT 等生成式 AI 產(chǎn)品。而伴隨著這類 AI 工具的火爆,Reddit 創(chuàng)始人兼 CEO 表示:“Reddit 的數(shù)據(jù)語料庫非常有價值,但我們不想把這些內(nèi)容免費(fèi)提供給一些巨頭公司了。”
繼 Reddit 帶頭表態(tài)要求科技巨頭付費(fèi)使用數(shù)據(jù)后,知名 IT 問答網(wǎng)站 Stack Overflow 也宣布計(jì)劃從今年年中起,向大型 AI 開發(fā)商收取數(shù)據(jù)訪問費(fèi)用,其 CEO 也指出:“社區(qū)平臺推動了大語言模型(LLM)發(fā)展,所作出的貢獻(xiàn)也必須得到補(bǔ)償。”
除了 Reddit 和 Stack Overflow 這類大型網(wǎng)站,甚至在開發(fā)者圈子中,部分程序員也因 Copilot 涉嫌侵犯代碼版權(quán)宣稱要棄用 GitHub:
毫無疑問,AI 大模型在變得更智能的過程中,海量的訓(xùn)練數(shù)據(jù)必不可少,但從目前來看,當(dāng)今 AI 領(lǐng)域的“當(dāng)紅炸子雞”OpenAI,對于訓(xùn)練數(shù)據(jù)的版權(quán)問題都沒有很好的解決方案。
然而,伴隨著 AI 熱潮進(jìn)一步推進(jìn),這個問題又勢必要得到解決。正如北京大學(xué)計(jì)算機(jī)學(xué)院教授陳鐘所說:“可能在研發(fā)初期,大家對數(shù)據(jù)來源并不在意,但當(dāng)你產(chǎn)生了巨大的經(jīng)濟(jì)效益時,現(xiàn)實(shí)傳統(tǒng)的經(jīng)濟(jì)模式、法律體系都將約束著你的行為。”
那么對于這個問題,你又是否有什么看法?
參考鏈接:
https://weibo.com/5308312222/4912235782345634?wm=3333_2001&from=10D6093010&sourcetype=weixin&s_trans=3830025800_4912235782345634&s_channel=4
https://www.36kr.com/p/1723938652161