展會信息港展會大全

6 年成果,被爬取 200+萬次,僅索賠 1 元?AI 大模型被指控“偷”數(shù)據(jù),學(xué)而思最新回應(yīng)
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-06-15 19:53:58   瀏覽:6266次  

導(dǎo)讀:整理 | 鄭麗媛 出品 | CSDN(ID:CSDNnews) 上個月,學(xué)而思曾透露消息稱,目前其正在自研數(shù)學(xué)大模型 MathGPT,即面向全球數(shù)學(xué)愛好者和科研機(jī)構(gòu),以數(shù)學(xué)領(lǐng)域的解題和講題算法為核心打造而成。 彼時許多人感慨,理科生版的 ChatGPT 終于要來了。 不曾想,Math...

整理 | 鄭麗媛

出品 | CSDN(ID:CSDNnews)

上個月,學(xué)而思曾透露消息稱,目前其正在自研數(shù)學(xué)大模型 MathGPT,即面向全球數(shù)學(xué)愛好者和科研機(jī)構(gòu),以數(shù)學(xué)領(lǐng)域的解題和講題算法為核心打造而成。

彼時許多人感慨,“理科生”版的 ChatGPT 終于要來了。

不曾想,MathGPT 還未真正面世,有關(guān)它的“丑聞”就先一步爆發(fā)了:本周二,筆神作文 App 指控學(xué)而思通過“爬蟲”技術(shù),非法訪問、緩存其服務(wù)器數(shù)據(jù)多達(dá) 258 萬次,以此開發(fā) MathGPT 的新產(chǎn)品“作文 AI 助手”。

6 年成果,一個周末被爬取超 200 萬次

此次事件的主角之一,筆神作文,是一個成立于 2017 年 12 月的 K12(從幼兒園到 12 年級的教育)作文教育平臺,隸屬于北京一筆兩劃科技有限公司。

當(dāng)時的 AI 市場遠(yuǎn)不如現(xiàn)在火爆,筆神作文卻憑借其“用人工智能技術(shù),幫助寫作者提升寫作能力”的特色,在 2018 年 1 月獲得了真格基金數(shù)百萬元種子輪融資,后來又在 2019 年 7 月完成了數(shù)百萬天使輪融資。

根據(jù)官方資料顯示,筆神作文上線六年,每月會收到超過 30 萬篇作文投稿和超過 40 萬次的點(diǎn)贊評論,積累了數(shù)百萬篇作文素材,月批改作文量超 3 萬篇。

而伴隨著去年年底 ChatGPT 的橫空出世,筆神作文的投資方之一世紀(jì)天鴻曾表示,“筆神”與 ChatGPT 技術(shù)同源,都是采用基于 Transformer 的最新算法作為 AI 模型底層。筆神作文創(chuàng)始人宋嘉偉也曾介紹道:“一筆兩劃目前團(tuán)隊(duì)有超過 60% 為技術(shù)研發(fā)人員,在成立公司之前該團(tuán)隊(duì)就曾創(chuàng)立過 NLP 類公司,部分骨干在自然語言理解領(lǐng)域合作并深耕多年。”

因此整體而言,筆神作文的算法模型為一筆兩劃公司自研訓(xùn)練,其平臺的大數(shù)據(jù)來自于自身累積。

因其在寫作方面的技術(shù)積累和顯著成果,三年前筆神作文與學(xué)而思達(dá)成了合作:與學(xué)而思旗下的學(xué)習(xí)工具 App “題拍拍”簽約,主要負(fù)責(zé)提供作文素材查詢服務(wù)。

而作為合作伙伴,本周筆神作文表示:在 4 月 13 日發(fā)生了一件我們都沒有預(yù)想的事情,我們團(tuán)隊(duì)從創(chuàng)業(yè)以來的 6 年成果,被合作多年的“學(xué)而思”在短短一個周末的時間爬取了超過兩百萬次!

訴求:1 元賠償金,公開道歉并刪除數(shù)據(jù)

從筆神作文官方微博的聲明來看,本身它沒有完備的數(shù)據(jù)安全機(jī)制,而對于“合作伙伴”學(xué)而思,更是沒有設(shè)置全部的提防,從而導(dǎo)致三體云聯(lián)公司(學(xué)而思子公司)利用這份信任,即:在未經(jīng)筆神作文 APP 授權(quán)許可的情況下,在 2023 年 4 月 13 日至 4 月 17 日期間通過“爬蟲”技術(shù)非法訪問、緩存筆神作文 APP 服務(wù)器數(shù)據(jù)多達(dá) 258 萬次。

對此,筆神作文主張?jiān)撔袨檫`反了雙方的合同條款,更違反了《數(shù)據(jù)保護(hù)法》第三十二條“任何組織、個人收集數(shù)據(jù),應(yīng)當(dāng)采取合法、正當(dāng)?shù)姆绞,不得竊取或者以其他非法方式獲取數(shù)據(jù)”的規(guī)定,嚴(yán)重侵犯了筆神作文 APP 的數(shù)據(jù)權(quán)益。

事后,筆神作文向?qū)W而思進(jìn)行了求證,對方直接承認(rèn)是他們的算法組在爬取數(shù)據(jù)并作為己用。因此筆神作文發(fā)送了律師函,卻沒有得到對方的實(shí)質(zhì)性回復(fù),而此時學(xué)而思的 AI 大模型 MathGPT 卻即將上線新產(chǎn)品“作文 AI 助手”。

“我們作為一家體量遠(yuǎn)小于‘學(xué)而思’的公司已經(jīng)別無他法,只能通過法律途徑來維護(hù)我們的權(quán)益。”但筆神作文在聲明中也指出,目前的法律法規(guī)并沒有【AI 大模型數(shù)據(jù)盜瓤的判決先例,因此只能“勇敢地走出這第一步”。

至于筆神作文的訴求,實(shí)際上也并非是索要大額賠償金:只想要學(xué)而思支付 1 元賠償金,公開道歉并刪除已爬取的數(shù)據(jù)。

對此,筆神作文解釋道:“數(shù)據(jù)是有價值的,但我們心血更是無價,索賠 1 元是因?yàn)楣焦⒉荒苡媒疱X衡量,我們希望通過訴訟告訴社會這種行為是錯誤的。人工智能行業(yè)的發(fā)展,靠的是共同創(chuàng)造,而非覬覦和剽竊他人的成果。”

確實(shí)正如筆神作文所說,其體量并不大,因此這封聲明也并未引起太多關(guān)注,不過僅有的幾條評論中都在譴責(zé)學(xué)而思的行為。

學(xué)而思回應(yīng):均符合合同要求

經(jīng)多家媒體報(bào)道后,這起事件逐漸發(fā)酵,于是昨晚學(xué)而思官方微博也對此發(fā)文回應(yīng):

首先,MathGPT 是專注于數(shù)學(xué)領(lǐng)域的自研大模型,沒有任何作文相關(guān)數(shù)據(jù);其次,“作文 AI 助手”目前處于開發(fā)狀態(tài),尚未發(fā)布,該服務(wù)并未使用筆神作文的任何數(shù)據(jù)。

而筆神作文聲稱被爬取二百多萬次的數(shù)據(jù),學(xué)而思指出合同中明確過“每月保底費(fèi)用包含的調(diào)用次數(shù)為百萬次量級”,其調(diào)用的接口“屬于雙方合同約定的正常合作范圍”。

在回應(yīng)的最后,學(xué)而思強(qiáng)調(diào)其“一直尊重知識產(chǎn)權(quán)、重視知識產(chǎn)權(quán)保護(hù)”,所有行為均嚴(yán)格按照合同約定履行,但是:“筆神作文的公開聲明已經(jīng)對學(xué)而思品牌聲譽(yù)造成了傷害,我們將保留追究其名譽(yù)侵權(quán)責(zé)任的權(quán)利。”

AI 訓(xùn)練數(shù)據(jù)的版權(quán)問題

從目前雙方給出的聲明來看,此次糾紛還不能給出最終結(jié)論,但這也揭示了近來日益火熱的 AI 大模型角逐下,一個容易被忽略卻又十分重要的盲點(diǎn):AI 訓(xùn)練數(shù)據(jù)的版權(quán)問題。

事實(shí)上,最近在外網(wǎng)鬧得沸沸揚(yáng)揚(yáng)的“美版貼吧” Reddit 強(qiáng)制對 API 進(jìn)行收費(fèi)的決定也出于這個原因。

近年來 Reddit 上發(fā)布的聊天內(nèi)容,已成為谷歌、OpenAI 和微軟等企業(yè)訓(xùn)練 AI 大模型的素材,以此來開發(fā) ChatGPT 等生成式 AI 產(chǎn)品。而伴隨著這類 AI 工具的火爆,Reddit 創(chuàng)始人兼 CEO 表示:“Reddit 的數(shù)據(jù)語料庫非常有價值,但我們不想把這些內(nèi)容免費(fèi)提供給一些巨頭公司了。”

繼 Reddit 帶頭表態(tài)要求科技巨頭付費(fèi)使用數(shù)據(jù)后,知名 IT 問答網(wǎng)站 Stack Overflow 也宣布計(jì)劃從今年年中起,向大型 AI 開發(fā)商收取數(shù)據(jù)訪問費(fèi)用,其 CEO 也指出:“社區(qū)平臺推動了大語言模型(LLM)發(fā)展,所作出的貢獻(xiàn)也必須得到補(bǔ)償。”

除了 Reddit 和 Stack Overflow 這類大型網(wǎng)站,甚至在開發(fā)者圈子中,部分程序員也因 Copilot 涉嫌侵犯代碼版權(quán)宣稱要棄用 GitHub:

毫無疑問,AI 大模型在變得更智能的過程中,海量的訓(xùn)練數(shù)據(jù)必不可少,但從目前來看,當(dāng)今 AI 領(lǐng)域的“當(dāng)紅炸子雞”OpenAI,對于訓(xùn)練數(shù)據(jù)的版權(quán)問題都沒有很好的解決方案。

然而,伴隨著 AI 熱潮進(jìn)一步推進(jìn),這個問題又勢必要得到解決。正如北京大學(xué)計(jì)算機(jī)學(xué)院教授陳鐘所說:“可能在研發(fā)初期,大家對數(shù)據(jù)來源并不在意,但當(dāng)你產(chǎn)生了巨大的經(jīng)濟(jì)效益時,現(xiàn)實(shí)傳統(tǒng)的經(jīng)濟(jì)模式、法律體系都將約束著你的行為。”

那么對于這個問題,你又是否有什么看法?

參考鏈接:

https://weibo.com/5308312222/4912235782345634?wm=3333_2001&from=10D6093010&sourcetype=weixin&s_trans=3830025800_4912235782345634&s_channel=4

https://www.36kr.com/p/1723938652161

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港