展會(huì)信息港展會(huì)大全

AI數(shù)據(jù)荒下的創(chuàng)業(yè)眾生相:盜用GPT-4生成數(shù)據(jù)訓(xùn)練模型,引發(fā)投資人擔(dān)憂
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-04-17 09:12:24   瀏覽:6000次  

導(dǎo)讀:智東西(公眾號(hào):zhidxcom) 編譯 | 長頸鹿 編輯 | 李水青 智東西4月16日消息,據(jù)外媒The Information 4月15日報(bào)道,在AI領(lǐng)域,許多初創(chuàng)公司開發(fā)的聊天機(jī)器人實(shí)際上是建立在OpenAI等大型企業(yè)所提供的數(shù)據(jù)和技術(shù)基礎(chǔ)之上的。這些低成本的服務(wù)能夠在某些程度上...

智東西(公眾號(hào):zhidxcom)

編譯 | 長頸鹿

編輯 | 李水青

智東西4月16日消息,據(jù)外媒The Information 4月15日報(bào)道,在AI領(lǐng)域,許多初創(chuàng)公司開發(fā)的聊天機(jī)器人實(shí)際上是建立在OpenAI等大型企業(yè)所提供的數(shù)據(jù)和技術(shù)基礎(chǔ)之上的。這些低成本的服務(wù)能夠在某些程度上模仿GPT-4、Llama的性能,但這種做法可能違反了這些科技強(qiáng)企的使用要求。不僅如此,這種低成本的模仿還有可能對AI強(qiáng)企的市場份額和收入產(chǎn)生威脅。

AI巨頭們自身也難逃版權(quán)糾紛,一些未經(jīng)許可的數(shù)據(jù)使用引發(fā)了較多爭議和訴訟。但好在行業(yè)整體版權(quán)意識(shí)有所轉(zhuǎn)勢,OpenAI和谷歌帶頭與出版商和網(wǎng)站達(dá)成了數(shù)據(jù)的授權(quán)協(xié)議。

此外,在當(dāng)下如此復(fù)雜的市場競爭中,投資者們也有著自己的考量。他們即希望看到AI行業(yè)的快速進(jìn)步,又不愿支持初創(chuàng)公司在技術(shù)研發(fā)中出現(xiàn)“偷工減料”的行為。因?yàn)樗麄儞?dān)心這些違反規(guī)則的行為可能會(huì)對初創(chuàng)公司的長期可持續(xù)性和聲譽(yù)造成負(fù)面影響。

一、AI公司創(chuàng)業(yè)新路子:用GPT-4生成內(nèi)容訓(xùn)練模型

開發(fā)者利用OpenAI最先進(jìn)的模型GPT-4作為資源,來幫助加速他們的研究和開發(fā)過程。他們會(huì)向模型提問,來獲得有關(guān)特定問題的洞見和建議。比如 :這行代碼有什么問題?然后利用答案來改進(jìn)他們自己的模型。

一位幫助開發(fā)者構(gòu)建對話式AI的創(chuàng)始人估計(jì),他的客戶中約有一半從OpenAI的GPT-4或Anthropic的Claude模型中生成了一些數(shù)據(jù),并用這些數(shù)據(jù)改進(jìn)了自己的模型。

許多開發(fā)者無需從頭開始訓(xùn)練模型。小規(guī)模模型的開發(fā)過程通常是基于免費(fèi)提供的流行開源模型,如Meta或Mistral AI的開源模型。然后,他們再通過加入OpenAI模型的答案,使這些小規(guī)模模型得到顯著的改進(jìn)。

對于某些公司來說,違反明文規(guī)定或潛規(guī)則的風(fēng)險(xiǎn)可能是值得的。在競爭激烈的生成式AI領(lǐng)域,獲取高質(zhì)量數(shù)據(jù)用于訓(xùn)練或完善模型至關(guān)重要。任何一家AI初創(chuàng)企業(yè)都了解如果缺乏數(shù)據(jù)來源用于訓(xùn)練,就會(huì)落后于人。

即使是大型科技公司,也無法抵擋這樣“便利的”誘惑。據(jù)《泰晤士報(bào)》報(bào)道,這方面的例子包括谷歌轉(zhuǎn)錄YouTube視頻用于訓(xùn)練其AI模型以及Meta雇用非洲承包商總結(jié)受版權(quán)保護(hù)的書籍來訓(xùn)練AI模型。此外,彭博社報(bào)道了一則Adobe公司的消息,他們利用初創(chuàng)公司Midjourney提供的AI生成的照片訓(xùn)練自己的圖像生成軟件Firefly。

據(jù)The Information報(bào)道,去年,谷歌的一位高級(jí)AI工程師在對該公司使用OpenAI的ChatGPT數(shù)據(jù)來訓(xùn)練谷歌自己的模型表示擔(dān)憂后,辭職以示抗議。

但有些開發(fā)者不愿主動(dòng)承認(rèn)自己對于開源模型的使用情況。一旦這種行為被公之于眾時(shí),他們的公司就會(huì)陷入尷尬的局面。例如巴黎的Mistral AI和北京的零一萬物,在信息泄露事件之后,才不得不承認(rèn)他們確實(shí)使用了Meta的開源模型Llama 2作為自己產(chǎn)品開發(fā)的基矗

隨著越來越多的公司開發(fā)出源于其他模型的模型,它們可能會(huì)變得難以區(qū)分。這可能會(huì)蠶食OpenAI等領(lǐng)先企業(yè)的競爭優(yōu)勢,當(dāng)顧客選擇更便宜、更方便的模型,而不是最先進(jìn)、最昂貴的模型時(shí),它們在價(jià)格上將展開競爭。

二、阿爾特曼放寬ChatGPT使用限制,OpenAI此前深陷版權(quán)糾紛

OpenAI和Anthropic、谷歌等其他領(lǐng)先的AI公司一樣,在技術(shù)上禁止這種行為。盡管如此,OpenAI首席執(zhí)行官山姆阿爾特曼(Sam Altman)在一次會(huì)議上與初創(chuàng)企業(yè)創(chuàng)始人的對話中提到,小型企業(yè)創(chuàng)始人可以在一定程度上使用OpenAI的技術(shù)。

雖然阿爾特曼的回答讓在場的一些創(chuàng)始人松了一口氣,但如果這種做法損害了OpenAI的發(fā)展,他們隨時(shí)可能改變主意。目前還不清楚,OpenAI、谷歌、Anthropic和其他大型開發(fā)商會(huì)在多長時(shí)間內(nèi)允許較小的競爭對手有效復(fù)制他們的AI。

不過,初創(chuàng)公司利用OpenAI數(shù)據(jù)所做的事情與OpenAI和其他領(lǐng)先的AI開發(fā)商在訓(xùn)練自己的模型時(shí)所做的事情有相似之處。OpenAI的首席技術(shù)官米拉穆拉提(Mira Murati)上個(gè)月的一次采訪中,在回答有關(guān)其同事是否使用了谷歌旗下的YouTube以及Meta Platforms旗下的Facebook和Instagram的數(shù)據(jù)來訓(xùn)練Sora時(shí),表現(xiàn)得有些含糊其辭。

如果OpenAI確實(shí)使用了這些數(shù)據(jù),也不足為奇。紐約時(shí)報(bào)最近的一篇報(bào)道描述了OpenAI如何創(chuàng)建語音識(shí)別工具Whisper來轉(zhuǎn)錄YouTube視頻,以改進(jìn)其GPT-4 模型。The Information此前曾報(bào)道,該公司秘密使用YouTube數(shù)據(jù)訓(xùn)練其之前的AI模型。本月早些時(shí)候,YouTube首席執(zhí)行官尼爾莫漢(Neal Mohan)表示,他不會(huì)同意OpenAI使用YouTube視頻來開發(fā)像Sora這樣的模型。

這引發(fā)了新聞出版商和一些作家的指責(zé)。去年12月,《紐約時(shí)報(bào)》起訴OpenAI及其最大支持者微軟,指控它們在訓(xùn)練模型時(shí)非法復(fù)制了紐約時(shí)報(bào)的文章。訴訟稱,OpenAI的聊天機(jī)器人可以產(chǎn)生完整紐約時(shí)報(bào)內(nèi)容的輸出。

OpenAI在回應(yīng)中辯稱,它曾試圖與新聞出版商建立合作關(guān)系,其訓(xùn)練行為是美國版權(quán)原則“合理使用”所允許的。

盡管如此,OpenAI和谷歌都與包括Axel Springer在內(nèi)的出版商達(dá)成了價(jià)值數(shù)百萬美元的授權(quán)協(xié)議,并與Reddit等大型網(wǎng)站達(dá)成了更大的協(xié)議。

但并非每個(gè)AI開發(fā)商都游走在“灰色地域”。Databricks公司的首席科學(xué)家喬納森弗蘭克爾(Jonathan Frankle)表示,該公司在開發(fā)強(qiáng)大的開源大型語言模型時(shí),并沒有依賴競爭對手的作品。Anthropic的一位發(fā)言人也稱,該公司沒有利用其他模型的輸出結(jié)果來訓(xùn)練自身大模型。

三、投資者不愿初創(chuàng)公司“走捷徑”,合成數(shù)據(jù)或成訓(xùn)練新來源

一些投資者對“偷工減料”或開發(fā)出與競爭對手無異的技術(shù)的公司感到不舒服,因?yàn)檫@些公司實(shí)際上并沒有自己真正的技術(shù)。投資者們更希望看到AI領(lǐng)域的快速進(jìn)步和比同行更好的科研成果。

一些籌集了數(shù)億美元資金的公司甚至不承認(rèn)使用了其他AI公司的開源模型。這種情況更加劇李投資者的不滿,認(rèn)為公司的誠信有問題。門羅風(fēng)險(xiǎn)投資公司(Menlo Ventures)的董事總經(jīng)理馬特墨菲(Matt Murphy)解釋道,在一個(gè)新的生態(tài)系統(tǒng)中,沒有一套明確的規(guī)則,就會(huì)出現(xiàn)這種情況。

合成數(shù)據(jù)是一種替代方案,公司可以用自己的AI模型生成數(shù)據(jù),而不是獲取線上的內(nèi)容。例如,谷歌和Meta就表示,它們使用合成數(shù)據(jù)來建立模型,以解決幾何問題和生成計(jì)算機(jī)代碼。由于AI能夠生成這類數(shù)據(jù),因此它避免了使用人工生成的內(nèi)容所帶來的許多法律問題。

與此同時(shí),數(shù)十家AI初創(chuàng)公司正在獲取醫(yī)療保健和律師事務(wù)所等行業(yè)的私人數(shù)據(jù),以開發(fā)特定用途的模型。

結(jié)語:生成式AI模仿風(fēng)波不斷,OpenAI持寬容態(tài)度

許多初創(chuàng)公司開發(fā)的AI大模型很可能使用了OpenAI和其他公司的數(shù)據(jù),盡管這些初創(chuàng)公司正試圖削弱OpenAI的實(shí)力。這種做法已成為了行業(yè)內(nèi)的公開秘密,導(dǎo)致了技術(shù)同源但價(jià)格減半的競爭態(tài)勢。

雖然OpenAI等初創(chuàng)公司對于小規(guī)模使用情況保持寬容的態(tài)度,但一些公司仍不主動(dòng)披露他們在開發(fā)過程中使用了他者的技術(shù)。他們認(rèn)為承認(rèn)可能會(huì)給公司帶來風(fēng)險(xiǎn)。

不管怎樣,訓(xùn)練大模型數(shù)據(jù)的緊缺和日益增長的競爭壓力仍在增加,目前合成數(shù)據(jù)仍在探索階段,我們期待AI公司更前沿的模型訓(xùn)練和數(shù)據(jù)獲齲

來源:The Information

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港