日韩一区欧美在线,日韩人妻中文字幕无码,欧美激情人妻狠狠插精品一区二区

AI數(shù)據(jù)荒下的創(chuàng)業(yè)眾生相：盜用GPT-4生成數(shù)據(jù)訓(xùn)練模型，引發(fā)投資人擔(dān)憂

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-17 09:12:24 瀏覽：6000次

導(dǎo)讀：智東西（公眾號(hào)：zhidxcom）編譯 | 長頸鹿編輯 | 李水青智東西4月16日消息，據(jù)外媒The Information 4月15日報(bào)道，在AI領(lǐng)域，許多初創(chuàng)公司開發(fā)的聊天機(jī)器人實(shí)際上是建立在OpenAI等大型企業(yè)所提供的數(shù)據(jù)和技術(shù)基礎(chǔ)之上的。這些低成本的服務(wù)能夠在某些程度上...

智東西（公眾號(hào)：zhidxcom）

編譯 | 長頸鹿

編輯 | 李水青

智東西4月16日消息，據(jù)外媒The Information 4月15日報(bào)道，在AI領(lǐng)域，許多初創(chuàng)公司開發(fā)的聊天機(jī)器人實(shí)際上是建立在OpenAI等大型企業(yè)所提供的數(shù)據(jù)和技術(shù)基礎(chǔ)之上的。這些低成本的服務(wù)能夠在某些程度上模仿GPT-4、Llama的性能，但這種做法可能違反了這些科技強(qiáng)企的使用要求。不僅如此，這種低成本的模仿還有可能對AI強(qiáng)企的市場份額和收入產(chǎn)生威脅。

AI巨頭們自身也難逃版權(quán)糾紛，一些未經(jīng)許可的數(shù)據(jù)使用引發(fā)了較多爭議和訴訟。但好在行業(yè)整體版權(quán)意識(shí)有所轉(zhuǎn)勢，OpenAI和谷歌帶頭與出版商和網(wǎng)站達(dá)成了數(shù)據(jù)的授權(quán)協(xié)議。

此外，在當(dāng)下如此復(fù)雜的市場競爭中，投資者們也有著自己的考量。他們即希望看到AI行業(yè)的快速進(jìn)步，又不愿支持初創(chuàng)公司在技術(shù)研發(fā)中出現(xiàn)“偷工減料”的行為。因?yàn)樗麄儞?dān)心這些違反規(guī)則的行為可能會(huì)對初創(chuàng)公司的長期可持續(xù)性和聲譽(yù)造成負(fù)面影響。

一、AI公司創(chuàng)業(yè)新路子：用GPT-4生成內(nèi)容訓(xùn)練模型

開發(fā)者利用OpenAI最先進(jìn)的模型GPT-4作為資源，來幫助加速他們的研究和開發(fā)過程。他們會(huì)向模型提問，來獲得有關(guān)特定問題的洞見和建議。比如：這行代碼有什么問題？然后利用答案來改進(jìn)他們自己的模型。

一位幫助開發(fā)者構(gòu)建對話式AI的創(chuàng)始人估計(jì)，他的客戶中約有一半從OpenAI的GPT-4或Anthropic的Claude模型中生成了一些數(shù)據(jù)，并用這些數(shù)據(jù)改進(jìn)了自己的模型。

許多開發(fā)者無需從頭開始訓(xùn)練模型。小規(guī)模模型的開發(fā)過程通常是基于免費(fèi)提供的流行開源模型，如Meta或Mistral AI的開源模型。然后，他們再通過加入OpenAI模型的答案，使這些小規(guī)模模型得到顯著的改進(jìn)。

對于某些公司來說，違反明文規(guī)定或潛規(guī)則的風(fēng)險(xiǎn)可能是值得的。在競爭激烈的生成式AI領(lǐng)域，獲取高質(zhì)量數(shù)據(jù)用于訓(xùn)練或完善模型至關(guān)重要。任何一家AI初創(chuàng)企業(yè)都了解如果缺乏數(shù)據(jù)來源用于訓(xùn)練，就會(huì)落后于人。

即使是大型科技公司，也無法抵擋這樣“便利的”誘惑。據(jù)《泰晤士報(bào)》報(bào)道，這方面的例子包括谷歌轉(zhuǎn)錄YouTube視頻用于訓(xùn)練其AI模型以及Meta雇用非洲承包商總結(jié)受版權(quán)保護(hù)的書籍來訓(xùn)練AI模型。此外，彭博社報(bào)道了一則Adobe公司的消息，他們利用初創(chuàng)公司Midjourney提供的AI生成的照片訓(xùn)練自己的圖像生成軟件Firefly。

據(jù)The Information報(bào)道，去年，谷歌的一位高級(jí)AI工程師在對該公司使用OpenAI的ChatGPT數(shù)據(jù)來訓(xùn)練谷歌自己的模型表示擔(dān)憂后，辭職以示抗議。

但有些開發(fā)者不愿主動(dòng)承認(rèn)自己對于開源模型的使用情況。一旦這種行為被公之于眾時(shí)，他們的公司就會(huì)陷入尷尬的局面。例如巴黎的Mistral AI和北京的零一萬物，在信息泄露事件之后，才不得不承認(rèn)他們確實(shí)使用了Meta的開源模型Llama 2作為自己產(chǎn)品開發(fā)的基矗

隨著越來越多的公司開發(fā)出源于其他模型的模型，它們可能會(huì)變得難以區(qū)分。這可能會(huì)蠶食OpenAI等領(lǐng)先企業(yè)的競爭優(yōu)勢，當(dāng)顧客選擇更便宜、更方便的模型，而不是最先進(jìn)、最昂貴的模型時(shí)，它們在價(jià)格上將展開競爭。

二、阿爾特曼放寬ChatGPT使用限制，OpenAI此前深陷版權(quán)糾紛

OpenAI和Anthropic、谷歌等其他領(lǐng)先的AI公司一樣，在技術(shù)上禁止這種行為。盡管如此，OpenAI首席執(zhí)行官山姆阿爾特曼（Sam Altman）在一次會(huì)議上與初創(chuàng)企業(yè)創(chuàng)始人的對話中提到，小型企業(yè)創(chuàng)始人可以在一定程度上使用OpenAI的技術(shù)。

雖然阿爾特曼的回答讓在場的一些創(chuàng)始人松了一口氣，但如果這種做法損害了OpenAI的發(fā)展，他們隨時(shí)可能改變主意。目前還不清楚，OpenAI、谷歌、Anthropic和其他大型開發(fā)商會(huì)在多長時(shí)間內(nèi)允許較小的競爭對手有效復(fù)制他們的AI。

不過，初創(chuàng)公司利用OpenAI數(shù)據(jù)所做的事情與OpenAI和其他領(lǐng)先的AI開發(fā)商在訓(xùn)練自己的模型時(shí)所做的事情有相似之處。OpenAI的首席技術(shù)官米拉穆拉提（Mira Murati）上個(gè)月的一次采訪中，在回答有關(guān)其同事是否使用了谷歌旗下的YouTube以及Meta Platforms旗下的Facebook和Instagram的數(shù)據(jù)來訓(xùn)練Sora時(shí)，表現(xiàn)得有些含糊其辭。

如果OpenAI確實(shí)使用了這些數(shù)據(jù)，也不足為奇。紐約時(shí)報(bào)最近的一篇報(bào)道描述了OpenAI如何創(chuàng)建語音識(shí)別工具Whisper來轉(zhuǎn)錄YouTube視頻，以改進(jìn)其GPT-4 模型。The Information此前曾報(bào)道，該公司秘密使用YouTube數(shù)據(jù)訓(xùn)練其之前的AI模型。本月早些時(shí)候，YouTube首席執(zhí)行官尼爾莫漢（Neal Mohan）表示，他不會(huì)同意OpenAI使用YouTube視頻來開發(fā)像Sora這樣的模型。

這引發(fā)了新聞出版商和一些作家的指責(zé)。去年12月，《紐約時(shí)報(bào)》起訴OpenAI及其最大支持者微軟，指控它們在訓(xùn)練模型時(shí)非法復(fù)制了紐約時(shí)報(bào)的文章。訴訟稱，OpenAI的聊天機(jī)器人可以產(chǎn)生完整紐約時(shí)報(bào)內(nèi)容的輸出。

OpenAI在回應(yīng)中辯稱，它曾試圖與新聞出版商建立合作關(guān)系，其訓(xùn)練行為是美國版權(quán)原則“合理使用”所允許的。

盡管如此，OpenAI和谷歌都與包括Axel Springer在內(nèi)的出版商達(dá)成了價(jià)值數(shù)百萬美元的授權(quán)協(xié)議，并與Reddit等大型網(wǎng)站達(dá)成了更大的協(xié)議。

但并非每個(gè)AI開發(fā)商都游走在“灰色地域”。Databricks公司的首席科學(xué)家喬納森弗蘭克爾（Jonathan Frankle）表示，該公司在開發(fā)強(qiáng)大的開源大型語言模型時(shí)，并沒有依賴競爭對手的作品。Anthropic的一位發(fā)言人也稱，該公司沒有利用其他模型的輸出結(jié)果來訓(xùn)練自身大模型。

三、投資者不愿初創(chuàng)公司“走捷徑”，合成數(shù)據(jù)或成訓(xùn)練新來源

一些投資者對“偷工減料”或開發(fā)出與競爭對手無異的技術(shù)的公司感到不舒服，因?yàn)檫@些公司實(shí)際上并沒有自己真正的技術(shù)。投資者們更希望看到AI領(lǐng)域的快速進(jìn)步和比同行更好的科研成果。

一些籌集了數(shù)億美元資金的公司甚至不承認(rèn)使用了其他AI公司的開源模型。這種情況更加劇李投資者的不滿，認(rèn)為公司的誠信有問題。門羅風(fēng)險(xiǎn)投資公司（Menlo Ventures）的董事總經(jīng)理馬特墨菲（Matt Murphy）解釋道，在一個(gè)新的生態(tài)系統(tǒng)中，沒有一套明確的規(guī)則，就會(huì)出現(xiàn)這種情況。

合成數(shù)據(jù)是一種替代方案，公司可以用自己的AI模型生成數(shù)據(jù)，而不是獲取線上的內(nèi)容。例如，谷歌和Meta就表示，它們使用合成數(shù)據(jù)來建立模型，以解決幾何問題和生成計(jì)算機(jī)代碼。由于AI能夠生成這類數(shù)據(jù)，因此它避免了使用人工生成的內(nèi)容所帶來的許多法律問題。

與此同時(shí)，數(shù)十家AI初創(chuàng)公司正在獲取醫(yī)療保健和律師事務(wù)所等行業(yè)的私人數(shù)據(jù)，以開發(fā)特定用途的模型。

結(jié)語：生成式AI模仿風(fēng)波不斷，OpenAI持寬容態(tài)度

許多初創(chuàng)公司開發(fā)的AI大模型很可能使用了OpenAI和其他公司的數(shù)據(jù)，盡管這些初創(chuàng)公司正試圖削弱OpenAI的實(shí)力。這種做法已成為了行業(yè)內(nèi)的公開秘密，導(dǎo)致了技術(shù)同源但價(jià)格減半的競爭態(tài)勢。

雖然OpenAI等初創(chuàng)公司對于小規(guī)模使用情況保持寬容的態(tài)度，但一些公司仍不主動(dòng)披露他們在開發(fā)過程中使用了他者的技術(shù)。他們認(rèn)為承認(rèn)可能會(huì)給公司帶來風(fēng)險(xiǎn)。

不管怎樣，訓(xùn)練大模型數(shù)據(jù)的緊缺和日益增長的競爭壓力仍在增加，目前合成數(shù)據(jù)仍在探索階段，我們期待AI公司更前沿的模型訓(xùn)練和數(shù)據(jù)獲齲

來源：The Information

AI數(shù)據(jù)荒下的創(chuàng)業(yè)眾生相：盜用GPT-4生成數(shù)據(jù)訓(xùn)練模型，引發(fā)投資人擔(dān)憂
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-17 09:12:24 瀏覽：6000次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

AI數(shù)據(jù)荒下的創(chuàng)業(yè)眾生相：盜用GPT-4生成數(shù)據(jù)訓(xùn)練模型，引發(fā)投資人擔(dān)憂 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-17 09:12:24 瀏覽：6000次