當(dāng)前位置：人工智能實驗室> 人工智能動態(tài) > AIGC行業(yè)公開的秘密：都在抄作業(yè)，初創(chuàng)公司用GPT-4訓(xùn)練自家大模型

AIGC行業(yè)公開的秘密：都在抄作業(yè)，初創(chuàng)公司用GPT-4訓(xùn)練自家大模型
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-16 08:03:44 瀏覽：7290次

導(dǎo)讀：劃重點 1 許多初創(chuàng)公司都在使用OpenAI等公司的相似數(shù)據(jù)和技術(shù)來開發(fā)自家大模型。 2 使用相同或類似數(shù)據(jù)訓(xùn)練大模型，導(dǎo)致這些模型無法在競爭中脫穎而出。 3 投資者不愿支持那些試圖走捷徑或開發(fā)與競爭對手毫無差別模型的公司。騰訊科技訊據(jù)國外媒體報道，據(jù)...

劃重點

許多初創(chuàng)公司都在使用OpenAI等公司的相似數(shù)據(jù)和技術(shù)來開發(fā)自家大模型。

使用相同或類似數(shù)據(jù)訓(xùn)練大模型，導(dǎo)致這些模型無法在競爭中脫穎而出。

投資者不愿支持那些試圖走捷徑或開發(fā)與競爭對手毫無差別模型的公司。

科技新聞訊 據(jù)國外媒體報道，據(jù)多位開發(fā)者和創(chuàng)始人透露，許多初創(chuàng)公司所開發(fā)的人工智能聊天機器人極可能依賴OpenAI及其他公司的數(shù)據(jù)資源，盡管這些初創(chuàng)企業(yè)正努力削弱OpenAI的市場地位。這一現(xiàn)象催生了一種新的競爭態(tài)勢：這些初創(chuàng)公司向客戶收取的費用僅為GPT-4成本的極小部分，但它們的低成本服務(wù)卻能在特定任務(wù)上模仿GPT-4的表現(xiàn)。

然而，值得注意的是，這些初創(chuàng)公司在開發(fā)過程中并未公開披露它們使用了OpenAI的技術(shù)。這種做法使得這些初創(chuàng)公司面臨一定的風(fēng)險，因為如同Anthropic和谷歌等領(lǐng)先的人工智能公司一樣，OpenAI在技術(shù)上明確禁止此類行為。不過，據(jù)知情人士透露，去年夏天，OpenAI的首席執(zhí)行官山姆奧特曼（SamAltman）曾向眾多初創(chuàng)公司創(chuàng)始人表示，規(guī)模較小的企業(yè)可以適度利用該公司的技術(shù)。

盡管奧特曼的這一表態(tài)為部分創(chuàng)始人帶來了一絲寬慰，但一旦這種行為對OpenAI的增長構(gòu)成威脅，該公司隨時有可能改變立常市場上充斥著對大多數(shù)客戶而言足夠好的人工智能產(chǎn)品，可能會削弱OpenAI和其他供應(yīng)商的收入來源。同時，在類似技術(shù)基礎(chǔ)上訓(xùn)練的人工智能產(chǎn)品的激增，也可能使得單個提供商在激烈的市場競爭中更難脫穎而出。

這種策略的實施方式如下：開發(fā)者首先向OpenAI支付費用，以獲得對最先進模型GPT-4的訪問權(quán)限。隨后，他們向該模型提出一系列問題，如“這行代碼存在哪些問題？”通過收集這些答案和問題，他們進一步訓(xùn)練自己的競爭模型，比如那些能夠調(diào)試計算機代碼的模型。

這一策略在近幾個月備受青睞，被眾多開發(fā)者所采納。UnslothAI的聯(lián)合創(chuàng)始人丹尼爾韓（DanielHan）估計，他的客戶群體中，大約有一半的開發(fā)者會從GPT-4或Anthropic的Claude模型中生成數(shù)據(jù)，用以優(yōu)化和增強自己的模型。UnslothAI致力于協(xié)助開發(fā)者打造對話式人工智能產(chǎn)品。此外，許多公司也通過ShareGPT網(wǎng)站獲取這類數(shù)據(jù)，該網(wǎng)站為開發(fā)者提供了一個平臺，用以分享他們使用OpenAI模型生成的答案。

較小的開發(fā)者通常基于流行的開源模型進行模型開發(fā)，這些模型可以免費從Meta或MistralAI等公司獲齲然而，通過結(jié)合OpenAI模型的答案，他們的模型能夠取得實質(zhì)性的改進。一些開發(fā)者甚至利用名為OpenPipe的服務(wù)來自動化這一過程，從而更加高效地整合和優(yōu)化數(shù)據(jù)。

MenloVentures的董事總經(jīng)理馬特墨菲（MattMurphy）對此表示：“這是一個尚未建立明確規(guī)則的新生態(tài)系統(tǒng)中的現(xiàn)象。如果大家都在使用同樣的數(shù)據(jù)，那么如何才能在競爭中脫穎而出，取得更好的成果呢？”MenloVentures是OpenAI的競爭對手Anthropic的投資方。

風(fēng)險回報更高

對一些公司而言，盡管冒著違反OpenAI等公司政策或隱性規(guī)則的風(fēng)險，但這樣的冒險可能值得一試。在如今競爭激烈的生成式人工智能市場中，獲得高質(zhì)量數(shù)據(jù)用于模型訓(xùn)練或改進變得至關(guān)重要。

然而，目前尚不明朗的是，OpenAI、谷歌、Anthropic和其他大型開發(fā)公司是否會允許規(guī)模較小的競爭對手有效復(fù)制他們的人工智能技術(shù)，以迅速追趕上來。一些投資者可能會對那些他們認(rèn)為采取捷徑或開發(fā)與競爭對手毫無差別的技術(shù)的公司持謹(jǐn)慎態(tài)度，尤其是當(dāng)這些公司使用了相似的訓(xùn)練數(shù)據(jù)時。

RadicalVentures的合伙人羅布托伊斯（RobToews）指出：“人工智能模型訓(xùn)練數(shù)據(jù)的質(zhì)量和來源正逐漸成為業(yè)界關(guān)注的焦點之一。盡管目前尚無人能準(zhǔn)確預(yù)測未來的發(fā)展趨勢，但任何在數(shù)據(jù)來源方面缺乏深思熟慮和戰(zhàn)略眼光的人工智能初創(chuàng)公司都可能會落后。”

盡管如此，初創(chuàng)公司使用OpenAI數(shù)據(jù)的做法，與OpenAI和其他領(lǐng)先的人工智能開發(fā)商在訓(xùn)練自家模型時所采取的策略存在某種相似性。例如，OpenAI的首席技術(shù)官米拉穆拉蒂（MiraMurati）在最近的一次采訪中，關(guān)于她的團隊是否使用谷歌旗下YouTube和Meta旗下Facebook與Instagram數(shù)據(jù)進行模型訓(xùn)練的問題時，她的回答出現(xiàn)了失誤。

如果OpenAI確實利用了這些數(shù)據(jù)，那也算不上意外之舉。外媒近期爆出OpenAI如何借助YouTube視頻創(chuàng)建語音識別工具Whisper，進而改進GPT-4模型的內(nèi)幕。先前也有報道指出，OpenAI曾秘密使用YouTube數(shù)據(jù)來訓(xùn)練其早期的人工智能模型。本月早些時候，YouTube首席執(zhí)行官尼爾莫漢（NealMohan）明確表態(tài)，他不接受OpenAI使用YouTube視頻來開發(fā)類似Sora這樣的模型。

這一事件引發(fā)了美國新聞出版商和一些創(chuàng)作者的強烈不滿，他們指責(zé)人工智能開發(fā)商利用受版權(quán)保護的材料進行模型訓(xùn)練。去年12月，《紐約時報》甚至對OpenAI及其主要支持者微軟提起訴訟，指控他們在模型訓(xùn)練過程中非法復(fù)制了《紐約時報》的新聞文章。該訴訟稱，OpenAI的聊天機器人甚至“能夠逐字背誦《紐約時報》的內(nèi)容”。

然而，OpenAI對此做出了回應(yīng)，表示他們曾嘗試與新聞出版商建立合作伙伴關(guān)系，并堅稱其訓(xùn)練實踐符合美國“合理使用”的版權(quán)原則。盡管如此，OpenAI和谷歌還是與AxelSpringer等出版商達(dá)成了價值數(shù)百萬美元的授權(quán)協(xié)議，并與Reddit等主要網(wǎng)站達(dá)成了更廣泛的合作協(xié)議。

當(dāng)然，并非所有的人工智能開發(fā)者都采取這種策略。例如，Databricks是一家銷售用于管理數(shù)據(jù)和利用人工智能的軟件工具的公司，其首席科學(xué)家喬納森弗蘭克爾（JonathanFrankle）表示，該公司在開發(fā)強大的開源大語言模型時，并未依賴競爭對手的數(shù)據(jù)或技術(shù)。Anthropic的一位發(fā)言人也指出，他們同樣不會利用其他模型的輸出來訓(xùn)練自己的大模型。

誰能扛住模仿的誘惑？

對于那些秘密依賴其他人工智能服務(wù)來開發(fā)模型的開發(fā)者來說，一旦這種依賴關(guān)系被揭露，他們可能會陷入尷尬和困境。例如，Mistral和零一萬物，這兩家公司都使用了Meta的開源人工智能模型Llama2來構(gòu)建自己的人工智能產(chǎn)品，然而他們并未及時披露這一事實，直到信息意外泄露。盡管Meta的授權(quán)條款允許這種使用，但這些初創(chuàng)公司延遲披露的做法引起了一些應(yīng)用程序開發(fā)者的不滿，他們認(rèn)為這些公司在誠實和透明度方面做得不夠。但這并不妨礙兩家公司成功融資數(shù)億美元。

即使是大型科技公司，也難以抵擋使用他人成果的誘惑。例如，谷歌利用YouTube視頻進行轉(zhuǎn)錄，而Meta則雇傭非洲承包商來總結(jié)受版權(quán)保護的書籍，以訓(xùn)練其人工智能模型。另外，Adobe也在初創(chuàng)公司Midjourney的人工智能生成照片上訓(xùn)練了自己的圖像生成軟件Firefly。去年，谷歌的一名高級人工智能工程師因為對公司使用OpenAI的ChatGPT數(shù)據(jù)來訓(xùn)練自家模型的做法表示擔(dān)憂而辭職抗議。

Lamini是一家?guī)椭_發(fā)者訓(xùn)練自己模型的初創(chuàng)公司，其首席執(zhí)行官SharonZhou表示，在人工智能領(lǐng)域快速發(fā)展的背景下，日益增長的競爭壓力使得許多開發(fā)者不得不轉(zhuǎn)向有爭議的訓(xùn)練數(shù)據(jù)來源，如受版權(quán)保護的內(nèi)容或大語言模型生成的內(nèi)容。如果他們選擇不使用這些數(shù)據(jù)，就可能會失去競爭優(yōu)勢。

隨著越來越多的公司投身于開發(fā)部分源自其他模型的人工智能產(chǎn)品，對這些模型進行區(qū)分可能變得日益棘手。這一趨勢可能會削弱OpenAI等領(lǐng)軍企業(yè)的競爭優(yōu)勢，迫使他們在價格上展開更激烈的競爭。特別是在企業(yè)用戶越來越多地傾向于選擇價格更親民、性能“足夠好”的大語言模型，而非最先進、最昂貴的選項時，這一競爭態(tài)勢將愈發(fā)明顯。

為了應(yīng)對這一挑戰(zhàn)，一種可能的替代方案是轉(zhuǎn)向合成數(shù)據(jù)。這意味著企業(yè)不再依賴從互聯(lián)網(wǎng)或其他來源抓取的人工生成內(nèi)容，而是利用自己的人工智能模型來生成數(shù)據(jù)。例如，谷歌和Meta已經(jīng)表示，他們正在使用合成數(shù)據(jù)來構(gòu)建能夠解決幾何問題或生成計算機代碼的模型。由于這些數(shù)據(jù)完全由人工智能產(chǎn)生，因此可以避免使用人工生成內(nèi)容所帶來的眾多法律糾紛。

與此同時，數(shù)十家人工智能初創(chuàng)公司正積極獲取醫(yī)療保艦律師事務(wù)所等行業(yè)的私人數(shù)據(jù)，以開發(fā)針對特定用途的模型。搜索分析公司Elastic的首席執(zhí)行官阿什庫卡尼（AshKulkarni）指出，這些模型具有高度的專業(yè)性和定制化特點，使得OpenAI等公司的通用模型難以輕易復(fù)制。（編譯/金鹿）