展會信息港展會大全

AIGC行業(yè)公開的秘密:都在抄作業(yè),初創(chuàng)公司用GPT-4訓(xùn)練自家大模型
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-04-16 08:03:44   瀏覽:7290次  

導(dǎo)讀:劃重點 1 許多初創(chuàng)公司都在使用OpenAI等公司的相似數(shù)據(jù)和技術(shù)來開發(fā)自家大模型。 2 使用相同或類似數(shù)據(jù)訓(xùn)練大模型,導(dǎo)致這些模型無法在競爭中脫穎而出。 3 投資者不愿支持那些試圖走捷徑或開發(fā)與競爭對手毫無差別模型的公司。 騰訊科技訊 據(jù)國外媒體報道,據(jù)...

劃重點

1

許多初創(chuàng)公司都在使用OpenAI等公司的相似數(shù)據(jù)和技術(shù)來開發(fā)自家大模型。

2

使用相同或類似數(shù)據(jù)訓(xùn)練大模型,導(dǎo)致這些模型無法在競爭中脫穎而出。

3

投資者不愿支持那些試圖走捷徑或開發(fā)與競爭對手毫無差別模型的公司。

科技新聞訊 據(jù)國外媒體報道,據(jù)多位開發(fā)者和創(chuàng)始人透露,許多初創(chuàng)公司所開發(fā)的人工智能聊天機器人極可能依賴OpenAI及其他公司的數(shù)據(jù)資源,盡管這些初創(chuàng)企業(yè)正努力削弱OpenAI的市場地位。這一現(xiàn)象催生了一種新的競爭態(tài)勢:這些初創(chuàng)公司向客戶收取的費用僅為GPT-4成本的極小部分,但它們的低成本服務(wù)卻能在特定任務(wù)上模仿GPT-4的表現(xiàn)。

然而,值得注意的是,這些初創(chuàng)公司在開發(fā)過程中并未公開披露它們使用了OpenAI的技術(shù)。這種做法使得這些初創(chuàng)公司面臨一定的風(fēng)險,因為如同Anthropic和谷歌等領(lǐng)先的人工智能公司一樣,OpenAI在技術(shù)上明確禁止此類行為。不過,據(jù)知情人士透露,去年夏天,OpenAI的首席執(zhí)行官山姆奧特曼(SamAltman)曾向眾多初創(chuàng)公司創(chuàng)始人表示,規(guī)模較小的企業(yè)可以適度利用該公司的技術(shù)。

盡管奧特曼的這一表態(tài)為部分創(chuàng)始人帶來了一絲寬慰,但一旦這種行為對OpenAI的增長構(gòu)成威脅,該公司隨時有可能改變立常市場上充斥著對大多數(shù)客戶而言足夠好的人工智能產(chǎn)品,可能會削弱OpenAI和其他供應(yīng)商的收入來源。同時,在類似技術(shù)基礎(chǔ)上訓(xùn)練的人工智能產(chǎn)品的激增,也可能使得單個提供商在激烈的市場競爭中更難脫穎而出。

這種策略的實施方式如下:開發(fā)者首先向OpenAI支付費用,以獲得對最先進模型GPT-4的訪問權(quán)限。隨后,他們向該模型提出一系列問題,如“這行代碼存在哪些問題?”通過收集這些答案和問題,他們進一步訓(xùn)練自己的競爭模型,比如那些能夠調(diào)試計算機代碼的模型。

這一策略在近幾個月備受青睞,被眾多開發(fā)者所采納。UnslothAI的聯(lián)合創(chuàng)始人丹尼爾韓(DanielHan)估計,他的客戶群體中,大約有一半的開發(fā)者會從GPT-4或Anthropic的Claude模型中生成數(shù)據(jù),用以優(yōu)化和增強自己的模型。UnslothAI致力于協(xié)助開發(fā)者打造對話式人工智能產(chǎn)品。此外,許多公司也通過ShareGPT網(wǎng)站獲取這類數(shù)據(jù),該網(wǎng)站為開發(fā)者提供了一個平臺,用以分享他們使用OpenAI模型生成的答案。

較小的開發(fā)者通常基于流行的開源模型進行模型開發(fā),這些模型可以免費從Meta或MistralAI等公司獲齲然而,通過結(jié)合OpenAI模型的答案,他們的模型能夠取得實質(zhì)性的改進。一些開發(fā)者甚至利用名為OpenPipe的服務(wù)來自動化這一過程,從而更加高效地整合和優(yōu)化數(shù)據(jù)。

MenloVentures的董事總經(jīng)理馬特墨菲(MattMurphy)對此表示:“這是一個尚未建立明確規(guī)則的新生態(tài)系統(tǒng)中的現(xiàn)象。如果大家都在使用同樣的數(shù)據(jù),那么如何才能在競爭中脫穎而出,取得更好的成果呢?”MenloVentures是OpenAI的競爭對手Anthropic的投資方。

風(fēng)險回報更高

對一些公司而言,盡管冒著違反OpenAI等公司政策或隱性規(guī)則的風(fēng)險,但這樣的冒險可能值得一試。在如今競爭激烈的生成式人工智能市場中,獲得高質(zhì)量數(shù)據(jù)用于模型訓(xùn)練或改進變得至關(guān)重要。

然而,目前尚不明朗的是,OpenAI、谷歌、Anthropic和其他大型開發(fā)公司是否會允許規(guī)模較小的競爭對手有效復(fù)制他們的人工智能技術(shù),以迅速追趕上來。一些投資者可能會對那些他們認(rèn)為采取捷徑或開發(fā)與競爭對手毫無差別的技術(shù)的公司持謹(jǐn)慎態(tài)度,尤其是當(dāng)這些公司使用了相似的訓(xùn)練數(shù)據(jù)時。

RadicalVentures的合伙人羅布托伊斯(RobToews)指出:“人工智能模型訓(xùn)練數(shù)據(jù)的質(zhì)量和來源正逐漸成為業(yè)界關(guān)注的焦點之一。盡管目前尚無人能準(zhǔn)確預(yù)測未來的發(fā)展趨勢,但任何在數(shù)據(jù)來源方面缺乏深思熟慮和戰(zhàn)略眼光的人工智能初創(chuàng)公司都可能會落后。”

盡管如此,初創(chuàng)公司使用OpenAI數(shù)據(jù)的做法,與OpenAI和其他領(lǐng)先的人工智能開發(fā)商在訓(xùn)練自家模型時所采取的策略存在某種相似性。例如,OpenAI的首席技術(shù)官米拉穆拉蒂(MiraMurati)在最近的一次采訪中,關(guān)于她的團隊是否使用谷歌旗下YouTube和Meta旗下Facebook與Instagram數(shù)據(jù)進行模型訓(xùn)練的問題時,她的回答出現(xiàn)了失誤。

如果OpenAI確實利用了這些數(shù)據(jù),那也算不上意外之舉。外媒近期爆出OpenAI如何借助YouTube視頻創(chuàng)建語音識別工具Whisper,進而改進GPT-4模型的內(nèi)幕。先前也有報道指出,OpenAI曾秘密使用YouTube數(shù)據(jù)來訓(xùn)練其早期的人工智能模型。本月早些時候,YouTube首席執(zhí)行官尼爾莫漢(NealMohan)明確表態(tài),他不接受OpenAI使用YouTube視頻來開發(fā)類似Sora這樣的模型。

這一事件引發(fā)了美國新聞出版商和一些創(chuàng)作者的強烈不滿,他們指責(zé)人工智能開發(fā)商利用受版權(quán)保護的材料進行模型訓(xùn)練。去年12月,《紐約時報》甚至對OpenAI及其主要支持者微軟提起訴訟,指控他們在模型訓(xùn)練過程中非法復(fù)制了《紐約時報》的新聞文章。該訴訟稱,OpenAI的聊天機器人甚至“能夠逐字背誦《紐約時報》的內(nèi)容”。

然而,OpenAI對此做出了回應(yīng),表示他們曾嘗試與新聞出版商建立合作伙伴關(guān)系,并堅稱其訓(xùn)練實踐符合美國“合理使用”的版權(quán)原則。盡管如此,OpenAI和谷歌還是與AxelSpringer等出版商達(dá)成了價值數(shù)百萬美元的授權(quán)協(xié)議,并與Reddit等主要網(wǎng)站達(dá)成了更廣泛的合作協(xié)議。

當(dāng)然,并非所有的人工智能開發(fā)者都采取這種策略。例如,Databricks是一家銷售用于管理數(shù)據(jù)和利用人工智能的軟件工具的公司,其首席科學(xué)家喬納森弗蘭克爾(JonathanFrankle)表示,該公司在開發(fā)強大的開源大語言模型時,并未依賴競爭對手的數(shù)據(jù)或技術(shù)。Anthropic的一位發(fā)言人也指出,他們同樣不會利用其他模型的輸出來訓(xùn)練自己的大模型。

誰能扛住模仿的誘惑?

對于那些秘密依賴其他人工智能服務(wù)來開發(fā)模型的開發(fā)者來說,一旦這種依賴關(guān)系被揭露,他們可能會陷入尷尬和困境。例如,Mistral和零一萬物,這兩家公司都使用了Meta的開源人工智能模型Llama2來構(gòu)建自己的人工智能產(chǎn)品,然而他們并未及時披露這一事實,直到信息意外泄露。盡管Meta的授權(quán)條款允許這種使用,但這些初創(chuàng)公司延遲披露的做法引起了一些應(yīng)用程序開發(fā)者的不滿,他們認(rèn)為這些公司在誠實和透明度方面做得不夠。但這并不妨礙兩家公司成功融資數(shù)億美元。

即使是大型科技公司,也難以抵擋使用他人成果的誘惑。例如,谷歌利用YouTube視頻進行轉(zhuǎn)錄,而Meta則雇傭非洲承包商來總結(jié)受版權(quán)保護的書籍,以訓(xùn)練其人工智能模型。另外,Adobe也在初創(chuàng)公司Midjourney的人工智能生成照片上訓(xùn)練了自己的圖像生成軟件Firefly。去年,谷歌的一名高級人工智能工程師因為對公司使用OpenAI的ChatGPT數(shù)據(jù)來訓(xùn)練自家模型的做法表示擔(dān)憂而辭職抗議。

Lamini是一家?guī)椭_發(fā)者訓(xùn)練自己模型的初創(chuàng)公司,其首席執(zhí)行官SharonZhou表示,在人工智能領(lǐng)域快速發(fā)展的背景下,日益增長的競爭壓力使得許多開發(fā)者不得不轉(zhuǎn)向有爭議的訓(xùn)練數(shù)據(jù)來源,如受版權(quán)保護的內(nèi)容或大語言模型生成的內(nèi)容。如果他們選擇不使用這些數(shù)據(jù),就可能會失去競爭優(yōu)勢。

隨著越來越多的公司投身于開發(fā)部分源自其他模型的人工智能產(chǎn)品,對這些模型進行區(qū)分可能變得日益棘手。這一趨勢可能會削弱OpenAI等領(lǐng)軍企業(yè)的競爭優(yōu)勢,迫使他們在價格上展開更激烈的競爭。特別是在企業(yè)用戶越來越多地傾向于選擇價格更親民、性能“足夠好”的大語言模型,而非最先進、最昂貴的選項時,這一競爭態(tài)勢將愈發(fā)明顯。

為了應(yīng)對這一挑戰(zhàn),一種可能的替代方案是轉(zhuǎn)向合成數(shù)據(jù)。這意味著企業(yè)不再依賴從互聯(lián)網(wǎng)或其他來源抓取的人工生成內(nèi)容,而是利用自己的人工智能模型來生成數(shù)據(jù)。例如,谷歌和Meta已經(jīng)表示,他們正在使用合成數(shù)據(jù)來構(gòu)建能夠解決幾何問題或生成計算機代碼的模型。由于這些數(shù)據(jù)完全由人工智能產(chǎn)生,因此可以避免使用人工生成內(nèi)容所帶來的眾多法律糾紛。

與此同時,數(shù)十家人工智能初創(chuàng)公司正積極獲取醫(yī)療保艦律師事務(wù)所等行業(yè)的私人數(shù)據(jù),以開發(fā)針對特定用途的模型。搜索分析公司Elastic的首席執(zhí)行官阿什庫卡尼(AshKulkarni)指出,這些模型具有高度的專業(yè)性和定制化特點,使得OpenAI等公司的通用模型難以輕易復(fù)制。(編譯/金鹿)

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港