展會信息港展會大全

用AI合成數(shù)據(jù)訓(xùn)練AI,AI模型訓(xùn)練新市場涌現(xiàn)
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-07-26 09:12:59   瀏覽:18042次  

導(dǎo)讀:智東西(公眾號:zhidxcom) 編譯 | 銘滟 編輯 | 徐珊 智東西7月25日消息,微軟、OpenAI和Cohere等公司正在測試使用合成數(shù)據(jù)(計(jì)算機(jī)生成的信息)訓(xùn)練大語言模型(Lare Language Models,LLM)。合成數(shù)據(jù)一般用于訓(xùn)練LLM。目前使用人造數(shù)據(jù)的最復(fù)雜形式即為...

智東西(公眾號:zhidxcom)

編譯| 銘滟

編輯 | 徐珊

智東西7月25日消息,微軟、OpenAI和Cohere等公司正在測試使用合成數(shù)據(jù)(計(jì)算機(jī)生成的信息)訓(xùn)練大語言模型(Lare Language Models,LLM)。合成數(shù)據(jù)一般用于訓(xùn)練LLM。目前使用人造數(shù)據(jù)的最復(fù)雜形式即為合成數(shù)據(jù),使用合成數(shù)據(jù)訓(xùn)練或有助于進(jìn)一步訓(xùn)練AI模型。

開發(fā)人員表示,來自網(wǎng)絡(luò)的通用數(shù)據(jù)已不足以進(jìn)一步提升AI模型的性能。多家AI公司已經(jīng)將目光轉(zhuǎn)向合成數(shù)據(jù)。

今年5月,OpenAI首席執(zhí)行官Sam Altman曾被問及是否擔(dān)心監(jiān)管機(jī)構(gòu)對ChatGPT潛在侵犯隱私的調(diào)查。Altman對此表示,“非常有信心將所有數(shù)據(jù)都更換為合成數(shù)據(jù)”。

一、合成數(shù)據(jù)能進(jìn)一步滿足AI模型訓(xùn)練需要

AI創(chuàng)企Cohere的CEO Aidan Gomez曾說:“如果你能從網(wǎng)絡(luò)上獲取所需的所有數(shù)據(jù),那就太棒了。但實(shí)際上,網(wǎng)絡(luò)環(huán)境嘈雜混亂。它并不能滿足我們對數(shù)據(jù)的需求。”

▲圖為Cohere的CEO Aidan Gomez

為了提高AI模型的性能并應(yīng)用于科學(xué)、醫(yī)學(xué)或商業(yè)等領(lǐng)域,AI模型需要專門且復(fù)雜的數(shù)據(jù)集用以訓(xùn)練。這些數(shù)據(jù)要么由科學(xué)家、醫(yī)生、或工程師等領(lǐng)域內(nèi)專家創(chuàng)建,要么從制藥、銀行和零售商等大公司獲取專門數(shù)據(jù)。但是,“人類創(chuàng)建的數(shù)據(jù)非常昂貴”,Gomez說。

使用合成數(shù)據(jù)則避免了這筆支出。AI公司可以使用AI模型,合成與醫(yī)療或金融相關(guān)的數(shù)據(jù)。然后,將這些合成數(shù)據(jù)用于培訓(xùn)LLM。

Gomez表示,Cohere及其他幾個(gè)AI公司已經(jīng)使用了合成數(shù)據(jù),然后由人類進(jìn)行微調(diào)。“即使合成數(shù)據(jù)沒有廣泛傳播,它所包含的內(nèi)容量已經(jīng)很大了。”Gomez說到。

例如,為了訓(xùn)練AI模型,Cohere可能會讓兩個(gè)AI模型相互對話,其中一個(gè)充當(dāng)數(shù)學(xué)老師,另一個(gè)充當(dāng)學(xué)生。

“兩個(gè)AI模型對話圍繞數(shù)學(xué)的三角學(xué)展開,而這些內(nèi)容都是AI生成的。”Gomez說,“這一切對話都只是AI模型的想象。然后,人類會查看這段對話,如果模型說錯了什么,人工就會介入并糾正。這就是我們正在做的事。”

微軟研究院最近的兩項(xiàng)研究表明,合成數(shù)據(jù)可用于訓(xùn)練比OpenAI的GPT-4或谷歌的PaLM-2等LLM更孝更簡單的模型。

第一項(xiàng)研究是由GPT-4生成的短篇小說的綜合數(shù)據(jù)集,其中只包含一個(gè)典型的四歲孩子可能理解的單詞。這個(gè)數(shù)據(jù)集被稱為TinyStories,然后被用來訓(xùn)練一個(gè)簡單的LLM,它能夠生成流暢且語法正確的故事。

另一項(xiàng)研究為,AI可以通過教科書和練習(xí)形式,合成Python代碼進(jìn)行訓(xùn)練。研究發(fā)現(xiàn),這些代碼在編碼任務(wù)上表現(xiàn)相對較好。

在合成數(shù)據(jù)這個(gè)新興市場中,Scale AI和Gretel.ai等初創(chuàng)企業(yè)如雨后春筍般涌現(xiàn),提供合成數(shù)據(jù)服務(wù)。Gretel由美國國家安全局和中央情報(bào)局的前情報(bào)分析師創(chuàng)立,曾與谷歌、匯豐銀行、Riot Games和Illumina等公司合作,通過合成增強(qiáng)現(xiàn)有數(shù)據(jù),幫助AI企業(yè)訓(xùn)練更好的AI模型。

二、合成數(shù)據(jù)的潛在風(fēng)險(xiǎn)不容忽視

Gretel首席執(zhí)行官Ali Golshan表示,合成數(shù)據(jù)可以保護(hù)數(shù)據(jù)中的個(gè)人隱私,同時(shí)仍然保持?jǐn)?shù)據(jù)統(tǒng)計(jì)的完整性。

他補(bǔ)充說,經(jīng)調(diào)整后的合成數(shù)據(jù)還可以消除現(xiàn)有數(shù)據(jù)中的偏見和不平衡。“創(chuàng)建對沖基金的AI模型可以用于觀察黑天鵝事件(指難以預(yù)測,但突然發(fā)生時(shí)會引起連鎖反應(yīng)、帶來巨大負(fù)面影響的小概率事件,它存在于自然、經(jīng)濟(jì)、政治等各個(gè)領(lǐng)域)。比如說,創(chuàng)建一百種變體來觀察我們的模型是否崩潰,”Golshan說。對于銀行來說,欺詐行為通常只占總數(shù)據(jù)的百分之一以下,Gretel的軟件可以生成數(shù)千個(gè)有關(guān)欺詐的邊緣案例場景,并用于訓(xùn)練AI模型。

但是,合成數(shù)據(jù)的批評者指出,并非所有合成數(shù)據(jù)都會使用真實(shí)反映或改進(jìn)現(xiàn)實(shí)世界的數(shù)據(jù)。隨著AI生成的文本和圖像充斥互聯(lián)網(wǎng),AI公司不斷在網(wǎng)絡(luò)上抓取訓(xùn)練數(shù)據(jù),最終很可能走向重復(fù)抓取自己模型的原始版本生成的原始數(shù)據(jù)這種現(xiàn)象被稱為“內(nèi)部測試(dog-fooding)”。

牛津大學(xué)和劍橋大學(xué)等大學(xué)近期的研究也對此發(fā)出警告。研究稱,根據(jù)AI模型的原始輸出(可能包含虛假或捏造)來訓(xùn)練AI模型,隨著時(shí)間的推移,這種方式有可能會破壞和降低技術(shù)性能,從而導(dǎo)致“不可逆轉(zhuǎn)的缺陷”。

Golshan同意這種觀點(diǎn),他也認(rèn)為使用不良合成數(shù)據(jù)進(jìn)行訓(xùn)練可能會阻礙AI模型迭代。“網(wǎng)絡(luò)上充斥著越來越多AI生成的內(nèi)容。我也認(rèn)為隨著時(shí)間的推移,這將導(dǎo)致生成式內(nèi)容退化,因?yàn)長LM只是不斷重復(fù)舊有的知識,沒有任何新的見解。”

盡管存在上述風(fēng)險(xiǎn),Cohere的Gomez等AI研究人員表示,合成數(shù)據(jù)也有可能加速超級智能AI系統(tǒng)的發(fā)展。

Gomez說:“我們真正想要的是能夠自學(xué)的模型。你希望他們能夠做到提出自己的問題,發(fā)現(xiàn)新的真理并創(chuàng)造自己的知識。這才是夢想。”

結(jié)語:AI企業(yè)是否將大規(guī)模應(yīng)用合成數(shù)據(jù)仍有待觀察

目前AI企業(yè)對AI模型的訓(xùn)練主要基于通用數(shù)據(jù)。在現(xiàn)有狀況下,如果AI企業(yè)意圖尋求新的數(shù)據(jù)訓(xùn)練AI模型,可選擇的方式包括專業(yè)領(lǐng)域數(shù)據(jù)庫和合成數(shù)據(jù)等。但是,專業(yè)領(lǐng)域的數(shù)據(jù)鑒于專業(yè)價(jià)值及個(gè)人隱私等因素,難以用于AI模型訓(xùn)練。所以,部分AI企業(yè)會選擇成本相對較低的合成數(shù)據(jù)訓(xùn)練新的AI模型。

但在合成數(shù)據(jù)的使用過程中,有兩點(diǎn)值得保持警惕:一為數(shù)據(jù)關(guān)聯(lián)的個(gè)人隱私問題,合成數(shù)據(jù)首先應(yīng)確保數(shù)據(jù)合法;二為數(shù)據(jù)的反復(fù)使用,即“內(nèi)部測試(dog-fooding)”。如果反復(fù)喂入AI模型的數(shù)據(jù)并未發(fā)生實(shí)質(zhì)性迭代,AI模型的功能或可能出現(xiàn)缺陷等性能問題。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港