日韩中文字幕v亚洲中文字幕,欧美GV在线观看,特级a午夜不卡免费视频

用AI合成數(shù)據(jù)訓(xùn)練AI，AI模型訓(xùn)練新市場涌現(xiàn)

來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-07-26 09:12:59 瀏覽：18042次

導(dǎo)讀：智東西（公眾號：zhidxcom）編譯 | 銘滟編輯 | 徐珊智東西7月25日消息，微軟、OpenAI和Cohere等公司正在測試使用合成數(shù)據(jù)（計(jì)算機(jī)生成的信息）訓(xùn)練大語言模型（Lare Language Models，LLM）。合成數(shù)據(jù)一般用于訓(xùn)練LLM。目前使用人造數(shù)據(jù)的最復(fù)雜形式即為...

智東西（公眾號：zhidxcom）

編譯| 銘滟

編輯 | 徐珊

智東西7月25日消息，微軟、OpenAI和Cohere等公司正在測試使用合成數(shù)據(jù)（計(jì)算機(jī)生成的信息）訓(xùn)練大語言模型（Lare Language Models，LLM）。合成數(shù)據(jù)一般用于訓(xùn)練LLM。目前使用人造數(shù)據(jù)的最復(fù)雜形式即為合成數(shù)據(jù)，使用合成數(shù)據(jù)訓(xùn)練或有助于進(jìn)一步訓(xùn)練AI模型。

開發(fā)人員表示，來自網(wǎng)絡(luò)的通用數(shù)據(jù)已不足以進(jìn)一步提升AI模型的性能。多家AI公司已經(jīng)將目光轉(zhuǎn)向合成數(shù)據(jù)。

今年5月，OpenAI首席執(zhí)行官Sam Altman曾被問及是否擔(dān)心監(jiān)管機(jī)構(gòu)對ChatGPT潛在侵犯隱私的調(diào)查。Altman對此表示，“非常有信心將所有數(shù)據(jù)都更換為合成數(shù)據(jù)”。

一、合成數(shù)據(jù)能進(jìn)一步滿足AI模型訓(xùn)練需要

AI創(chuàng)企Cohere的CEO Aidan Gomez曾說：“如果你能從網(wǎng)絡(luò)上獲取所需的所有數(shù)據(jù)，那就太棒了。但實(shí)際上，網(wǎng)絡(luò)環(huán)境嘈雜混亂。它并不能滿足我們對數(shù)據(jù)的需求。”

▲圖為Cohere的CEO Aidan Gomez

為了提高AI模型的性能并應(yīng)用于科學(xué)、醫(yī)學(xué)或商業(yè)等領(lǐng)域，AI模型需要專門且復(fù)雜的數(shù)據(jù)集用以訓(xùn)練。這些數(shù)據(jù)要么由科學(xué)家、醫(yī)生、或工程師等領(lǐng)域內(nèi)專家創(chuàng)建，要么從制藥、銀行和零售商等大公司獲取專門數(shù)據(jù)。但是，“人類創(chuàng)建的數(shù)據(jù)非常昂貴”，Gomez說。

使用合成數(shù)據(jù)則避免了這筆支出。AI公司可以使用AI模型，合成與醫(yī)療或金融相關(guān)的數(shù)據(jù)。然后，將這些合成數(shù)據(jù)用于培訓(xùn)LLM。

Gomez表示，Cohere及其他幾個(gè)AI公司已經(jīng)使用了合成數(shù)據(jù)，然后由人類進(jìn)行微調(diào)。“即使合成數(shù)據(jù)沒有廣泛傳播，它所包含的內(nèi)容量已經(jīng)很大了。”Gomez說到。

例如，為了訓(xùn)練AI模型，Cohere可能會讓兩個(gè)AI模型相互對話，其中一個(gè)充當(dāng)數(shù)學(xué)老師，另一個(gè)充當(dāng)學(xué)生。

“兩個(gè)AI模型對話圍繞數(shù)學(xué)的三角學(xué)展開，而這些內(nèi)容都是AI生成的。”Gomez說，“這一切對話都只是AI模型的想象。然后，人類會查看這段對話，如果模型說錯了什么，人工就會介入并糾正。這就是我們正在做的事。”

微軟研究院最近的兩項(xiàng)研究表明，合成數(shù)據(jù)可用于訓(xùn)練比OpenAI的GPT-4或谷歌的PaLM-2等LLM更孝更簡單的模型。

第一項(xiàng)研究是由GPT-4生成的短篇小說的綜合數(shù)據(jù)集，其中只包含一個(gè)典型的四歲孩子可能理解的單詞。這個(gè)數(shù)據(jù)集被稱為TinyStories，然后被用來訓(xùn)練一個(gè)簡單的LLM，它能夠生成流暢且語法正確的故事。

另一項(xiàng)研究為，AI可以通過教科書和練習(xí)形式，合成Python代碼進(jìn)行訓(xùn)練。研究發(fā)現(xiàn)，這些代碼在編碼任務(wù)上表現(xiàn)相對較好。

在合成數(shù)據(jù)這個(gè)新興市場中，Scale AI和Gretel.ai等初創(chuàng)企業(yè)如雨后春筍般涌現(xiàn)，提供合成數(shù)據(jù)服務(wù)。Gretel由美國國家安全局和中央情報(bào)局的前情報(bào)分析師創(chuàng)立，曾與谷歌、匯豐銀行、Riot Games和Illumina等公司合作，通過合成增強(qiáng)現(xiàn)有數(shù)據(jù)，幫助AI企業(yè)訓(xùn)練更好的AI模型。

二、合成數(shù)據(jù)的潛在風(fēng)險(xiǎn)不容忽視

Gretel首席執(zhí)行官Ali Golshan表示，合成數(shù)據(jù)可以保護(hù)數(shù)據(jù)中的個(gè)人隱私，同時(shí)仍然保持?jǐn)?shù)據(jù)統(tǒng)計(jì)的完整性。

他補(bǔ)充說，經(jīng)調(diào)整后的合成數(shù)據(jù)還可以消除現(xiàn)有數(shù)據(jù)中的偏見和不平衡。“創(chuàng)建對沖基金的AI模型可以用于觀察黑天鵝事件（指難以預(yù)測，但突然發(fā)生時(shí)會引起連鎖反應(yīng)、帶來巨大負(fù)面影響的小概率事件，它存在于自然、經(jīng)濟(jì)、政治等各個(gè)領(lǐng)域）。比如說，創(chuàng)建一百種變體來觀察我們的模型是否崩潰，”Golshan說。對于銀行來說，欺詐行為通常只占總數(shù)據(jù)的百分之一以下，Gretel的軟件可以生成數(shù)千個(gè)有關(guān)欺詐的邊緣案例場景，并用于訓(xùn)練AI模型。

但是，合成數(shù)據(jù)的批評者指出，并非所有合成數(shù)據(jù)都會使用真實(shí)反映或改進(jìn)現(xiàn)實(shí)世界的數(shù)據(jù)。隨著AI生成的文本和圖像充斥互聯(lián)網(wǎng)，AI公司不斷在網(wǎng)絡(luò)上抓取訓(xùn)練數(shù)據(jù)，最終很可能走向重復(fù)抓取自己模型的原始版本生成的原始數(shù)據(jù)這種現(xiàn)象被稱為“內(nèi)部測試（dog-fooding）”。

牛津大學(xué)和劍橋大學(xué)等大學(xué)近期的研究也對此發(fā)出警告。研究稱，根據(jù)AI模型的原始輸出（可能包含虛假或捏造）來訓(xùn)練AI模型，隨著時(shí)間的推移，這種方式有可能會破壞和降低技術(shù)性能，從而導(dǎo)致“不可逆轉(zhuǎn)的缺陷”。

Golshan同意這種觀點(diǎn)，他也認(rèn)為使用不良合成數(shù)據(jù)進(jìn)行訓(xùn)練可能會阻礙AI模型迭代。“網(wǎng)絡(luò)上充斥著越來越多AI生成的內(nèi)容。我也認(rèn)為隨著時(shí)間的推移，這將導(dǎo)致生成式內(nèi)容退化，因?yàn)長LM只是不斷重復(fù)舊有的知識，沒有任何新的見解。”

盡管存在上述風(fēng)險(xiǎn)，Cohere的Gomez等AI研究人員表示，合成數(shù)據(jù)也有可能加速超級智能AI系統(tǒng)的發(fā)展。

Gomez說：“我們真正想要的是能夠自學(xué)的模型。你希望他們能夠做到提出自己的問題，發(fā)現(xiàn)新的真理并創(chuàng)造自己的知識。這才是夢想。”

結(jié)語：AI企業(yè)是否將大規(guī)模應(yīng)用合成數(shù)據(jù)仍有待觀察

目前AI企業(yè)對AI模型的訓(xùn)練主要基于通用數(shù)據(jù)。在現(xiàn)有狀況下，如果AI企業(yè)意圖尋求新的數(shù)據(jù)訓(xùn)練AI模型，可選擇的方式包括專業(yè)領(lǐng)域數(shù)據(jù)庫和合成數(shù)據(jù)等。但是，專業(yè)領(lǐng)域的數(shù)據(jù)鑒于專業(yè)價(jià)值及個(gè)人隱私等因素，難以用于AI模型訓(xùn)練。所以，部分AI企業(yè)會選擇成本相對較低的合成數(shù)據(jù)訓(xùn)練新的AI模型。

但在合成數(shù)據(jù)的使用過程中，有兩點(diǎn)值得保持警惕：一為數(shù)據(jù)關(guān)聯(lián)的個(gè)人隱私問題，合成數(shù)據(jù)首先應(yīng)確保數(shù)據(jù)合法；二為數(shù)據(jù)的反復(fù)使用，即“內(nèi)部測試（dog-fooding）”。如果反復(fù)喂入AI模型的數(shù)據(jù)并未發(fā)生實(shí)質(zhì)性迭代，AI模型的功能或可能出現(xiàn)缺陷等性能問題。

用AI合成數(shù)據(jù)訓(xùn)練AI，AI模型訓(xùn)練新市場涌現(xiàn)
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-07-26 09:12:59 瀏覽：18042次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明