狠狠躁夜夜躁人人爽天天69,成全视频高清免费观看,婷婷激情五月人妻

微軟、谷歌和Meta押注合成數(shù)據(jù)構(gòu)建AI模型

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-05-10 09:15:42 瀏覽：4389次

導(dǎo)讀：聊天機器人每一個巧妙的應(yīng)答背后都有海量數(shù)據(jù)作為支撐在某些情況下，需要從文章、書籍和網(wǎng)上評論中摘取數(shù)萬億個詞匯，以教會人工智能系統(tǒng)理解用戶的查詢。業(yè)界的傳統(tǒng)觀點是，創(chuàng)建下一代人工智能產(chǎn)品將會需要越來越多的信息。然而，這個計劃存在一個大問題：...

聊天機器人每一個巧妙的應(yīng)答背后都有海量數(shù)據(jù)作為支撐在某些情況下，需要從文章、書籍和網(wǎng)上評論中摘取數(shù)萬億個詞匯，以教會人工智能系統(tǒng)理解用戶的查詢。業(yè)界的傳統(tǒng)觀點是，創(chuàng)建下一代人工智能產(chǎn)品將會需要越來越多的信息。

然而，這個計劃存在一個大問題：互聯(lián)網(wǎng)上能夠提供的高質(zhì)量數(shù)據(jù)是有限的。為了得到這些數(shù)據(jù)，人工智能公司通常的做法是，要么向出版商支付數(shù)百萬美元以獲得內(nèi)容許可，要么從網(wǎng)站上下載數(shù)據(jù)，使自己面臨版權(quán)糾紛的風(fēng)險。越來越多的頂流人工智能公司正在探索另一種在業(yè)內(nèi)引發(fā)分歧的辦法：使用合成數(shù)據(jù)，從本質(zhì)上來說就是假數(shù)據(jù)。

這種辦法的工作原理是這樣的：科技公司可以利用自己的人工智能系統(tǒng)來生成文字和其他媒體。然后，可以用這些人工數(shù)據(jù)訓(xùn)練同一個系統(tǒng)的未來版本，Anthropic的首席執(zhí)行官達里奧阿莫代伊（Dario Amodei）稱之為潛在的“無限數(shù)據(jù)生成引擎”。這樣一來，人工智能公司就可以避免引發(fā)許多法律、道德和隱私方面的問題。

在計算中合成數(shù)據(jù)的想法并不新鮮這項技術(shù)已經(jīng)被使用了幾十年，涉及到從個人信息的去匿名化到自動駕駛技術(shù)路況模擬的各個領(lǐng)域。但是，生成式人工智能的興起使人們可以更容易大規(guī)模創(chuàng)建質(zhì)量更高的合成數(shù)據(jù)，而且也使這種做法有了新的緊迫性。

在微軟，生成式人工智能研究團隊在最近的一個項目中使用了合成數(shù)據(jù)。他們希望構(gòu)建一個規(guī)模較孝資源密集程度較低的人工智能模型，但仍具有有效的語言和推理能力。為了做到這一點，他們試圖模仿孩子通過閱讀故事來學(xué)習(xí)語言的方式。

該團隊并沒有向這個人工智能模型提供大量兒童讀物，而是列出了四歲孩子能夠理解的3000個詞匯。然后，他們要求這個人工智能模型使用詞匯表中的一個名詞、一個動詞和一個形容詞來創(chuàng)造一個兒童故事。研究人員在幾天的時間內(nèi)重復(fù)了數(shù)百萬次這個提示，生成了數(shù)百萬個短篇故事，最終幫助開發(fā)出了另一個更強大的語言模型。微軟已經(jīng)將這個新的“小型”語言模型系列Phi-3開源并向公眾開放。

微軟生成式人工智能副總裁塞巴斯蒂安布貝克（Sébastien Bubeck）說：“突然之間，你擁有了遠多于過去的控制權(quán)。你可以在更精細的層面上決定你希望自己的模型學(xué)習(xí)哪些東西。”

布貝克說，利用合成數(shù)據(jù)，你還可以通過為數(shù)據(jù)添加更多解釋來更好地指導(dǎo)人工智能系統(tǒng)完成學(xué)習(xí)過程，不然的話，機器在處理過程中可能會感到困惑。

但是，一些人工智能專家對這種技術(shù)存在的風(fēng)險感到擔(dān)憂。牛津、劍橋和其他幾所知名大學(xué)的一組研究人員去年發(fā)表了一篇論文，解釋了使用ChatGPT生成的合成數(shù)據(jù)來構(gòu)建新的人工智能模型為何會導(dǎo)致他們訴說的“模型崩潰”。

在他們的實驗中，基于ChatGPT的輸出內(nèi)容創(chuàng)建的人工智能模型開始出現(xiàn)“不可逆轉(zhuǎn)的缺陷”，而且似乎失去了對最初訓(xùn)練內(nèi)容的記憶。舉例來說，研究人員用有關(guān)英國歷史建筑的文本提示一種大型語言人工智能模型。當(dāng)他們使用合成數(shù)據(jù)多次重新訓(xùn)練這個模型后，這個模型開始生成有關(guān)長耳大野兔的毫無意義的胡言亂語。

研究人員還擔(dān)心，合成數(shù)據(jù)可能會放大數(shù)據(jù)集當(dāng)中的偏見和毒性。合成數(shù)據(jù)的一些支持者則表示，通過采取適當(dāng)?shù)拇胧�，用這種方式開發(fā)的模型可以和基于真實數(shù)據(jù)構(gòu)建的模型一樣準(zhǔn)確甚至更好。

劍橋大學(xué)（University of Cambridge）博士扎哈爾舒梅洛夫（Zakhar Shumaylov）在一封電子郵件中說道：“如果處理得當(dāng)，合成數(shù)據(jù)會很有用。然而，對于如何才能處理得當(dāng)，目前還沒有明確的答案；有些偏見對于人類來說可能很難察覺。”舒梅洛夫是上述關(guān)于模型崩潰論文的合著者之一。

還有一個更具哲學(xué)性的爭論：如果大型語言模型陷入根據(jù)自身內(nèi)容進行訓(xùn)練的無休止循環(huán)中，那么人工智能最終是否會變得不再是模仿人類智能的機器，而更多的是模仿其他機器語言的機器？

斯坦福大學(xué)（Stanford University）計算機科學(xué)教授珀西梁（Percy Liang，音譯）表示，為了產(chǎn)生有用的合成數(shù)據(jù)，公司仍然需要真正的人類智慧結(jié)晶，比如書籍、文章和代碼。梁在一封電子郵件中說道：“合成數(shù)據(jù)不是真實的數(shù)據(jù)，就像你做夢登上了珠穆朗瑪峰并不是真正登頂了一樣。”

合成數(shù)據(jù)和人工智能領(lǐng)域的先驅(qū)們一致認為，你不能將人類排除在這個過程之外。我們?nèi)匀恍枰嫒藖韯?chuàng)建和完善人工數(shù)據(jù)集。

布貝克說：“合成數(shù)據(jù)并不是簡單地按下一個按鈕然后對它說，‘嘿，幫我生成一些數(shù)據(jù)。’這是一個非常復(fù)雜的過程。在大規(guī)模創(chuàng)建合成數(shù)據(jù)的過程中需要投入大量的人力。”

相關(guān)熱詞： 微軟谷歌 Meta 押注合成數(shù)據(jù) 構(gòu)建模型

微軟、谷歌和Meta押注合成數(shù)據(jù)構(gòu)建AI模型
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-05-10 09:15:42 瀏覽：4389次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

微軟、谷歌和Meta押注合成數(shù)據(jù)構(gòu)建AI模型 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-05-10 09:15:42 瀏覽：4389次