展會信息港展會大全

微軟、谷歌和Meta押注合成數(shù)據(jù)構(gòu)建AI模型
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-05-10 09:15:42   瀏覽:4389次  

導(dǎo)讀:聊天機器人每一個巧妙的應(yīng)答背后都有海量數(shù)據(jù)作為支撐在某些情況下,需要從文章、書籍和網(wǎng)上評論中摘取數(shù)萬億個詞匯,以教會人工智能系統(tǒng)理解用戶的查詢。業(yè)界的傳統(tǒng)觀點是,創(chuàng)建下一代人工智能產(chǎn)品將會需要越來越多的信息。 然而,這個計劃存在一個大問題:...

聊天機器人每一個巧妙的應(yīng)答背后都有海量數(shù)據(jù)作為支撐在某些情況下,需要從文章、書籍和網(wǎng)上評論中摘取數(shù)萬億個詞匯,以教會人工智能系統(tǒng)理解用戶的查詢。業(yè)界的傳統(tǒng)觀點是,創(chuàng)建下一代人工智能產(chǎn)品將會需要越來越多的信息。

然而,這個計劃存在一個大問題:互聯(lián)網(wǎng)上能夠提供的高質(zhì)量數(shù)據(jù)是有限的。為了得到這些數(shù)據(jù),人工智能公司通常的做法是,要么向出版商支付數(shù)百萬美元以獲得內(nèi)容許可,要么從網(wǎng)站上下載數(shù)據(jù),使自己面臨版權(quán)糾紛的風(fēng)險。越來越多的頂流人工智能公司正在探索另一種在業(yè)內(nèi)引發(fā)分歧的辦法:使用合成數(shù)據(jù),從本質(zhì)上來說就是假數(shù)據(jù)。

這種辦法的工作原理是這樣的:科技公司可以利用自己的人工智能系統(tǒng)來生成文字和其他媒體。然后,可以用這些人工數(shù)據(jù)訓(xùn)練同一個系統(tǒng)的未來版本,Anthropic的首席執(zhí)行官達里奧阿莫代伊(Dario Amodei)稱之為潛在的“無限數(shù)據(jù)生成引擎”。這樣一來,人工智能公司就可以避免引發(fā)許多法律、道德和隱私方面的問題。

在計算中合成數(shù)據(jù)的想法并不新鮮這項技術(shù)已經(jīng)被使用了幾十年,涉及到從個人信息的去匿名化到自動駕駛技術(shù)路況模擬的各個領(lǐng)域。但是,生成式人工智能的興起使人們可以更容易大規(guī)模創(chuàng)建質(zhì)量更高的合成數(shù)據(jù),而且也使這種做法有了新的緊迫性。

在微軟,生成式人工智能研究團隊在最近的一個項目中使用了合成數(shù)據(jù)。他們希望構(gòu)建一個規(guī)模較孝資源密集程度較低的人工智能模型,但仍具有有效的語言和推理能力。為了做到這一點,他們試圖模仿孩子通過閱讀故事來學(xué)習(xí)語言的方式。

該團隊并沒有向這個人工智能模型提供大量兒童讀物,而是列出了四歲孩子能夠理解的3000個詞匯。然后,他們要求這個人工智能模型使用詞匯表中的一個名詞、一個動詞和一個形容詞來創(chuàng)造一個兒童故事。研究人員在幾天的時間內(nèi)重復(fù)了數(shù)百萬次這個提示,生成了數(shù)百萬個短篇故事,最終幫助開發(fā)出了另一個更強大的語言模型。微軟已經(jīng)將這個新的“小型”語言模型系列Phi-3開源并向公眾開放。

微軟生成式人工智能副總裁塞巴斯蒂安布貝克(Sébastien Bubeck)說:“突然之間,你擁有了遠多于過去的控制權(quán)。你可以在更精細的層面上決定你希望自己的模型學(xué)習(xí)哪些東西。”

布貝克說,利用合成數(shù)據(jù),你還可以通過為數(shù)據(jù)添加更多解釋來更好地指導(dǎo)人工智能系統(tǒng)完成學(xué)習(xí)過程,不然的話,機器在處理過程中可能會感到困惑。

但是,一些人工智能專家對這種技術(shù)存在的風(fēng)險感到擔(dān)憂。牛津、劍橋和其他幾所知名大學(xué)的一組研究人員去年發(fā)表了一篇論文,解釋了使用ChatGPT生成的合成數(shù)據(jù)來構(gòu)建新的人工智能模型為何會導(dǎo)致他們訴說的“模型崩潰”。

在他們的實驗中,基于ChatGPT的輸出內(nèi)容創(chuàng)建的人工智能模型開始出現(xiàn)“不可逆轉(zhuǎn)的缺陷”,而且似乎失去了對最初訓(xùn)練內(nèi)容的記憶。舉例來說,研究人員用有關(guān)英國歷史建筑的文本提示一種大型語言人工智能模型。當(dāng)他們使用合成數(shù)據(jù)多次重新訓(xùn)練這個模型后,這個模型開始生成有關(guān)長耳大野兔的毫無意義的胡言亂語。

研究人員還擔(dān)心,合成數(shù)據(jù)可能會放大數(shù)據(jù)集當(dāng)中的偏見和毒性。合成數(shù)據(jù)的一些支持者則表示,通過采取適當(dāng)?shù)拇胧,用這種方式開發(fā)的模型可以和基于真實數(shù)據(jù)構(gòu)建的模型一樣準(zhǔn)確甚至更好。

劍橋大學(xué)(University of Cambridge)博士扎哈爾舒梅洛夫(Zakhar Shumaylov)在一封電子郵件中說道:“如果處理得當(dāng),合成數(shù)據(jù)會很有用。然而,對于如何才能處理得當(dāng),目前還沒有明確的答案;有些偏見對于人類來說可能很難察覺。”舒梅洛夫是上述關(guān)于模型崩潰論文的合著者之一。

還有一個更具哲學(xué)性的爭論:如果大型語言模型陷入根據(jù)自身內(nèi)容進行訓(xùn)練的無休止循環(huán)中,那么人工智能最終是否會變得不再是模仿人類智能的機器,而更多的是模仿其他機器語言的機器?

斯坦福大學(xué)(Stanford University)計算機科學(xué)教授珀西梁(Percy Liang,音譯)表示,為了產(chǎn)生有用的合成數(shù)據(jù),公司仍然需要真正的人類智慧結(jié)晶,比如書籍、文章和代碼。梁在一封電子郵件中說道:“合成數(shù)據(jù)不是真實的數(shù)據(jù),就像你做夢登上了珠穆朗瑪峰并不是真正登頂了一樣。”

合成數(shù)據(jù)和人工智能領(lǐng)域的先驅(qū)們一致認為,你不能將人類排除在這個過程之外。我們?nèi)匀恍枰嫒藖韯?chuàng)建和完善人工數(shù)據(jù)集。

布貝克說:“合成數(shù)據(jù)并不是簡單地按下一個按鈕然后對它說,‘嘿,幫我生成一些數(shù)據(jù)。’這是一個非常復(fù)雜的過程。在大規(guī)模創(chuàng)建合成數(shù)據(jù)的過程中需要投入大量的人力。”

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港