展會信息港展會大全

前OpenAI創(chuàng)始成員Andrej Karpathy:大模型已學(xué)會用互聯(lián)網(wǎng)內(nèi)容“做夢”
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-06-24 08:08:10   瀏覽:4431次  

導(dǎo)讀:世界衛(wèi)生組織在 2024 年 4 月 2 號上線了一個聊天機(jī)器人,它的初衷是好的。 智能人工智能健康資源助理(SARAH,Smart AI Resource Assistant for Health)是一個由 GPT-3.5 支持的全新虛擬化身,可以用八種不同的語言為全世界數(shù)百萬人提供關(guān)于飲食、戒煙、減...

世界衛(wèi)生組織在 2024 年 4 月 2 號上線了一個聊天機(jī)器人,它的初衷是好的。

智能人工智能健康資源助理(SARAH,Smart AI Resource Assistant for Health)是一個由 GPT-3.5 支持的全新虛擬化身,可以用八種不同的語言為全世界數(shù)百萬人提供關(guān)于飲食、戒煙、減壓等健康建議。

但和所有聊天機(jī)器人一樣,SARAH 也會給出錯誤答案。人們很快就發(fā)現(xiàn)它提供了錯誤信息。在一個案例中,它給出了美國舊金山不存在的診所名字和地址。

世界衛(wèi)生組織在其網(wǎng)站上警告說,SARAH 給出的信息可能并不總是準(zhǔn)確的。

多么似曾相識的一幕。聊天機(jī)器人的失敗已經(jīng)是人盡皆知的段子。例如,Meta 短命的科學(xué)聊天機(jī)器人 Galactica 杜撰了關(guān)于熊在太空中生活的學(xué)術(shù)論文并生成了維基文章。

2024 年 2 月,加拿大航空公司被要求遵守其客服聊天機(jī)器人杜撰的退款政策。2023 年,一名律師因提交了錯誤百出的法律文件而被罰款,這些文件中充滿了虛假的司法意見和 ChatGPT 編造的法律引文。

(來源:AI 生成)

人工智能這種虛構(gòu)事實(shí)的傾向被稱為“幻覺”,是阻礙聊天機(jī)器人更廣泛采用的最大障礙之一。它們?yōu)槭裁从羞@種行為?為什么我們不能解決它?

魔術(shù)師的黑盒子

為了理解為什么大型語言模型會產(chǎn)生幻覺,我們需要看看它們是如何工作的。首先要注意的是,編造東西正是這些模型的設(shè)計(jì)初衷。

當(dāng)你問聊天機(jī)器人一個問題時,它會從支持它的大型語言模型中得到答案,但這不像在數(shù)據(jù)庫中查找信息或使用搜索引擎。

在大型語言模型的內(nèi)部,你不會看到現(xiàn)成的信息等待檢索。相反,你會發(fā)現(xiàn)數(shù)十億個數(shù)字。它使用這些數(shù)字從零開始計(jì)算自己的回復(fù),在運(yùn)行中不斷產(chǎn)生新的單詞序列。

大型語言模型生成的許多文本看起來就像是從數(shù)據(jù)庫或真實(shí)網(wǎng)頁中復(fù)制粘貼的。但和大多數(shù)小說作品一樣,這些相似之處只是巧合。一個大型語言模型更像是一個魔術(shù)師的黑盒子,而不是百科全書。

大型語言模型通過預(yù)測序列中的下一個單詞來生成文本。如果一個模型看到“貓坐”,它可能會猜測下一個詞是“在”。隨后,這個新的序列被反饋到模型中,接下來模型可能會猜“地”和“上”。

這一個技巧就足以生成你能想到的幾乎任何類型的文本,從淘寶商品描述到俳句,從粉絲小說到計(jì)算機(jī)代碼,再到雜志文章和論文等等。

正如計(jì)算機(jī)科學(xué)家、前OpenAI 聯(lián)合創(chuàng)始人安德烈卡爾帕蒂(Andrej Karpathy)喜歡說的那樣:大型語言模型學(xué)會了用互聯(lián)網(wǎng)上的文檔做夢。

你可以把大型語言模型中的數(shù)十億個數(shù)字想象成一個巨大的電子表格,它記錄了某些單詞與其他單詞一起出現(xiàn)的統(tǒng)計(jì)學(xué)上的可能性。

電子表格中的值是在訓(xùn)練模型時設(shè)置的,這個過程會一次又一次地調(diào)整這些值,直到模型的猜測能夠反映出從互聯(lián)網(wǎng)上獲取的數(shù)兆字節(jié)文本中的語言規(guī)律。

為了預(yù)測一個單詞,該模型只需運(yùn)行其數(shù)字。它為詞匯表中的每個單詞計(jì)算一個分?jǐn)?shù),以反映該單詞在序列中排下一位的可能性。

得分最高的單詞獲勝。簡而言之,大型語言模型就是一個統(tǒng)計(jì)學(xué)老虎機(jī)。拉下?lián)u桿,就會跳出一個單詞。

都是幻覺

你需要知道的是,這些模型生成的所有東西都是幻覺,但只有當(dāng)我們發(fā)現(xiàn)內(nèi)容是錯誤的時候,我們才會這么稱呼它。

問題是,大型語言模型非常擅長它們所做的事情,以至于它們所生成的東西在大部分情況下都是正確的。這讓信任它們變得很困難。

我們能否控制大型語言模型生成的內(nèi)容,從而讓它們生成準(zhǔn)確無誤的文本?不太行,因?yàn)檫@些模型太復(fù)雜了,我們無法手動修改它們的數(shù)字。

一些研究人員認(rèn)為,采用更多的文本進(jìn)行訓(xùn)練將繼續(xù)降低模型的錯誤率。

這是我們看到的一種趨勢,因?yàn)榇笮驼Z言模型變得越來越大、越來越好。

另一種方法是讓模型邊做邊檢查,一步一步地分解回答。這被稱為思維鏈提示(chain-of-thought prompting),已被證明可以提高聊天機(jī)器人輸出的準(zhǔn)確性。

未來的大型語言模型可能能夠?qū)λ鼈冋谏傻奈谋具M(jìn)行事實(shí)核查,甚至在它們開始偏離軌道時進(jìn)行回溯,但這項(xiàng)技術(shù)現(xiàn)在還未實(shí)現(xiàn)。

同時,這些技術(shù)都無法完全阻止幻覺。只要大型語言模型是概率性的,它們產(chǎn)生的東西就會有隨機(jī)的因素。

擲 100 個骰子,你會得到一個數(shù)字分布。再擲一次,你就會得到不同的分布。

即使骰子被加權(quán),就像大型語言模型一樣,試圖讓一些分布出現(xiàn)的頻率遠(yuǎn)高于其他分布,但結(jié)果仍然不會每次都相同。

當(dāng)你考慮到這項(xiàng)技術(shù)每天被使用的次數(shù)時,即使是千分之一的錯誤率,也會導(dǎo)致很多錯誤。

這些模型越準(zhǔn)確,我們就越會放松警惕。研究表明,聊天機(jī)器人做得越好,當(dāng)錯誤發(fā)生時,人們就越有可能忽略它。

也許解決幻覺的最佳方法是管理我們對這些工具的預(yù)期。當(dāng)使用 ChatGPT 生成虛假文件的律師被要求解釋自己的行為時,他和其他人一樣對所發(fā)生的事情感到驚訝。

他告訴法官:“我聽說了這個新網(wǎng)站,我錯誤地認(rèn)為它是一個超級搜索引擎。我不明白 ChatGPT 會捏造案件。”

作者簡介:威爾道格拉斯海文(Will Douglas Heaven)是《麻省理工科技評論》人工智能欄目的高級編輯,他在這里報(bào)道新的研究、新興趨勢及其背后的人。此前,他是英國廣播公司(BBC)科技與地緣政治網(wǎng)站 Future Now 的創(chuàng)始編輯,也是 New Scientist 雜志的首席技術(shù)編輯。他擁有英國倫敦帝國理工學(xué)院計(jì)算機(jī)科學(xué)博士學(xué)位,深諳與機(jī)器人合作的體驗(yàn)。

支持:Ren

運(yùn)營/排版:何晨龍

贊助本站

人工智能實(shí)驗(yàn)室

相關(guān)熱詞: OpenAI 創(chuàng)始 成員 Andrej Karpathy

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港