展會信息港展會大全

為什么人工智能會胡編亂造?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-07-29 09:28:53   瀏覽:4473次  

導(dǎo)讀:(來源:MIT TR) 世界衛(wèi)生組織于 4 月 2 日推出了新的聊天機(jī)器人,初衷是建立一個由 GPT-3.5 支持的新虛擬形象SARAH(智能健康助理)全天候提供關(guān)于如何健康飲食、戒煙、減壓等多方面的生活建議,支持八種不同語言,服務(wù)于全球數(shù)百萬用戶。 但人們很快發(fā)現(xiàn)...

(來源:MIT TR)

世界衛(wèi)生組織于 4 月 2 日推出了新的聊天機(jī)器人,初衷是建立一個由 GPT-3.5 支持的新虛擬形象SARAH(智能健康助理)全天候提供關(guān)于如何健康飲食、戒煙、減壓等多方面的生活建議,支持八種不同語言,服務(wù)于全球數(shù)百萬用戶。

但人們很快發(fā)現(xiàn),就像所有聊天機(jī)器人一樣,SARAH 有時也會給出錯誤答案。在一個案例中,它列出了舊金山一些不存在診所的假名稱和地址。世界衛(wèi)生組織在其網(wǎng)站上警告稱 SARAH 的信息可能并不總是準(zhǔn)確的。

這種事情又發(fā)生了,聊天機(jī)器人的胡編亂造已經(jīng)成為了一個再熟悉不過的梗。

Meta 僅存在了 3 天的科技聊天機(jī)器人 Galactica 編造了學(xué)術(shù)論文,并生成有關(guān)太空熊歷史的維基文章;今年 2 月,加拿大航空公司被命令執(zhí)行其機(jī)器人客服發(fā)明的退款政策;去年,一名律師因提交了由 ChatGPT 捏造的虛假司法意見和法律引文的法庭文件而被罰款。

這種制造虛構(gòu)信息的傾向被稱為“幻覺”(hallucination)是阻礙聊天機(jī)器人更廣泛采用的最大障礙之一。為什么會這樣?我們?yōu)楹螣o法解決這個問題?

魔力八球

為了理解大語言模型為何會出現(xiàn)幻覺,我們需要了解它們的工作原理。首先要注意的是,編造內(nèi)容正是這些模型的設(shè)計(jì)初衷。當(dāng)你向聊天機(jī)器人提問時,它的回答源自于支撐它的大語言模型。但這不像在數(shù)據(jù)庫中查找信息或在網(wǎng)絡(luò)上使用搜索引擎。

如果你打開一個大語言模型,你不會看到現(xiàn)成的信息等待被檢索。相反,你會發(fā)現(xiàn)數(shù)十億個數(shù)字,它利用這些數(shù)字從零開始計(jì)算其響應(yīng),即時生成新的單詞序列。大語言模型生成的許多文本看起來就像從數(shù)據(jù)庫或真實(shí)的網(wǎng)頁上復(fù)制粘貼而來。但正如大多數(shù)虛構(gòu)作品一樣,這些相似之處純屬巧合。大語言模型更像是一個無限的魔力八球(一種通過搖晃隨機(jī)呈現(xiàn)答案的二十面體)而不是一本百科全書。

大語言模型通過預(yù)測序列中的下一個單詞來生成文本。如果一個模型看到“the cat sat”(這只貓坐),它可能會猜“on”(在......上)。這個新的序列會被反饋到模型中,模型現(xiàn)在可能會猜“the”。再循環(huán)一次,它可能會猜“mat”(墊子)等等。這一個技巧就足以生成幾乎任何你能想到的文本,從亞馬遜商品列表到俳句,從同人小說到計(jì)算機(jī)代碼,再到雜志文章等等。正如計(jì)算機(jī)科學(xué)家、OpenAI 的聯(lián)合創(chuàng)始人 Andrej Karpathy 所說:大語言模型學(xué)會了夢見互聯(lián)網(wǎng)文檔。

想象一下,大語言模型內(nèi)部的數(shù)十億個數(shù)字,就像一個龐大的電子表格,記錄了某些詞匯與其他詞匯一起出現(xiàn)的統(tǒng)計(jì)概率。這些數(shù)值是在模型訓(xùn)練時設(shè)定的,在過程中不斷調(diào)整這些數(shù)值,直到模型的預(yù)測能夠反映從互聯(lián)網(wǎng)上獲取的數(shù)太字節(jié)文本中的語言模式。

全都是幻覺

這里的要點(diǎn)是,其實(shí)所有內(nèi)容都是“幻覺”,但只有在我們發(fā)現(xiàn)錯誤時才這么聲討。問題在于,大語言模型非常擅長它們的工作,以至于它們編造的內(nèi)容在大多數(shù)時候看起來都很合理。這使得人們很難完全信任它們。

我們能夠控制大語言模型生成的內(nèi)容,以確保它們產(chǎn)生的文本絕對準(zhǔn)確嗎?這些模型太過復(fù)雜,無法手動調(diào)整參數(shù)。但是有些研究人員認(rèn)為,通過訓(xùn)練它們處理更多的文本將會降低錯誤率。這一趨勢在大語言模型的發(fā)展過程中已經(jīng)顯現(xiàn)出來。

另一種方法是要求模型在生成過程中檢查自己的工作,將響應(yīng)逐步分解。這種方法被稱為“思維鏈提示”(Chain-of-Thought),已經(jīng)被證明可以提高聊天機(jī)器人輸出的準(zhǔn)確性。雖然目前還無法實(shí)現(xiàn),但未來的大語言模型可能會核實(shí)它們輸出的文本,甚至可以在脫離正軌時回退。

但這些技術(shù)都無法完全阻止幻覺的發(fā)生。只要大語言模型是概率性的,那么它們生成的內(nèi)容就存在一定程度的隨機(jī)性。擲 100 次骰子,你會得到一種模式。再擲一次,你會得到另一種。即使骰子像大語言模型一樣被設(shè)定為產(chǎn)生某些模式比其他模式更頻繁,結(jié)果也不會每次都相同。即使每 1000 次或 100,000 次中只有一次錯誤,考慮到這項(xiàng)技術(shù)每天使用的次數(shù),累積起來的錯誤數(shù)量也會非常多。

這些模型越準(zhǔn)確,我們就越容易放松警惕。研究表明,聊天機(jī)器人表現(xiàn)得越好,人們就越有可能在出現(xiàn)錯誤時忽視它。

或許對于幻覺最好的解決辦法就是管理我們對這些工具的期望。當(dāng)那位使用 ChatGPT 生成虛假文件的律師被要求解釋自己的行為時,他對發(fā)生的事情同樣感到驚訝。“我聽說了這個新網(wǎng)站,錯誤地以為它是一個超級搜索引擎,”他告訴法官,“我沒有意識到 ChatGPT 可能會編造案例。”

原文鏈接:

https://www.technologyreview.com/2024/06/18/1093440/what-causes-ai-hallucinate-chatbots/

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港