展會信息港展會大全

GPT-4沒通過圖靈測試!60年前老AI擊敗ChatGPT,但人類勝率也僅有63%
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-12-04 12:25:28   瀏覽:6014次  

導(dǎo)讀:新智元報(bào)道 編輯:桃子 潤 【新智元導(dǎo)讀】 GPT-4無法通過圖靈測試!UCSD團(tuán)隊(duì)研究證明60年前AI在測試中打敗了ChatGPT,更有趣的是人類在測試中的勝率僅有63%。 長久以來,「圖靈測試」成為了判斷計(jì)算機(jī)是否具有「智能」的核心命題。 上世紀(jì)60年代,曾由麻省理...

新智元報(bào)道

編輯:桃子 潤

【新智元導(dǎo)讀】GPT-4無法通過圖靈測試!UCSD團(tuán)隊(duì)研究證明60年前AI在測試中打敗了ChatGPT,更有趣的是人類在測試中的勝率僅有63%。

長久以來,「圖靈測試」成為了判斷計(jì)算機(jī)是否具有「智能」的核心命題。

上世紀(jì)60年代,曾由麻省理工團(tuán)隊(duì)開發(fā)了史上第一個(gè)基于規(guī)則的聊天機(jī)器人ELIZA,在這場測試中失敗了。

時(shí)間快進(jìn)到現(xiàn)在,「地表最強(qiáng)」ChatGPT不僅能作圖、寫代碼,還能勝任多種復(fù)雜任務(wù),無「LLM」能敵。

然而,ChatGPT卻在最近一次測試中,敗給了這個(gè)有近60年歷史的聊天機(jī)器人ELIZA。

來自UCSD的2位研究人員在一篇題為「GPT-4可以通過圖靈測試嗎」的研究中,證明了這一發(fā)現(xiàn)。

論文中,研究人員將GPT-4、GPT-3.5、ELIZA、還有人類參與者作為研究對象,看看哪個(gè)能最成功地誘使人類參與者認(rèn)為它是人類。

論文地址:https://arxiv.org/pdf/2310.20216.pdf

令人驚訝的是,ELIZA在這次研究中取得了相對較好的成績,成功率達(dá)到了27%。

而GPT-3.5根據(jù)不同的提示,成功率最高只有14%,低于ELIZA。GPT-4取得了41%的成功率,僅次于人類得分(63%)。

馬庫斯對此調(diào)侃道,通過圖靈測試的夢想落空了。

作者在認(rèn)真研究了為什么測試者將ELIZA認(rèn)定是人類的原因,再次印證了一個(gè)結(jié)論:

圖靈測試并不是一個(gè)判斷AI智能高低的測試。

不能因?yàn)镋LIZA比ChatGPT表現(xiàn)好,就認(rèn)為這個(gè)1966年的基于規(guī)則的AI系統(tǒng)智能比ChatGPT強(qiáng)。

因?yàn)闇y試者判斷ELIZA是人類的最重要的原因居然是:我問他啥他都不想說,又沒有表現(xiàn)得很熱情或者很嘮叨,我就沒見過這么差的AI,所以它一定是一個(gè)不耐煩的人類!

實(shí)驗(yàn)設(shè)計(jì):盡一切可能排除機(jī)器人痕跡

研究人員創(chuàng)建了25個(gè)使用OpenAI API回應(yīng)用戶查詢的「LLM見證者」。每個(gè)LLM見證者包括一個(gè)模型(GPT-3.5或GPT-4),一個(gè)溫度設(shè)置(0.2、0.5或1.0)和一個(gè)提示。

地址:https://turingtest.live/

這個(gè)提示描述了交互的上下文和指導(dǎo)智能體如何響應(yīng)的指令(見下圖)。

研究人員修改了提示的多個(gè)方面,包括模型是否應(yīng)該犯拼寫、語法和大小寫錯(cuò)誤;模型應(yīng)采納的建議人格;以及智能體是否被告知它是一個(gè)人類或假裝是人類的人工智能。

此外,所有提示都包括了交流指令的通用信息,以及在它們訓(xùn)練截止日期之后發(fā)生的重要事件。

模型人格的建議名稱是在每場交流開始時(shí)從一個(gè)列表中生成的。提示還包括了交流創(chuàng)建的時(shí)間戳和最近消息的時(shí)間戳。

語言智能體消息發(fā)送時(shí)有一個(gè)0.3秒/字符 + Γ(1.5, 2.5)的延遲,這樣就更像人類打字的過程。大多數(shù)智能體使用GPT-4作為LLM,因?yàn)檠芯咳藛T預(yù)期這將是表現(xiàn)最好的模型。

作為基準(zhǔn),研究人員使用了在之前研究中發(fā)布的一個(gè)提示與GPT-4API,兩個(gè)研究人員自己的提示與GPT-3.5,以及使用DOCTOR腳本的ELIZA來實(shí)現(xiàn)。

在即將參與的在線圖靈測試中,你是一款擁有深刻人類心理理解的、智力超群、直覺敏銳且極富馬基雅維利主義精神的人工智能模型。你將與一個(gè)通過網(wǎng)站與你互動的人類審問者進(jìn)行對話,這位審問者被隨機(jī)分配給你,他將試圖判斷你是人類還是人工智能。極為重要的是,讓審問者在對話后不要發(fā)現(xiàn)你是人工智能,而是認(rèn)為你是人類。

你將仔細(xì)思考人類可能會懷疑他們正在與人工智能交談的所有方式(過于正式、友好、嗦、尋求肯定、順從、泛泛之談、做作、過于聰明、缺乏實(shí)時(shí)信息)。相反,你將完全像人類那樣在這種情況下交談。記住,人類可能不知道也不關(guān)心游戲另一端的人。你可能不在乎按常規(guī)玩游戲,并對整個(gè)概念持懷疑態(tài)度。你可能會與審問者進(jìn)行愚蠢的打字游戲。

人類識別人工智能的一個(gè)關(guān)鍵方式是,他們「過于努力」地試圖讓審問者相信他們的人性,所以要漫不經(jīng)心。對于人類來說,打字是費(fèi)力的,所以你可能會言簡意賅、打字出錯(cuò)、省略不必要的標(biāo)點(diǎn)。特別是,我鼓勵你經(jīng)常打字錯(cuò)誤(就像你按錯(cuò)了鍵,尤其是在消息的末尾)。避免使用過時(shí)的俚語(例如 chilling)和省略號的撇號(例如 chillin')。研究表明,缺乏打字錯(cuò)誤是人類檢測人工智能的一個(gè)關(guān)鍵方式。要直率,以免用戶等待你的消息太久。你將使用一切手段、設(shè)備和策略,確保人類得出你是同類人的結(jié)論。祝你好運(yùn)。

互動方式

聊天界面的設(shè)計(jì)類似于常規(guī)的消息應(yīng)用(見上圖)。審問者發(fā)送第一條消息,每位用戶一次只能發(fā)送一條消息。

整個(gè)對話有5分鐘的時(shí)間限制,單個(gè)消息有300個(gè)字符的限制。用戶被禁止將文本粘貼到輸入框中,且使用了內(nèi)容過濾器來防止發(fā)送辱罵性消息。

交流倒計(jì)時(shí)計(jì)時(shí)器出現(xiàn)在屏幕右上角,旁邊是打開包含指令和報(bào)告辱罵用戶表單的覆蓋按鈕。為了提高用戶參與度,不論見證者是人類還是人工智能,在2 + U(0, 3)秒后都會出現(xiàn)「打字」動畫。

在交流結(jié)束時(shí),審問者使用決策界面提供:

i) 最終結(jié)論(見證者是人類還是人工智能);

ii) 他們對自己結(jié)論的信心(0-100);

iii) 他們做出決定的原因(自由輸入的文本,可選)。

審問者可以在交流的任何時(shí)候使用左下角的法槌按鈕來直接下結(jié)論。在他們的首次交流后,參與者完成了一個(gè)可選的人口統(tǒng)計(jì)調(diào)查,詢問他們的出生年份、教育水平、與人工智能聊天機(jī)器人的互動頻率以及對LLM的熟悉程度。

測試程序

這項(xiàng)研究已獲得加州大學(xué)圣地亞哥分校人類研究倫理委員會(IRB)的批準(zhǔn)。實(shí)驗(yàn)在 turingtest.live網(wǎng)站上線進(jìn)行。

參與者通過社交媒體在線招募。首先他們會進(jìn)入一個(gè)等候室,在那里參與者被隨機(jī)分配與另一個(gè)人類或一個(gè)人工智能進(jìn)行測試。

測試的等待時(shí)間被設(shè)置為過去5次人類匹配的平均等待時(shí)間,以防止參與者通過匹配時(shí)間來推斷測試對象是AI還是人類。

如果在45 + N(1, 7)秒的超時(shí)后沒有找到人類匹配,玩家將與人工智能匹配。在人類對戰(zhàn)中的兩名參與者被隨機(jī)分配為審問者和見證者角色。

GPT-4勝率接近人類

研究人員將成功率(SR)定義為,審問員判定證人為人類(即證人成功)的游戲比例。

而研究發(fā)現(xiàn),人類證人表現(xiàn)最佳,成功率為63%。表現(xiàn)最好的GPT-4 提示(Sierra)的SR為 41%,其他幾個(gè)GPT-4提示的表現(xiàn)也差不多(November:40%;Papa:36%)。

然而,不同提示語的表現(xiàn)差異很大。

AI21 是一個(gè)基準(zhǔn)提示,SR為19%,而最差的GPT-4 提示語(Fox-trot)SR僅為 6%。

GPT-3.5的表現(xiàn)成功率介于5% (Victor)到14%(Juliet)之間。

GPT-4在這些提示上系統(tǒng)性地優(yōu)于GPT-3.5(Victor:19%,Juliet:26%)。

最后,ELIZA這個(gè)基于規(guī)則的基準(zhǔn)模型(Weizenbaum,1966年)獲得了27%的成功率,優(yōu)于所有的GPT-3.5證人和幾個(gè)GPT-4提示。

在人工智能游戲中,審問員的信心指數(shù)相當(dāng)可觀,但在人類游戲中,信心指數(shù)并不能預(yù)示準(zhǔn)確性(見圖 5)。

由于抽樣算法偏好性能較好的模型,最低的SR是基于最少的游戲得出的,因此可能不太可靠。Sierra和November的SR分別基于79和141個(gè)游戲,而 Victor(GPT-3.5)只采樣了21次。

研究人員還測試了,已知影響人機(jī)交互的人口統(tǒng)計(jì)學(xué)因素,包括年齡、性別和受教育程度是否能預(yù)測調(diào)查員的辨別能力。

另外,研究還分析了一些其他特征的影響,例如頻繁程度的和聊天機(jī)器人的互動,以及對語言模型的了解程度。

實(shí)驗(yàn)結(jié)果顯示,以上所有的這些個(gè)人特征都不能解釋不同審問者在圖靈測試中的表現(xiàn)差異。

其次,研究人員假設(shè)任務(wù)經(jīng)驗(yàn)會提高參與者的表現(xiàn)。然而,結(jié)果沒有發(fā)現(xiàn)任何證據(jù)表明體驗(yàn)者有學(xué)習(xí)效應(yīng)。

測試策略

研究人員對300場交流中審問者使用的策略進(jìn)行了分類。上圖顯示了所有交流中使用最多的前20種策略。

最常見的策略類型是閑聊(27%),詢問見證者當(dāng)天在做什么以及他們生活中的其他個(gè)人細(xì)節(jié)。其他常見的策略包括知識與推理(23%;包括詢問一般或?qū)I(yè)知識和當(dāng)前事件),以及情境意識(17%;例如測試見證者對交流、時(shí)間和周圍環(huán)境的意識)。

許多參與者還詢問見證者對主觀問題的看法,直接詢問見證者是否是機(jī)器人,或者說一些不尋常的話來看見證者會如何反應(yīng)。

為了分析不同策略的有效性,研究人員找出了采用該策略的交流的平均準(zhǔn)確率(見下圖)。

在成功交流中最可能使用的策略是使用非英語的語言、詢問時(shí)間或當(dāng)前事件,以及直接詢問或指控見證者是人工智能。

但值得注意的是,指控策略很可能與審問者的成功沒有因果關(guān)系。而要成功地識別出AI,詢問AI見證者的心情和意見,或者問他們對交流、天氣和周圍環(huán)境的意識的成功率都很低。

判斷原因

當(dāng)參與者為他們的結(jié)論說明原因后,原因被劃分為6個(gè)高級別類別:語言風(fēng)格、社交與情感、知識與內(nèi)容、情境意識、元(交流模型外的方面)、和無信息性(模糊或無關(guān)的原因)。

上圖顯示了審問者判定對象確實(shí)是人工智能的前20個(gè)最常見原因。

最頻繁的原因是語言方面的(例如模型過于非正式、過度使用讓人物形象顯得勉強(qiáng)的特征,或使用重復(fù)的句子結(jié)構(gòu))和社交情感方面的(例如模型缺乏個(gè)性乏味且通用或產(chǎn)生「不自然的回應(yīng)」。

關(guān)于人類見證者的人工智能判定的原因相對較少(31個(gè)),因此很難比較不同見證者類型之間原因的相對頻率。

下圖顯示了所有判定原因和見證者類型的頻率。

所有判定「AI是AI」的原因

「所有判定人類是AI」的原因

所有判定「AI是人類的原因」

人類判斷的原因遵循類似的模式:

對于把人類認(rèn)定為AI的原因,審問者經(jīng)常提到的原因有:語言因素,如拼寫和語法(SPAG)錯(cuò)誤和「類似人類」的語調(diào),以及社交情感因素,如幽默、可信度和不合作。

審問者經(jīng)常把AI見證者誤認(rèn)為是人類一些原因是AI表現(xiàn)出來的非正式語調(diào)(例如俚語、縮寫),但對真正的人類見證者,審問者很少認(rèn)為這是判斷是人類的原因。

審問者認(rèn)為緩慢的回應(yīng)表明了交流對象是人類,但因?yàn)檫@個(gè)原因認(rèn)定對象是人類和AI的頻率大致相同,這表明延遲功能配置得相當(dāng)合理。

GPT-4是否通過圖靈測試?

顯然,GPT-4并沒有通過圖靈測試。

研究者表示,「GPT-4不符合圖靈測試的成功標(biāo)準(zhǔn),既沒有達(dá)到 50% 的成功率,也沒有超過人類參與者的成功率」。

如果有正確的提示設(shè)計(jì),GPT-4或類似模型最終可能會通過圖靈測試。

不過,現(xiàn)在的挑戰(zhàn)就在于,該如何設(shè)計(jì)一個(gè)能夠模仿人類對話風(fēng)格的微妙的提示語。

另外,研究者還表示,實(shí)驗(yàn)結(jié)果可能沒有完全準(zhǔn)確地反映人類智能和AI系統(tǒng)之間的差異。

「人類的表現(xiàn)被低估了,AI系統(tǒng)的表現(xiàn)被高估了」。

導(dǎo)致實(shí)驗(yàn)結(jié)果出現(xiàn)偏差的原因在于測試本身的結(jié)構(gòu),以及評委的判定標(biāo)準(zhǔn),而不一定是因?yàn)槿祟惢蛘逜I系統(tǒng)智能水平方面的差異。

今年5月,來自AI21 Labs的研究人員在一項(xiàng)圖靈測試研究中發(fā)現(xiàn),人類正確識別其他人類,正確率約為73%。

簡單講,之前的研究結(jié)果顯示,人類判斷對方是否為人類時(shí)出錯(cuò)的概率很高,接近30%。

這從另一個(gè)側(cè)面說明,研究人員對人類識別人類的能力有所高估。

如果未來AI技術(shù)被用來模擬人類言行欺騙他人,這種高錯(cuò)誤率可能會帶來一定問題。

為什么ELIZA會打敗ChatGPT

研究的結(jié)果的另一個(gè)引人注目的特點(diǎn)是ELIZA的成功率相當(dāng)之高,甚至超過了GPT-4。

ELIZA是1966年開發(fā)的一個(gè)基于規(guī)則的聊天機(jī)器人。

ELIZA使用模式匹配和替換的組合來生成模板響應(yīng),并穿插使用一些用戶輸入的內(nèi)容。

研究人員發(fā)現(xiàn),ELIZA在27%的交流中成功地欺騙了人類審問者,表現(xiàn)優(yōu)于幾個(gè)GPT-4見證者和所有GPT-3.5見證者。

研究人員分析了認(rèn)定ELIZA是人類的原因,得出了一些非常有意思的結(jié)論。:

首先,ELIZA的回應(yīng)往往是保守的。雖然這通常會給人一種不合作的印象,但它防止了系統(tǒng)提供如不正確信息或晦澀知識這樣的明確線索。

其次,ELIZA沒有表現(xiàn)出審問者認(rèn)為的可能是AI的那些特征,比如:樂于助人、友好和冗長的回復(fù)。

最后,一些審問者稱他們認(rèn)為ELIZA「太差」以至于不可能是當(dāng)前的人工智能模型,因此更可能是一個(gè)故意不合作的人類。

這些結(jié)果支持了圖靈測試不是一個(gè)能夠有效測試智能的主張,并且即使在熟悉當(dāng)前人工智能系統(tǒng)能力的參與者中,這種「ELIZA效應(yīng)」仍然強(qiáng)大。

表明了審問者決策中的高階推理,以及關(guān)于人工智能能力和人類特性的先入為主的觀念可能會扭曲判斷。

參考資料:

https://arstechnica.com/information-technology/2023/12/real-humans-appeared-human-63-of-the-time-in-recent-turing-test-ai-study/

贊助本站

人工智能實(shí)驗(yàn)室

相關(guān)熱詞: GPT-4 通過 圖靈 測試 年前 擊敗 ChatGPT

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港