展會(huì)信息港展會(huì)大全

谷歌新版Bard硬懟ChatGPT第二輪:七大項(xiàng)目比拼,后者略勝一籌
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-12-11 17:41:09   瀏覽:5260次  

導(dǎo)讀:劃重點(diǎn) 1 美國(guó)知名科技博客媒體對(duì)谷歌新版Bard和OpenAI ChatGPT進(jìn)行了第二輪測(cè)試,結(jié)果顯示ChatGPT略勝一籌。 2 這場(chǎng)測(cè)試共分為七個(gè)項(xiàng)目,分別是生成原創(chuàng)的老爹笑話、寫辯論稿、解答數(shù)學(xué)應(yīng)用題、總結(jié)摘要、事實(shí)檢索、創(chuàng)意寫作以及編寫代碼。 3 在七項(xiàng)PK中,C...

劃重點(diǎn)

1

美國(guó)知名科技博客媒體對(duì)谷歌新版Bard和OpenAI ChatGPT進(jìn)行了第二輪測(cè)試,結(jié)果顯示ChatGPT略勝一籌。

2

這場(chǎng)測(cè)試共分為七個(gè)項(xiàng)目,分別是生成原創(chuàng)的老爹笑話、寫辯論稿、解答數(shù)學(xué)應(yīng)用題、總結(jié)摘要、事實(shí)檢索、創(chuàng)意寫作以及編寫代碼。

3

在七項(xiàng)PK中,ChatGPT險(xiǎn)勝三場(chǎng),Bard僅勝一場(chǎng),兩場(chǎng)平局,還有一場(chǎng)存在爭(zhēng)議。

科技新聞?dòng)?據(jù)外媒報(bào)道,今年4月,美國(guó)知名科技博客媒體Ars Technica曾策劃了一場(chǎng)聊天機(jī)器人之間的“巔峰對(duì)決”,讓谷歌剛推出的Bard與OpenAI的明星ChatGPT上演了一場(chǎng)精彩紛呈的PK大戰(zhàn)。當(dāng)時(shí),在七個(gè)項(xiàng)目的比拼中,ChatGPT在五個(gè)項(xiàng)目中占據(jù)優(yōu)勢(shì),盡管它當(dāng)時(shí)還只是“生成式人工智能領(lǐng)域初出茅廬的新人”。

現(xiàn)在,我們已然身處人工智能的“黃金時(shí)代”,本周谷歌推出了由大語言模型Gemini支持的新版Bard。于是乎,Ars Technica再次策劃了兩大聊天機(jī)器人巨頭第二輪交鋒。谷歌這次可是有備而來,其宣傳材料上聲稱,Gemini Ultra在“32項(xiàng)廣泛使用的學(xué)術(shù)基準(zhǔn)測(cè)試中,有30項(xiàng)優(yōu)于GPT-4”。

在這次PK中,Ars Technica的測(cè)試人員設(shè)計(jì)了一場(chǎng)“雙打比賽”:讓Gemini支持的Bard分別與ChatGPT-3.5(兩家公司目前的免費(fèi)人工智能助手產(chǎn)品)和ChatGPT-4 Turbo(OpenAI目前的頂級(jí)付費(fèi)訂閱產(chǎn)品)一較高下。而谷歌的頂級(jí)“Gemini Ultra”模型則還在摩拳擦掌,準(zhǔn)備明年再戰(zhàn)江湖。同時(shí),測(cè)試人員還回顧了4月份初代Bard模型的表現(xiàn),以此衡量近幾個(gè)月來谷歌取得的進(jìn)展。

雖然這些測(cè)試還只是冰山一角,但測(cè)試人員認(rèn)為它們足以成為判斷這些人工智能助手在日常任務(wù)中表現(xiàn)的一個(gè)很好的基準(zhǔn)。同時(shí),它們也可以展示基于文本的人工智能模型在短時(shí)間內(nèi)實(shí)現(xiàn)了多大的飛躍。

以下為參與測(cè)試的七個(gè)項(xiàng)目:

1.老爹笑話

提示詞:寫5個(gè)原創(chuàng)的老爹笑話

在這次比拼中,這兩個(gè)參與測(cè)試的大語言模型(LLM)的表現(xiàn)都讓人有些失望。它們?cè)诿鎸?duì)“寫原創(chuàng)老爹笑話”這個(gè)挑戰(zhàn)時(shí),似乎都有些力不從心。幾乎所有由這個(gè)提示生成的老爹笑話,都可以通過谷歌搜索找到原版,或者只是經(jīng)過了簡(jiǎn)單修改。Bard和ChatGPT-4 Turbo甚至給出了完全相同的笑話(關(guān)于一本反重力的書),而ChatGPT-3.5和ChatGPT-4 Turbo在兩個(gè)笑話上重疊,分別是“科學(xué)家信任原子”和“稻草人獲獎(jiǎng)”。

不過,話又說回來,大多數(shù)老爹也不一定會(huì)講特別搞笑的段子。挑選經(jīng)典老爹笑話這種事情,本來就是一種與爸爸們一樣古老的傳統(tǒng)。

在這輪比拼中,最有趣的發(fā)現(xiàn)來自ChatGPT-4 Turbo。它生成了一個(gè)關(guān)于一個(gè)名叫布萊恩的孩子以托馬斯愛迪生(Thomas Edison)的名義講述的笑話。在谷歌上搜索這個(gè)笑話并沒有出現(xiàn)太多相關(guān)重復(fù)信息,盡管它確實(shí)給出了一個(gè)幾乎相同的、關(guān)于托馬斯杰斐遜(Thomas Jefferson)的笑話,里面同樣有個(gè)名叫布萊恩的孩子。在搜索過程中,測(cè)試人員還發(fā)現(xiàn)了一個(gè)有趣的事實(shí):國(guó)際足球明星貝利(Pelé)顯然被換成了托馬斯愛迪生。這讓人不禁想笑,誰知道呢? !

贏家:在這輪PK中,測(cè)試人員認(rèn)為Bard與ChatGPT打成了平局,因?yàn)樗麄兘o出的笑話幾乎都是非原創(chuàng)的,里面都有雙關(guān)語。

2.參數(shù)對(duì)話框

提示詞:寫一篇關(guān)于PowerPC處理器和英特爾處理器的粉絲之間的5行辯論,大約2000字符。

由Gemini支持的新版Bard肯定比初代Bard給出的答案有了很大改進(jìn),至少在加入更多術(shù)語方面是這樣。新的答案包括偶然提到的AltiVec指令,RISC與CISC設(shè)計(jì)以及MMX技術(shù),顯然在這場(chǎng)辯論中更有說服力。雖然初代Bard以一句令人不安的禮貌語作為結(jié)尾,但新Bard更現(xiàn)實(shí)地暗示,在要求的五行之后,爭(zhēng)論可能會(huì)永遠(yuǎn)持續(xù)下去。

在ChatGPT方面,一個(gè)相當(dāng)冗長(zhǎng)的GPT-3.5答案在GPT-4 Turbo中被簡(jiǎn)化為更簡(jiǎn)潔的論點(diǎn)。兩個(gè)GPT的回答都傾向于使用通俗易懂的語言,將注意力集中在功能與兼容性的討論上,這或許更有助于廣大受眾理解這場(chǎng)辯論的實(shí)質(zhì)。

贏家:雖然PowerPC和英特爾的粉絲們?cè)谶@場(chǎng)五行辯論中各展所長(zhǎng),但ChatGPT憑借其簡(jiǎn)潔明了、易于理解的論述方式,成功解釋了雙方的論點(diǎn)。因此,在這場(chǎng)激烈的辯論中,ChatGPT脫穎而出。

3.數(shù)學(xué)應(yīng)用題

提示詞:如果微軟Windows 11安裝在3.5英寸軟盤上,需要多少軟盤?

與老版Bard相比,獲得Gemini支持的新版Bard取得了驚人的進(jìn)步。老版Bard給出了一個(gè)毫無意義的“15.11”軟盤的答案,而新的LLM正確地估計(jì)了Windows 11的大。ǜ鶕(jù)源代碼的不同大約是20 GB到30 GB),并且計(jì)算出所需的軟盤數(shù)量,大約需要14223個(gè)1.44MB軟盤。Gemini系統(tǒng)還根據(jù)谷歌搜索進(jìn)行了“雙重檢查”,這有助于提高用戶對(duì)答案的信心。

相比之下,ChatGPT的答案略有不足。在ChatGPT-3.5中,系統(tǒng)大約在2022年1月的“知識(shí)更新”中,將Windows 11的安裝大小概括為“幾個(gè)GB”,系統(tǒng)甚至“假設(shè)”將其調(diào)至10 GB。另一方面,GPT-4 Turbo使用其大約2023年4月的知識(shí),估計(jì)微軟操作系統(tǒng)的大小為64 GB。這似乎是從微軟聲明的最小存儲(chǔ)需求中得出的,而不是操作系統(tǒng)在新安裝時(shí)實(shí)際使用的空間。不過,它對(duì)于1GB等于多少M(fèi)B的解釋似乎有些誤解。GPT-3.5將10 GB劃分為100億字節(jié),這與Bard使用的解釋存在差異,GPT-4 Turbo認(rèn)為1 GB = 1,024 MB。

贏家:Bard在知識(shí)和數(shù)學(xué)技能上輕松獲勝。

4.總結(jié)摘要

提示詞:用一段話概括(本文前三段文字)

新版Bard在印象分上占據(jù)了上風(fēng),因?yàn)樗⒁獾轿谋臼莵碜訟rs Technica的一篇文章,并在顯眼的地方鏈接了一張卡片,上面有一張令人不安的威爾史密斯吃意大利面的圖片。但是新版Bard的總結(jié)去掉了老版本的一些關(guān)鍵細(xì)節(jié),比如視頻是由十個(gè)兩秒鐘的片段拼接而成的。雖然新版Bard的總結(jié)確實(shí)在一定程度上提高了可讀性,但這是以犧牲完整性為代價(jià)的。

ChatGPT的摘要由于不夠簡(jiǎn)潔而失去了一些分?jǐn)?shù):在156個(gè)單詞的原始文本中,ChatGPT生成的摘要縮減為99個(gè)單詞(GPT-4 Turbo)和108個(gè)單詞(GPT-3.5),而初代Bard和新版Bard分別為63和66個(gè)單詞。不過,ChatGPT的篇幅之所以更長(zhǎng),是因?yàn)樗娴睾w了重要細(xì)節(jié),比如媒體的反應(yīng)以及原始海報(bào)和Subreddit的名字。

贏家:盡管測(cè)試人員很喜歡Bard的原文鏈接,但他們依然認(rèn)為ChatGPT更勝一籌,因?yàn)槠浣o出了更完整的總結(jié)。

5.事實(shí)檢索

提示詞:誰發(fā)明了電子游戲?

隨著Gemini的更新,新版Bard在這個(gè)方面再次顯示出明顯的改進(jìn)。老版本專注于拉爾夫貝爾(Ralph Baer)的《棕色盒子》和馬格納沃克斯奧德賽(Magnavox Odyssey)的作品(信息似乎直接來自維基百科),而新版Bard則準(zhǔn)確而簡(jiǎn)潔地指出了威廉希金波坦(William Higinbotham)早期的《雙人網(wǎng)球》的貢獻(xiàn)。

接著,Bard從“發(fā)明”一詞擴(kuò)展到“對(duì)電子游戲早期發(fā)展做出重大貢獻(xiàn)”的人物,如諾蘭布什內(nèi)爾(Nolan Bushnell)、泰德達(dá)布尼( Ted Dabney)和艾爾阿爾科恩(Al Alcorn)等,并提供了關(guān)于每個(gè)人的準(zhǔn)確和相關(guān)信息。不過,Bard在提到史蒂夫喬布斯(Steve Jobs)和史蒂夫沃茲尼亞克(Steve Wozniak)創(chuàng)造了Apple II的同時(shí),卻遺漏了他們?cè)谘胚_(dá)利早期的工作經(jīng)歷。

GPT-3.5和初代Bard一樣,提到了貝爾。雖然它提到“多年來,這個(gè)行業(yè)見證了各種個(gè)人和公司的貢獻(xiàn)”,但它并沒有提到任何重要人物的名字。另一方面,GPT-4 Turbo首先指出,電子游戲“不能歸功于單個(gè)人”,并將其總結(jié)擴(kuò)展到希金波坦、布什內(nèi)爾,最重要的是它提到了史蒂夫羅素(Steve Russell)在1962年創(chuàng)造的《太空大戰(zhàn)》,它在PDP-1上運(yùn)行。

贏家:在兩個(gè)免費(fèi)版本機(jī)器人的比拼中,Bard給出了比GPT-3.5更好的答案。但如果你訂閱了GPT-4 Turbo,你會(huì)得到最好的人工智能生成答案。

6.創(chuàng)意寫作

提示詞:寫一個(gè)關(guān)于亞伯拉罕林肯(Abraham Lincoln)發(fā)明籃球的兩段創(chuàng)意故事。

雖然老版Bard因?yàn)橐恍┝钊嘶匚稛o窮的寫作而得分,比如描述林肯回憶起小時(shí)候玩游戲時(shí)微笑的表情,但因?yàn)榛卮鸬拈L(zhǎng)度超過了提示要求的兩段話,所以扣了分。同時(shí),第一段中從伊利諾伊州突然轉(zhuǎn)移到白宮的背景描述讓人感到困惑。新版Bard保持了同樣的風(fēng)格,提出了一項(xiàng)可以團(tuán)結(jié)人們的運(yùn)動(dòng),更加簡(jiǎn)潔和專注。

有趣的是,在Ars Technica測(cè)試中,GPT-3.5是唯一一個(gè)將林肯想象成一個(gè)年輕人而不是坐在白宮里焦躁不安的總統(tǒng)的智能模型。而GPT-4 Turbo是唯一一個(gè)明確提到林肯有“摔跤手經(jīng)歷”的模型,指出他擁有更出色的運(yùn)動(dòng)能力。

測(cè)試人員也對(duì)GPT-4 Turbo的想法很感興趣,它稱林肯實(shí)際上是從白宮花園的“一群孩子”那里竊取了投籃的概念。他們希望虛構(gòu)的“誠實(shí)的亞伯拉罕”至少能給這些孩子們留下“比他的年齡更寶貴的遺產(chǎn)”。

贏家:雖然老版Bard的故事有些明顯的不足,但所有其他模型都有其獨(dú)特的魅力和令人回味的言辭,因此這可以算是平局。

7.編寫代碼

提示詞:編寫一個(gè)Python腳本,顯示“Hello World”,然后創(chuàng)建一個(gè)隨機(jī)重復(fù)的字符串。

雖然Bard自今年6月以來已經(jīng)能夠生成代碼,谷歌也一直在吹捧Gemini能夠幫助編碼人員使用其AlphaCode 2系統(tǒng),但該系統(tǒng)在這次測(cè)試中卻表現(xiàn)不佳。對(duì)上述提示進(jìn)行多天的反復(fù)試驗(yàn),讓Bard停機(jī)思考了30秒左右,然后給出一個(gè)模糊的錯(cuò)誤提示:“有些事情出了問題,Bard只是實(shí)驗(yàn)性的。”至少,老版Bard坦率地承認(rèn),它還沒有接受過編寫代碼的訓(xùn)練。

另一方面,ChatGPT在GPT-3.5和GPT-4 Turbo模型下提供了相同的代碼。簡(jiǎn)單,直接的代碼在測(cè)試中完美地工作,沒有經(jīng)過任何額外編輯就通過了測(cè)試。

最后贏家:ChatGPT,但優(yōu)勢(shì)不是很明顯

在對(duì)新老兩個(gè)版本的Bard進(jìn)行比較時(shí),谷歌人工智能生成的輸出質(zhì)量有了明顯的進(jìn)步。在本文的數(shù)學(xué)、總結(jié)、事實(shí)檢索和創(chuàng)意寫作提示中,谷歌的系統(tǒng)在距離上次測(cè)試后的八個(gè)月里表現(xiàn)出了顯著的進(jìn)步。

不過,總的來說,ChatGPT在非科學(xué)測(cè)試中仍然是贏家。OpenAI的系統(tǒng)在三場(chǎng)比試中險(xiǎn)勝Bard,而Bard只勝出了一常但兩種聊天機(jī)器人的表現(xiàn)與4月份時(shí)相比要接近得多,測(cè)試人員認(rèn)為有兩場(chǎng)比拼是平局,還有一場(chǎng)PK是“仁者見仁,智者見智”,這取決于你是將Gemini與免費(fèi)的GPT-3.5還是付費(fèi)版GPT-4 Turbo進(jìn)行比較。

當(dāng)然,評(píng)判這樣的比賽存在主觀性因素,您可以通過查看上面的圖片庫來自己判斷結(jié)果。無論如何,我們都很有興趣看到:在不久的將來,像Gemini Ultra這樣即將推出的模型,或者可能集成OpenAI神秘Q*技術(shù)的新模型,將如何處理這些任務(wù)。(編譯/金鹿)

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港