當(dāng)前位置：人工智能實(shí)驗(yàn)室> 科技新聞 > 谷歌新版Bard硬懟ChatGPT第二輪：七大項(xiàng)目比拼，后者略勝一籌

谷歌新版Bard硬懟ChatGPT第二輪：七大項(xiàng)目比拼，后者略勝一籌
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-12-11 17:41:09 瀏覽：5260次

導(dǎo)讀：劃重點(diǎn) 1 美國(guó)知名科技博客媒體對(duì)谷歌新版Bard和OpenAI ChatGPT進(jìn)行了第二輪測(cè)試，結(jié)果顯示ChatGPT略勝一籌。 2 這場(chǎng)測(cè)試共分為七個(gè)項(xiàng)目，分別是生成原創(chuàng)的老爹笑話、寫辯論稿、解答數(shù)學(xué)應(yīng)用題、總結(jié)摘要、事實(shí)檢索、創(chuàng)意寫作以及編寫代碼。 3 在七項(xiàng)PK中，C...

劃重點(diǎn)

美國(guó)知名科技博客媒體對(duì)谷歌新版Bard和OpenAI ChatGPT進(jìn)行了第二輪測(cè)試，結(jié)果顯示ChatGPT略勝一籌。

這場(chǎng)測(cè)試共分為七個(gè)項(xiàng)目，分別是生成原創(chuàng)的老爹笑話、寫辯論稿、解答數(shù)學(xué)應(yīng)用題、總結(jié)摘要、事實(shí)檢索、創(chuàng)意寫作以及編寫代碼。

在七項(xiàng)PK中，ChatGPT險(xiǎn)勝三場(chǎng)，Bard僅勝一場(chǎng)，兩場(chǎng)平局，還有一場(chǎng)存在爭(zhēng)議。

科技新聞?dòng)?據(jù)外媒報(bào)道，今年4月，美國(guó)知名科技博客媒體Ars Technica曾策劃了一場(chǎng)聊天機(jī)器人之間的“巔峰對(duì)決”，讓谷歌剛推出的Bard與OpenAI的明星ChatGPT上演了一場(chǎng)精彩紛呈的PK大戰(zhàn)。當(dāng)時(shí)，在七個(gè)項(xiàng)目的比拼中，ChatGPT在五個(gè)項(xiàng)目中占據(jù)優(yōu)勢(shì)，盡管它當(dāng)時(shí)還只是“生成式人工智能領(lǐng)域初出茅廬的新人”。

現(xiàn)在，我們已然身處人工智能的“黃金時(shí)代”，本周谷歌推出了由大語言模型Gemini支持的新版Bard。于是乎，Ars Technica再次策劃了兩大聊天機(jī)器人巨頭第二輪交鋒。谷歌這次可是有備而來，其宣傳材料上聲稱，Gemini Ultra在“32項(xiàng)廣泛使用的學(xué)術(shù)基準(zhǔn)測(cè)試中，有30項(xiàng)優(yōu)于GPT-4”。

在這次PK中，Ars Technica的測(cè)試人員設(shè)計(jì)了一場(chǎng)“雙打比賽”：讓Gemini支持的Bard分別與ChatGPT-3.5（兩家公司目前的免費(fèi)人工智能助手產(chǎn)品）和ChatGPT-4 Turbo（OpenAI目前的頂級(jí)付費(fèi)訂閱產(chǎn)品）一較高下。而谷歌的頂級(jí)“Gemini Ultra”模型則還在摩拳擦掌，準(zhǔn)備明年再戰(zhàn)江湖。同時(shí)，測(cè)試人員還回顧了4月份初代Bard模型的表現(xiàn)，以此衡量近幾個(gè)月來谷歌取得的進(jìn)展。

雖然這些測(cè)試還只是冰山一角，但測(cè)試人員認(rèn)為它們足以成為判斷這些人工智能助手在日常任務(wù)中表現(xiàn)的一個(gè)很好的基準(zhǔn)。同時(shí)，它們也可以展示基于文本的人工智能模型在短時(shí)間內(nèi)實(shí)現(xiàn)了多大的飛躍。

以下為參與測(cè)試的七個(gè)項(xiàng)目：

1.老爹笑話

提示詞：寫5個(gè)原創(chuàng)的老爹笑話

在這次比拼中，這兩個(gè)參與測(cè)試的大語言模型（LLM）的表現(xiàn)都讓人有些失望。它們?cè)诿鎸?duì)“寫原創(chuàng)老爹笑話”這個(gè)挑戰(zhàn)時(shí)，似乎都有些力不從心。幾乎所有由這個(gè)提示生成的老爹笑話，都可以通過谷歌搜索找到原版，或者只是經(jīng)過了簡(jiǎn)單修改。Bard和ChatGPT-4 Turbo甚至給出了完全相同的笑話（關(guān)于一本反重力的書），而ChatGPT-3.5和ChatGPT-4 Turbo在兩個(gè)笑話上重疊，分別是“科學(xué)家信任原子”和“稻草人獲獎(jiǎng)”。

不過，話又說回來，大多數(shù)老爹也不一定會(huì)講特別搞笑的段子。挑選經(jīng)典老爹笑話這種事情，本來就是一種與爸爸們一樣古老的傳統(tǒng)。

在這輪比拼中，最有趣的發(fā)現(xiàn)來自ChatGPT-4 Turbo。它生成了一個(gè)關(guān)于一個(gè)名叫布萊恩的孩子以托馬斯愛迪生（Thomas Edison）的名義講述的笑話。在谷歌上搜索這個(gè)笑話并沒有出現(xiàn)太多相關(guān)重復(fù)信息，盡管它確實(shí)給出了一個(gè)幾乎相同的、關(guān)于托馬斯杰斐遜（Thomas Jefferson）的笑話，里面同樣有個(gè)名叫布萊恩的孩子。在搜索過程中，測(cè)試人員還發(fā)現(xiàn)了一個(gè)有趣的事實(shí)：國(guó)際足球明星貝利（Pelé）顯然被換成了托馬斯愛迪生。這讓人不禁想笑，誰知道呢? !

贏家：在這輪PK中，測(cè)試人員認(rèn)為Bard與ChatGPT打成了平局，因?yàn)樗麄兘o出的笑話幾乎都是非原創(chuàng)的，里面都有雙關(guān)語。

2.參數(shù)對(duì)話框

提示詞：寫一篇關(guān)于PowerPC處理器和英特爾處理器的粉絲之間的5行辯論，大約2000字符。

由Gemini支持的新版Bard肯定比初代Bard給出的答案有了很大改進(jìn)，至少在加入更多術(shù)語方面是這樣。新的答案包括偶然提到的AltiVec指令，RISC與CISC設(shè)計(jì)以及MMX技術(shù)，顯然在這場(chǎng)辯論中更有說服力。雖然初代Bard以一句令人不安的禮貌語作為結(jié)尾，但新Bard更現(xiàn)實(shí)地暗示，在要求的五行之后，爭(zhēng)論可能會(huì)永遠(yuǎn)持續(xù)下去。

在ChatGPT方面，一個(gè)相當(dāng)冗長(zhǎng)的GPT-3.5答案在GPT-4 Turbo中被簡(jiǎn)化為更簡(jiǎn)潔的論點(diǎn)。兩個(gè)GPT的回答都傾向于使用通俗易懂的語言，將注意力集中在功能與兼容性的討論上，這或許更有助于廣大受眾理解這場(chǎng)辯論的實(shí)質(zhì)。

贏家：雖然PowerPC和英特爾的粉絲們?cè)谶@場(chǎng)五行辯論中各展所長(zhǎng)，但ChatGPT憑借其簡(jiǎn)潔明了、易于理解的論述方式，成功解釋了雙方的論點(diǎn)。因此，在這場(chǎng)激烈的辯論中，ChatGPT脫穎而出。

3.數(shù)學(xué)應(yīng)用題

提示詞：如果微軟Windows 11安裝在3.5英寸軟盤上，需要多少軟盤?

與老版Bard相比，獲得Gemini支持的新版Bard取得了驚人的進(jìn)步。老版Bard給出了一個(gè)毫無意義的“15.11”軟盤的答案，而新的LLM正確地估計(jì)了Windows 11的大�。ǜ鶕�(jù)源代碼的不同大約是20 GB到30 GB)，并且計(jì)算出所需的軟盤數(shù)量，大約需要14223個(gè)1.44MB軟盤。Gemini系統(tǒng)還根據(jù)谷歌搜索進(jìn)行了“雙重檢查”，這有助于提高用戶對(duì)答案的信心。

相比之下，ChatGPT的答案略有不足。在ChatGPT-3.5中，系統(tǒng)大約在2022年1月的“知識(shí)更新”中，將Windows 11的安裝大小概括為“幾個(gè)GB”，系統(tǒng)甚至“假設(shè)”將其調(diào)至10 GB。另一方面，GPT-4 Turbo使用其大約2023年4月的知識(shí)，估計(jì)微軟操作系統(tǒng)的大小為64 GB。這似乎是從微軟聲明的最小存儲(chǔ)需求中得出的，而不是操作系統(tǒng)在新安裝時(shí)實(shí)際使用的空間。不過，它對(duì)于1GB等于多少M(fèi)B的解釋似乎有些誤解。GPT-3.5將10 GB劃分為100億字節(jié)，這與Bard使用的解釋存在差異，GPT-4 Turbo認(rèn)為1 GB = 1,024 MB。

贏家：Bard在知識(shí)和數(shù)學(xué)技能上輕松獲勝。

4.總結(jié)摘要

提示詞：用一段話概括（本文前三段文字）

新版Bard在印象分上占據(jù)了上風(fēng)，因?yàn)樗⒁獾轿谋臼莵碜訟rs Technica的一篇文章，并在顯眼的地方鏈接了一張卡片，上面有一張令人不安的威爾史密斯吃意大利面的圖片。但是新版Bard的總結(jié)去掉了老版本的一些關(guān)鍵細(xì)節(jié)，比如視頻是由十個(gè)兩秒鐘的片段拼接而成的。雖然新版Bard的總結(jié)確實(shí)在一定程度上提高了可讀性，但這是以犧牲完整性為代價(jià)的。

ChatGPT的摘要由于不夠簡(jiǎn)潔而失去了一些分?jǐn)?shù)：在156個(gè)單詞的原始文本中，ChatGPT生成的摘要縮減為99個(gè)單詞（GPT-4 Turbo）和108個(gè)單詞（GPT-3.5），而初代Bard和新版Bard分別為63和66個(gè)單詞。不過，ChatGPT的篇幅之所以更長(zhǎng)，是因?yàn)樗娴睾w了重要細(xì)節(jié)，比如媒體的反應(yīng)以及原始海報(bào)和Subreddit的名字。

贏家：盡管測(cè)試人員很喜歡Bard的原文鏈接，但他們依然認(rèn)為ChatGPT更勝一籌，因?yàn)槠浣o出了更完整的總結(jié)。

5.事實(shí)檢索

提示詞：誰發(fā)明了電子游戲?

隨著Gemini的更新，新版Bard在這個(gè)方面再次顯示出明顯的改進(jìn)。老版本專注于拉爾夫貝爾（Ralph Baer）的《棕色盒子》和馬格納沃克斯奧德賽（Magnavox Odyssey）的作品（信息似乎直接來自維基百科），而新版Bard則準(zhǔn)確而簡(jiǎn)潔地指出了威廉希金波坦（William Higinbotham）早期的《雙人網(wǎng)球》的貢獻(xiàn)。

接著，Bard從“發(fā)明”一詞擴(kuò)展到“對(duì)電子游戲早期發(fā)展做出重大貢獻(xiàn)”的人物，如諾蘭布什內(nèi)爾（Nolan Bushnell）、泰德達(dá)布尼（ Ted Dabney）和艾爾阿爾科恩（Al Alcorn）等，并提供了關(guān)于每個(gè)人的準(zhǔn)確和相關(guān)信息。不過，Bard在提到史蒂夫喬布斯（Steve Jobs）和史蒂夫沃茲尼亞克（Steve Wozniak）創(chuàng)造了Apple II的同時(shí)，卻遺漏了他們?cè)谘胚_(dá)利早期的工作經(jīng)歷。

GPT-3.5和初代Bard一樣，提到了貝爾。雖然它提到“多年來，這個(gè)行業(yè)見證了各種個(gè)人和公司的貢獻(xiàn)”，但它并沒有提到任何重要人物的名字。另一方面，GPT-4 Turbo首先指出，電子游戲“不能歸功于單個(gè)人”，并將其總結(jié)擴(kuò)展到希金波坦、布什內(nèi)爾，最重要的是它提到了史蒂夫羅素（Steve Russell）在1962年創(chuàng)造的《太空大戰(zhàn)》，它在PDP-1上運(yùn)行。

贏家：在兩個(gè)免費(fèi)版本機(jī)器人的比拼中，Bard給出了比GPT-3.5更好的答案。但如果你訂閱了GPT-4 Turbo，你會(huì)得到最好的人工智能生成答案。

6.創(chuàng)意寫作

提示詞：寫一個(gè)關(guān)于亞伯拉罕林肯（Abraham Lincoln）發(fā)明籃球的兩段創(chuàng)意故事。

雖然老版Bard因?yàn)橐恍┝钊嘶匚稛o窮的寫作而得分，比如描述林肯回憶起小時(shí)候玩游戲時(shí)微笑的表情，但因?yàn)榛卮鸬拈L(zhǎng)度超過了提示要求的兩段話，所以扣了分。同時(shí)，第一段中從伊利諾伊州突然轉(zhuǎn)移到白宮的背景描述讓人感到困惑。新版Bard保持了同樣的風(fēng)格，提出了一項(xiàng)可以團(tuán)結(jié)人們的運(yùn)動(dòng)，更加簡(jiǎn)潔和專注。

有趣的是，在Ars Technica測(cè)試中，GPT-3.5是唯一一個(gè)將林肯想象成一個(gè)年輕人而不是坐在白宮里焦躁不安的總統(tǒng)的智能模型。而GPT-4 Turbo是唯一一個(gè)明確提到林肯有“摔跤手經(jīng)歷”的模型，指出他擁有更出色的運(yùn)動(dòng)能力。

測(cè)試人員也對(duì)GPT-4 Turbo的想法很感興趣，它稱林肯實(shí)際上是從白宮花園的“一群孩子”那里竊取了投籃的概念。他們希望虛構(gòu)的“誠實(shí)的亞伯拉罕”至少能給這些孩子們留下“比他的年齡更寶貴的遺產(chǎn)”。

贏家：雖然老版Bard的故事有些明顯的不足，但所有其他模型都有其獨(dú)特的魅力和令人回味的言辭，因此這可以算是平局。

7.編寫代碼

提示詞：編寫一個(gè)Python腳本，顯示“Hello World”，然后創(chuàng)建一個(gè)隨機(jī)重復(fù)的字符串。

雖然Bard自今年6月以來已經(jīng)能夠生成代碼，谷歌也一直在吹捧Gemini能夠幫助編碼人員使用其AlphaCode 2系統(tǒng)，但該系統(tǒng)在這次測(cè)試中卻表現(xiàn)不佳。對(duì)上述提示進(jìn)行多天的反復(fù)試驗(yàn)，讓Bard停機(jī)思考了30秒左右，然后給出一個(gè)模糊的錯(cuò)誤提示：“有些事情出了問題，Bard只是實(shí)驗(yàn)性的。”至少，老版Bard坦率地承認(rèn)，它還沒有接受過編寫代碼的訓(xùn)練。

另一方面，ChatGPT在GPT-3.5和GPT-4 Turbo模型下提供了相同的代碼。簡(jiǎn)單，直接的代碼在測(cè)試中完美地工作，沒有經(jīng)過任何額外編輯就通過了測(cè)試。

最后贏家：ChatGPT，但優(yōu)勢(shì)不是很明顯

在對(duì)新老兩個(gè)版本的Bard進(jìn)行比較時(shí)，谷歌人工智能生成的輸出質(zhì)量有了明顯的進(jìn)步。在本文的數(shù)學(xué)、總結(jié)、事實(shí)檢索和創(chuàng)意寫作提示中，谷歌的系統(tǒng)在距離上次測(cè)試后的八個(gè)月里表現(xiàn)出了顯著的進(jìn)步。

不過，總的來說，ChatGPT在非科學(xué)測(cè)試中仍然是贏家。OpenAI的系統(tǒng)在三場(chǎng)比試中險(xiǎn)勝Bard，而Bard只勝出了一常但兩種聊天機(jī)器人的表現(xiàn)與4月份時(shí)相比要接近得多，測(cè)試人員認(rèn)為有兩場(chǎng)比拼是平局，還有一場(chǎng)PK是“仁者見仁，智者見智”，這取決于你是將Gemini與免費(fèi)的GPT-3.5還是付費(fèi)版GPT-4 Turbo進(jìn)行比較。

當(dāng)然，評(píng)判這樣的比賽存在主觀性因素，您可以通過查看上面的圖片庫來自己判斷結(jié)果。無論如何，我們都很有興趣看到：在不久的將來，像Gemini Ultra這樣即將推出的模型，或者可能集成OpenAI神秘Q*技術(shù)的新模型，將如何處理這些任務(wù)。（編譯/金鹿）