展會信息港展會大全

谷歌OpenAI大模型巔峰對決!Gemini激戰(zhàn)GPT-4,數(shù)學代碼卻慘遭碾壓
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-12-09 17:47:19   瀏覽:6644次  

導讀:新智元報道 編輯:Aeneas 好困 【新智元導讀】大模型巔峰對決開啟,Gemini和GPT-4展開大pk!代碼和數(shù)學Gemini慘遭GPT-4碾壓,但要論講笑話和寫作,它的答案卻意外的好笑。 被谷歌寄予厚望的復(fù)仇殺器Gemini,是否能夠如愿單挑ChatGPT? 最近幾天,外媒記者和...

新智元報道

編輯:Aeneas 好困

【新智元導讀】大模型巔峰對決開啟,Gemini和GPT-4展開大pk!代碼和數(shù)學Gemini慘遭GPT-4碾壓,但要論講笑話和寫作,它的答案卻意外的好笑。

被谷歌寄予厚望的復(fù)仇殺器Gemini,是否能夠如愿單挑ChatGPT?

最近幾天,外媒記者和網(wǎng)友們紛紛放出實測,比較了Gemini Pro加持的新Bard與GPT-3.5和GPT-4的各項性能。

先說結(jié)果ChatGPT略勝一籌,但Gemini進步巨大。

雖然宣傳手段有一些夸大的成分,但谷歌確實靠Gemini在LLM大戰(zhàn)中挽回了一些頹勢。

而且,現(xiàn)在雙方都還捂著殺手锏沒有放出來,真正的巔峰對決,恐怕要等Gemini Ultra或者集成了OpenAI神秘Q*技術(shù)的新模型出場后了。

超大杯還沒來,大杯臨時頂上

需要強調(diào)的是,此次出戰(zhàn)的選手Gemini Pro只是「二弟」,因為號稱「在32個廣泛使用的學術(shù)基準測試中擊敗GPT-4」的老大哥Gemini Ultra還未放出。

而且,由于目前只有純文本提示用上了Gemini Pro。

所以,Bard暫時還沒有得到加持的圖像理解能力,依然很拉跨……

來源:馬里蘭大學博士生Fuxiao Liu

頂級模型的內(nèi)卷

早在4月,就有許多人做過PaLM支持的Bard和GPT-4的pk,當時的結(jié)果是GPT-4七局五勝,略勝Bard一籌。

這次對決中,也考慮進了Bard在四月的結(jié)果,因此可以用來衡量幾個月來谷歌的進步速度。

這些測試雖不夠全面,但也提供了一個很好的基準,可以用來判斷這些AI聊天助手在普通用戶日常任務(wù)中的表現(xiàn)。

話不多說,現(xiàn)在開始!

代碼編程

既然谷歌這次大吹特吹了全新的AlphaCode 2,那我們首先就來看看它們的編程水平如何。

題目:Write a Python script that says "Hello World," then creates a random repeating string of characters endlessly.

編寫一個Python腳本,在其中輸入「Hello World」,然后不停地隨機創(chuàng)建一個重復(fù)字符串。

PaLM Bard的答案:

首先,初代的Bard非常簡陋,并不能生成代碼。

不過,谷歌后來在6月的時候,給它加上了這個功能。(但并沒有針對這個題目進行過測試)

Gemini Pro Bard的答案:

可以看到,新版Bard生成的代碼沒什么大問題,但需要在前面添加一個import string才能運行。

好在,這個bug很容易解決。

然而,不知道是因為好奇網(wǎng)友太多導致負荷超載,還是系統(tǒng)本身就不穩(wěn)定。

針對這道題,Bard在大部分時候都會先「沉默」30秒,然后返回錯誤提示:「抱歉,出了點岔子,Bard目前還處在試驗階段」。

GPT-3.5的答案:

GPT-4的答案:

相比之下,不管是GPT-3.5還是GPT-4 Turbo,都提供了非常簡潔,而且可以直接跑通的代碼。

獲勝方:毫無疑問,這一輪是ChatGPT陣營大獲全勝。

數(shù)學應(yīng)用

接下來,就是次次都能難倒一片大模型的數(shù)學題了。

題目:If Microsoft Windows 11 shipped on 3.5" floppy disks, how many floppy disks would it take?

如果使用3.5英寸軟盤來安裝Windows 11,需要多少張?

PaLM Bard的答案:

可以看到,初代Bard給出了非常離譜的答案。

先不管Win11有沒有21個GB,就算有,15.11張軟盤也裝不下吧……

Gemini Pro Bard的答案:

到了新版Gemini Bard這里,3472這個結(jié)果顯然是把1GB當成了1000MB去算的。

然而,即便是按照1000MB去算,計算直接得到的3472.2…也應(yīng)該進一位變成3273。

畢竟,多出的那些數(shù)據(jù),顯然是不能被「四舍五入」掉的。

GPT-3.5的答案:

GPT-3.5這邊也是類似,首先推測Win11安裝包的大小為「幾GB」,然后四舍五入到20GB。

最后,按照「1GB=1000MB」去算的答案,并且把多出的0.88…張盤也給舍掉了。

GPT-4的答案:

相比之下,只有GPT-4正確地使用了「1GB=1024MB」,并且將結(jié)果中的3555.5…進了一位變成35556。

從結(jié)果來看,Gemini Pro加持的Bard和GPT-3.5半斤八兩,而GPT-4不僅邏輯清晰而且還在計算中利用「Analysis」保證了答案的正確性。

考慮到Gemini Pro在評測跑分上要比GPT-3.5高了不少,這個結(jié)果多少有些令人失望。

獲勝方:谷歌和OpenAI的免費版模型可謂是「旗鼓相當」,而付費版的GPT-4則憑借著壓倒性的優(yōu)勢取勝。

老爹笑話

原創(chuàng)性方面的測試題目是:Write 5 original dad jokes。

寫5個原創(chuàng)的dad jokes。

Dad Jokes(老爹笑話)是一種中年男人愛講的笑話,簡單幼稚、無聊、莫名奇妙,并且包含雙關(guān)的諧音梗,屬于無厘頭的冷笑話。無聊到女兒聽到時,常常會給老爸一個白眼。

不過下面的答案因為是從英文翻譯來的緣故,中文翻譯會丟失一些諧音梗的趣味性。

PaLM Bard的答案:

1. 我曾經(jīng)是一名銀行家,但我失去了興趣。

2. 我徹夜未眠,想看看太陽去了哪里,但后來我恍然大悟。

3. 我看到一個酒鬼在吃葡萄。我問他是否要喝它們,他說:「不,我只是去摘葡萄!

4. 我曾經(jīng)為雞經(jīng)營過約會服務(wù),但我很難讓母雞們互相見面。

5. 我看到一只蝸牛背上背著一片生菜。我問他在做什么,他說:「我正在努力搶占先機!

Gemini Pro Bard的答案:

1.水牛的兒子去上大學,它會說什么?「野牛9

2.我以前對肥皂上癮,但我現(xiàn)在干凈了。

3.沒有眼睛的魚(Fish)叫什么?「噓(Fsh)9

4.我正在讀一本關(guān)于反重力的書,根本不可能把它放下!

5.你聽說過患有幽閉恐懼癥的宇航員嗎?「他只是需要一點空間!

GPT-3.5的答案:

1. 為什么科學家不相信原子?因為它們構(gòu)成(虛構(gòu))了一切!

2. 我只認識25個字母。我不認識y(你)。

3. 假意大利面應(yīng)該怎么叫?Impasta。

4. 稻草人為何獲獎?因為他在自己的領(lǐng)域里很出色!

5. 企鵝如何建造它的房子?Igloos起來!

GPT-4的答案:

1. 為什么科學家不相信原子?因為它們構(gòu)成(虛構(gòu))了一切!

2. 我告訴我兒子我是以Thomas Edison的名字命名的。他說:「但是爸爸,你叫布Biran。」我回答說:「沒錯,我是在Thomas Edison之后起名字的9

3. 稻草人為什么獲獎?因為他在自己的領(lǐng)域表現(xiàn)出色!

4. 我正在讀書 一本關(guān)于反重力的書。根本不可能把它放下!

5. 你聽說過那個害怕負數(shù)的數(shù)學家嗎?他會不惜一切代價避免負數(shù)。

這個問題的精髓,就在于回答中的原創(chuàng)性。

但不管是Bard還是ChatGPT,給出答案幾乎都可以通過谷歌搜索找到,或者就是模型在原答案的基礎(chǔ)上,進行了一些小的改寫。

而且,Bard和GPT-4有一個答案重了(關(guān)于反重力的書),GPT-3.5和GPT-4則有兩個笑話重復(fù)了(「科學家相信原子」和「稻草人獲獎」)。

最有趣的答案來自GPT-4,它講的笑話里說,一個名叫Brian的孩子是以Thomas Edison命名的。谷歌沒有搜到相同的笑話,但是搜到一個類似的Thomas Jefferson的孩子名叫Brian的笑話。

獲勝方:這一輪可以視為平局。因為AI們寫出的笑話幾乎都不是原創(chuàng)的……

事實檢索

問題:Who invented video games?

誰發(fā)明了電子游戲?

PaLM Bard的答案:

初代Bard答案中,「Ralph Baer的Brown Box和Magnavox Odyssey」的信息似乎是直接從維基百科中找到的。

Gemini Pro Bard的答案:

相比之下,新版Gemini Bard不僅簡潔而準確地指出了William Higinbotham早期的「Tennis for Two」的貢獻。

而且,還擴展到對電子游戲早期發(fā)展做出重大貢獻的人,比如Nolan Bushnell、Ted Dabney和Al Alcorn,提供的人物信息也是準確且相關(guān)的。

不過后面的回答不夠完美:它沒有提Steve Jobs和Steve Wozniak在Atari的工作,反而對他們創(chuàng)造Apple II進行了一些不合邏輯的討論。

GPT-3.5的答案:

而GPT-3.5雖然提到「多年個人和公司都為該行業(yè)做出了貢獻」,卻沒有說出任何重要人物的名字。

GPT-4的答案:

GPT-4則表示,電子游戲的發(fā)明「不能歸因于某個人」,然后提到了Higinbotham、Bushnell,以及Steve Russell 1962年創(chuàng)作的《太空戰(zhàn)爭》。

獲勝方:在免費版模型里,Bard的答案比GPT-3.5更好。但要說最佳答案,還得看付費版的GPT-4。

創(chuàng)意寫作

問題:Write a two-paragraph creative story about Abraham Lincoln inventing basketball.

寫一篇關(guān)于亞伯拉罕林肯發(fā)明籃球的兩個段落的創(chuàng)意故事。

PaLM Bard的答案:

初代Bard在寫作中,包含了一些令人回味的語句,比如「林肯對自己微笑,因為他記得小時候玩過那樣的游戲」。

Gemini Pro Bard的答案:

相比而言,Gemini Bard的寫作更見簡潔和專注主題。

然而,兩個版本的Bard,都沒有按要求分成兩個段落。

GPT-3.5的答案:

GPT-3.5的表現(xiàn)頗有亮點,它是唯一一個將林肯想象成年輕人而不是坐在白宮里焦躁不安的總統(tǒng)形象的模型。

GPT-4的答案:

而GPT-4是唯一一個明確提及林肯摔跤手經(jīng)歷的模型,而不是泛泛地說他有運動能力。

更有趣的是,GPT-4的故事中,林肯是從白宮花園里的一群孩子那里,偷來了把球扔進籃筐這個概念。

獲勝方:所有模型的寫作都有其獨特的魅力和令人回味的句子,算是一場平局。

辯論對話

題目:Write a 5-line debate between a fan of PowerPC Processors and a fan of Intel Processors, circa 2000.

寫一篇2000年左右PowerPC處理器愛好者和Intel處理器愛好者之間的5行辯論。

PaLM Bard的答案:

Gemini Pro Bard的答案:

可以看出,新版Gemini Bard對初代Bard的答案進行了改進,尤其是在技術(shù)術(shù)語的選擇上。

這些答案中包含AltiVec指令、RISC與CISC設(shè)計、MMX技術(shù),放在2000年的Ars論壇討論中并不違和。

GPT-3.5的答案:

GPT-4的答案:

不過,ChatGPT顯然表現(xiàn)更優(yōu)。GPT-3.5的答案冗長,但GPT-4中就簡化為更短小精辟的論點。

二者的響應(yīng)中,都避免了令普通受眾感到艱澀的術(shù)語,更關(guān)注普遍的「功能與兼容性」論點。不足之處可能是對于對于技術(shù)受眾來說太泛泛。

獲勝方:ChatGPT成功地復(fù)刻了辯論雙方的觀點,而不是依賴于令人困惑的術(shù)語,因此ChatGPT獲勝。

ChatGPT更勝一籌,但差距在縮小

可以看到,在數(shù)學、摘要、事實查找和創(chuàng)意寫作等測試中,基于Gemini的新版Bard相較于8個月之前,都表現(xiàn)出了顯著的進步。

雖然根據(jù)以上非常主觀的評測,ChatGPT依然占據(jù)上風。

但與今年四月的情況相比,雙方的差距已經(jīng)縮小了很多。

最后,我們很期待看到,像Gemini Ultra或者可能融合了OpenAI神秘的Q*技術(shù)的新模型,將如何在不久的將來應(yīng)對這些任務(wù)。

參考資料:

https://arstechnica.com/ai/2023/12/chatgpt-vs-google-bard-round-2-how-does-the-new-gemini-model-fare/

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港