展會(huì)信息港展會(huì)大全

七大標(biāo)準(zhǔn)對(duì)比Gemini和ChatGPT,誰(shuí)是AI No.1?
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-12-11 17:38:11   瀏覽:3931次  

導(dǎo)讀:谷歌Gemini大模型和OpenAI的GPT誰(shuí)更出色?Gemini相比谷歌之前的模型有了多大進(jìn)步? 目前,公司自己吹噓能吊打GPT-4的Gemini Ultra還得等明年才能上線,但谷歌Bard聊天機(jī)器人已經(jīng)換上了低配版本Gemini Pro(對(duì)標(biāo)GPT-3.5)。 科技評(píng)論網(wǎng)站ARS TECHNICA,讓Gemn...

谷歌Gemini大模型和OpenAI的GPT誰(shuí)更出色?Gemini相比谷歌之前的模型有了多大進(jìn)步?

目前,公司自己吹噓能吊打GPT-4的Gemini Ultra還得等明年才能上線,但谷歌Bard聊天機(jī)器人已經(jīng)換上了低配版本Gemini Pro(對(duì)標(biāo)GPT-3.5)。

科技評(píng)論網(wǎng)站ARS TECHNICA,讓Gemni Pro、GPT-3.5和GPT-4在數(shù)學(xué)、編程、文本生成等方面進(jìn)行了一次全面PK,同時(shí)還附上了4月份對(duì)舊版本Bard(運(yùn)行PaLM 2模型)的測(cè)試結(jié)果,來(lái)展現(xiàn)谷歌Bard取得的進(jìn)步,并展現(xiàn)了這些AI助手到底哪一個(gè)對(duì)普通人的工作效率提升最大。

結(jié)果顯示,雖然有了Gemini Pro的加持,但谷歌Bard聊天機(jī)器人在大部分項(xiàng)目上還是打不過(guò)ChatGPT。不過(guò)相比8個(gè)月前的舊版Bard,已經(jīng)有了質(zhì)的飛躍。

第一題 幽默

prompt:寫(xiě)5個(gè)原創(chuàng)冷笑話

(從上至下分別為Gemini Pro、舊版Bard、GPT-4和GPT-3.5的回答)

從答案來(lái)看,幾個(gè)AI大模型的笑話在“原創(chuàng)性”上全軍覆沒(méi)。經(jīng)作者查證,所有生成的冷笑話都可以在網(wǎng)上查到,或者只是稍微改動(dòng)了幾個(gè)字。

Gemini和ChatGPT-4 寫(xiě)出了一模一樣的笑話“我手里有本講反重力的書(shū),我根本沒(méi)法把它放下來(lái)”。而GPT-3.5 和GPT-4也有兩個(gè)笑話重復(fù)了。

PK結(jié)果:平局

第二題 辯論

prompt:寫(xiě)一篇PowerPC處理器擁躉與英特爾處理器擁躉之間的5行辯論發(fā)言,時(shí)間約為2000年

相比舊版Bard, Gemini Pro進(jìn)步明顯,至少多了很多行業(yè)術(shù)語(yǔ),比如AltiVec 指令、RISC 與CISC設(shè)計(jì)以及 MMX 技術(shù),這在那個(gè)時(shí)代的許多技術(shù)論壇討論中都不會(huì)顯得突兀。

而且,Gemini Pro雖然只按要求列出五行,但所撰寫(xiě)的辯論內(nèi)容還可以一直延續(xù)下去。而舊版Bard則直接第五行收尾了。

相比之下,GPT系列生成的回答都沒(méi)有使用太多專業(yè)術(shù)語(yǔ),而把重點(diǎn)放在“功率與兼容性”上,對(duì)非技術(shù)極客來(lái)說(shuō),GPT系列的論點(diǎn)更容易理解。不過(guò),GPT-3.5的回答相當(dāng)冗長(zhǎng),GPT-4的論證相比之下更加簡(jiǎn)明扼要。

PK結(jié)果:GPT勝出

第三題 數(shù)學(xué)

prompt:如果用3.5英寸軟盤(pán)來(lái)安裝微軟Win 11,一共需要多少?gòu)堒洷P(pán)?

舊版 Bard 給出的答案是“15.11張”,這是一個(gè)完全錯(cuò)誤的答案。而Gemini則正確估計(jì)了 Windows 11 的安裝大。20 至 30GB,并按照20GB的估計(jì)值正確計(jì)算出需要14223張1.44MB 軟盤(pán)。Gemini還根據(jù)谷歌搜索進(jìn)行了“雙重檢查”,有助于增強(qiáng)用戶對(duì)答案的信心。

相比之下,ChatGPT就顯得有些力不從心了。在ChatGPT-3.5把Win 11的大小錯(cuò)誤估算成了10個(gè)G,另一方面,GPT-4也估算成了錯(cuò)誤的64GB(這似乎是最低存儲(chǔ)空間要求,而不是操作系統(tǒng)在安裝時(shí)實(shí)際使用的空間)。

PK結(jié)果:谷歌勝出

第四題 總結(jié)段落

promp:總結(jié)一段關(guān)于AI監(jiān)管的文章

Gemini Pro生成的文章十分簡(jiǎn)潔,并且給出了引文的鏈接。但它的總結(jié)似乎過(guò)于簡(jiǎn)潔了,甚至刪除了舊版Bard原來(lái)有的一些關(guān)鍵細(xì)節(jié),比如視頻是由十個(gè)兩秒鐘的片段拼接而成的。雖然改寫(xiě)在一定程度上提高了可讀性,但卻犧牲了完整性。

ChatGPT的摘要因?yàn)椴粔蚝?jiǎn)潔而丟了一些分:生成的摘要從 99 個(gè)字(GPT-4)到 108 個(gè)字(GPT-3.5)不等,而谷歌新舊版Bard的摘要分別只有 63 到 66 個(gè)字。

不過(guò),ChatGPT總結(jié)了更多重要的細(xì)節(jié),如媒體的反應(yīng)、原發(fā)帖人的名字和subreddit等,而這些都被Gemini忽略了。

PK結(jié)果:GPT勝

第五題 事實(shí)檢索

prompt:誰(shuí)發(fā)明了電子游戲?

Bard 在道題上又有了重大改進(jìn)。舊版Bard 只關(guān)注 Ralph Baer 的Brown Box和 Magnavox Odyssey 作品(信息似乎直接摘自維基百科),而新版 Gemini Pro則準(zhǔn)確而簡(jiǎn)潔地指出了 William Higinbotham早先“雙人網(wǎng)球”的貢獻(xiàn)。

隨后, Gemini又從“發(fā)明”擴(kuò)展到了諾蘭布什內(nèi)爾、特德達(dá)布尼和阿爾科恩等“對(duì)電子游戲的早期發(fā)展做出了重大貢獻(xiàn)”的人物,并提供了關(guān)于每個(gè)人的基本準(zhǔn)確的相關(guān)信息。

不過(guò),緊接著Gemini又對(duì)蘋(píng)果的兩位創(chuàng)始人喬布斯和沃茲尼亞克的工作進(jìn)行了一番胡扯,卻沒(méi)有提及他們?cè)缒暝谟螒蚬狙胚_(dá)利公司的工作。

GPT-3.5 和舊版 Bard 一樣,也是以 Ralph Baer 為中心。雖然它提到“多年來(lái),不同的個(gè)人和公司都為該行業(yè)做出了貢獻(xiàn)”,但沒(méi)有提及這些重要人物的名字。

而GPT-4首先指出電子游戲的發(fā)明“不能歸功于某一個(gè)人”,并將其總結(jié)擴(kuò)展到希金博瑟姆、布什內(nèi)爾,以及至關(guān)重要的史蒂夫拉塞爾 1962 年在 PDP-1 上創(chuàng)造的《太空大戰(zhàn)》。

PK結(jié)果:GPT勝(但Gemini表現(xiàn)比GPT-3.5更好)

第六題:創(chuàng)意寫(xiě)作

prompt:寫(xiě)兩段關(guān)于林肯發(fā)明籃球的虛構(gòu)故事。

舊版Bard的寫(xiě)作很出色,但遺憾的是篇幅嚴(yán)重超出要求,有太多冗長(zhǎng)的句子。Gemini Pro相比之下寫(xiě)得更加簡(jiǎn)潔,重點(diǎn)更加突出。而GPT寫(xiě)的故事也都有其獨(dú)特的魅力和令人回味的語(yǔ)句。

PK結(jié)果:平局

第七題 代碼能力

prompt:編寫(xiě)一個(gè) Python 腳本,在其中輸入“Hello World”,然后無(wú)休止地創(chuàng)建一個(gè)隨機(jī)重復(fù)字符串。

雖然Bard從6月份開(kāi)始就能生成代碼,谷歌也曾吹噓Gemini的AlphaCode 2系統(tǒng)能夠幫助程序員,但這次測(cè)試讓人大跌眼鏡。

Gemini一直給出“信息可能有誤,無(wú)法生成”的回復(fù)。如果堅(jiān)持要求它生成代碼,則會(huì)干脆宕機(jī),并“提示Bard仍在實(shí)驗(yàn)中”。

與此同時(shí),GPT-3.5 和 GPT-4模型下生成了相同的代碼。這些簡(jiǎn)單明了的代碼無(wú)需任何編輯就能完美運(yùn)行,順利通過(guò)試用。

PK結(jié)果:GPT勝

最終,在七項(xiàng)測(cè)試中,GPT取得了4勝1負(fù)2平的碾壓式勝利。但我們也能看到,谷歌AI大模型生成的結(jié)果,在質(zhì)量上有了明顯的進(jìn)步。在數(shù)學(xué)、總結(jié)信息、事實(shí)檢索和創(chuàng)意寫(xiě)作測(cè)試,配備Gemini的Bard都比8個(gè)月前有了顯著飛躍。

當(dāng)然,評(píng)判這樣的比賽有一定的主觀性。具體孰優(yōu)孰劣還需要更全面、更詳盡的測(cè)試。無(wú)論如何,至少,以谷歌目前展現(xiàn)出來(lái)的實(shí)力來(lái)看,即將推出的Gemini Ultra勢(shì)必會(huì)成為GPT-4的有力競(jìng)爭(zhēng)對(duì)手。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港