展會(huì)信息港展會(huì)大全

國(guó)內(nèi)大模型與GPT-4較高下:語(yǔ)言知識(shí)能力接近,復(fù)雜推理仍是短板
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-01-31 07:17:49   瀏覽:7625次  

導(dǎo)讀:1月30日,上海人工智能實(shí)驗(yàn)室發(fā)布了大模型開源開放評(píng)測(cè)體系司南(OpenCompass2.0),同時(shí)在對(duì)部分主流大模型評(píng)測(cè)診斷的基礎(chǔ)上,揭曉了年度大模型評(píng)測(cè)榜單,提到了國(guó)內(nèi)大模型的優(yōu)勢(shì)與短板。 根據(jù)評(píng)測(cè),復(fù)雜推理相關(guān)能力是大模型普遍面臨的難題,國(guó)內(nèi)大模型相...

1月30日,上海人工智能實(shí)驗(yàn)室發(fā)布了大模型開源開放評(píng)測(cè)體系司南(OpenCompass2.0),同時(shí)在對(duì)部分主流大模型評(píng)測(cè)診斷的基礎(chǔ)上,揭曉了年度大模型評(píng)測(cè)榜單,提到了國(guó)內(nèi)大模型的優(yōu)勢(shì)與短板。

根據(jù)評(píng)測(cè),復(fù)雜推理相關(guān)能力是大模型普遍面臨的難題,國(guó)內(nèi)大模型相比于GPT-4還存在差距,這是大模型在金融、工業(yè)等要求可靠的場(chǎng)景落地需要的關(guān)鍵能力。不過(guò),在中文場(chǎng)景下國(guó)內(nèi)最新的大模型已展現(xiàn)出獨(dú)特優(yōu)勢(shì),尤其在語(yǔ)言、知識(shí)維度上接近GPT-4 Turbo的水平。

在客觀評(píng)測(cè)能力排行上,整體來(lái)看大語(yǔ)言模型整體能力仍有較大提升空間。在百分制的客觀評(píng)測(cè)基準(zhǔn)中,GPT-4 Turbo(升級(jí)版GPT-4)在各項(xiàng)評(píng)測(cè)中均獲最佳表現(xiàn),也僅達(dá)到61.8分的及格水平。

OpenCompass2.0的分析結(jié)果顯示,不少國(guó)內(nèi)廠商近期新發(fā)布的模型在多個(gè)能力維度上正在快速縮小與GPT-4 Turbo的差距,包括智譜清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名較為靠前,反映了這些新模型具有較為均衡和全面的性能。

值得一提的是,此次大模型排行并未納入所有大模型企業(yè),各家迭代版本時(shí)間不盡相同。上海人工智能實(shí)驗(yàn)室方面表示,更多企業(yè)在陸續(xù)發(fā)布新的大模型,一些企業(yè)近期也有發(fā)布新版本的計(jì)劃,所有這些新的大模型會(huì)進(jìn)入下一期榜單上。

根據(jù)客觀評(píng)測(cè)結(jié)果,部分大模型分?jǐn)?shù)與GPT-4 Turbo已接近,但這并不意味著國(guó)內(nèi)大模型與GPT-4 Turbo差距很校上海人工智能實(shí)驗(yàn)室青年科學(xué)家陳愷對(duì)第一財(cái)經(jīng)解釋,分?jǐn)?shù)是由不同的維度組合而來(lái),國(guó)內(nèi)的大模型和GPT-4 Turbo在不同的維度上表現(xiàn)并不一樣,有些維度如知識(shí)、語(yǔ)言上可能打得有來(lái)有回,有些維度如推理上還存在著一定的差距,評(píng)測(cè)本身也會(huì)有局限性。

“出什么樣的題目去考察知識(shí)邊界會(huì)有區(qū)別,如果都出競(jìng)賽題,可能一個(gè)0分一個(gè)100分,出高考題那可能就是一個(gè)80分,一個(gè)90分。”陳愷表示,評(píng)測(cè)是一個(gè)整體普適性的比較,作為一個(gè)綜合評(píng)測(cè)在難度上會(huì)相對(duì)平衡,雖然國(guó)內(nèi)大模型與GPT-4的差距在縮小,但也不能忽視我們?cè)趶?fù)雜推理場(chǎng)景有大的進(jìn)步空間。

從具體指標(biāo)來(lái)看各個(gè)大模型的能力或許更為全面。OpenCompass2.0有客觀評(píng)測(cè)和主觀評(píng)測(cè),大致類似考試中的客觀題與主觀題,總體上從語(yǔ)言、知識(shí)、創(chuàng)作、推理、數(shù)學(xué)、代碼、智能體等方面對(duì)大模型的能力進(jìn)行評(píng)測(cè),在圖中能力項(xiàng)顏色條越長(zhǎng)代表能力越高。

評(píng)測(cè)顯示,推理、數(shù)學(xué)、代碼、智能體是國(guó)內(nèi)大模型的短板。GPT-4 Turbo在涉及復(fù)雜推理的場(chǎng)景雖然亦有提升空間,但已明顯領(lǐng)先于國(guó)內(nèi)的商業(yè)模型和開源模型。國(guó)內(nèi)大模型要整體趕超GPT-4 Turbo等國(guó)際頂尖的大模型,在復(fù)雜推理、可靠地解決復(fù)雜問(wèn)題等方面,仍需下大功夫。

復(fù)雜推理會(huì)如何影響大模型的能力?上海人工智能實(shí)驗(yàn)室領(lǐng)軍科學(xué)家林達(dá)華對(duì)第一財(cái)經(jīng)介紹,這關(guān)系到落地應(yīng)用時(shí)大模型的可靠性,例如在金融這樣的場(chǎng)景下不能在數(shù)字上有差錯(cuò),會(huì)對(duì)數(shù)學(xué)上的可靠性有較高的要求。另外隨著大模型進(jìn)入商用,若要分析一家公司的財(cái)報(bào),甚至是工業(yè)領(lǐng)域要去分析一些技術(shù)文檔,這時(shí)數(shù)學(xué)方面的計(jì)算能力就會(huì)成為一個(gè)壁壘。

“現(xiàn)在很多大模型的應(yīng)用場(chǎng)景是客服、聊天等等,在聊天場(chǎng)景一本正經(jīng)胡說(shuō)八道影響不太大,但它很難在非常嚴(yán)肅的商業(yè)場(chǎng)合去落地。”林達(dá)華表示。

在與GPT-4 Turbo的比較中,國(guó)內(nèi)大模型也有一些優(yōu)勢(shì),如在主觀評(píng)測(cè)中,國(guó)內(nèi)模型在中文場(chǎng)景下相比海外模型具有性能優(yōu)勢(shì),在中文語(yǔ)言理解、中文知識(shí)和中文創(chuàng)作上,國(guó)內(nèi)商業(yè)模型相比GPT-4 Turbo具有極強(qiáng)的競(jìng)爭(zhēng)力,甚至部分模型實(shí)現(xiàn)了部分維度上對(duì)GPT-4 Turbo的超越。

作為大模型的評(píng)測(cè)體系,OpenCompass于2023年7月推出,是Meta官方推薦的四個(gè)能力評(píng)測(cè)工具之一,且是其中唯一由中國(guó)機(jī)構(gòu)開發(fā)的評(píng)測(cè)工具。林達(dá)華介紹,評(píng)測(cè)體系借鑒的是高考的經(jīng)驗(yàn),評(píng)測(cè)時(shí)這些模型題目并未公開,會(huì)避免一些模型對(duì)著題目“刷題”從而存在作弊現(xiàn)象,最后高考成績(jī)某種意義上是相對(duì)較公允的評(píng)價(jià)。到榜單發(fā)布時(shí),會(huì)將這一期榜單的題目公開,這樣相關(guān)各方可以驗(yàn)證評(píng)測(cè)的分?jǐn)?shù)。

林達(dá)華認(rèn)為,關(guān)于評(píng)測(cè),排名可能并不是最需要關(guān)注的,在榜單上一時(shí)的排名高或低并不能真正反映大模型的能力,評(píng)測(cè)的真正價(jià)值是幫助機(jī)構(gòu)和企業(yè)發(fā)現(xiàn)自家大模型進(jìn)一步需要努力的方向。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港