宝贝扒开下面自慰给我看,无码在线观看精品一区二区

國(guó)內(nèi)大模型與GPT-4較高下：語(yǔ)言知識(shí)能力接近，復(fù)雜推理仍是短板

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-01-31 07:17:49 瀏覽：7625次

導(dǎo)讀：1月30日，上海人工智能實(shí)驗(yàn)室發(fā)布了大模型開源開放評(píng)測(cè)體系司南（OpenCompass2.0），同時(shí)在對(duì)部分主流大模型評(píng)測(cè)診斷的基礎(chǔ)上，揭曉了年度大模型評(píng)測(cè)榜單，提到了國(guó)內(nèi)大模型的優(yōu)勢(shì)與短板。根據(jù)評(píng)測(cè)，復(fù)雜推理相關(guān)能力是大模型普遍面臨的難題，國(guó)內(nèi)大模型相...

1月30日，上海人工智能實(shí)驗(yàn)室發(fā)布了大模型開源開放評(píng)測(cè)體系司南（OpenCompass2.0），同時(shí)在對(duì)部分主流大模型評(píng)測(cè)診斷的基礎(chǔ)上，揭曉了年度大模型評(píng)測(cè)榜單，提到了國(guó)內(nèi)大模型的優(yōu)勢(shì)與短板。

根據(jù)評(píng)測(cè)，復(fù)雜推理相關(guān)能力是大模型普遍面臨的難題，國(guó)內(nèi)大模型相比于GPT-4還存在差距，這是大模型在金融、工業(yè)等要求可靠的場(chǎng)景落地需要的關(guān)鍵能力。不過(guò)，在中文場(chǎng)景下國(guó)內(nèi)最新的大模型已展現(xiàn)出獨(dú)特優(yōu)勢(shì)，尤其在語(yǔ)言、知識(shí)維度上接近GPT-4 Turbo的水平。

在客觀評(píng)測(cè)能力排行上，整體來(lái)看大語(yǔ)言模型整體能力仍有較大提升空間。在百分制的客觀評(píng)測(cè)基準(zhǔn)中，GPT-4 Turbo（升級(jí)版GPT-4）在各項(xiàng)評(píng)測(cè)中均獲最佳表現(xiàn)，也僅達(dá)到61.8分的及格水平。

OpenCompass2.0的分析結(jié)果顯示，不少國(guó)內(nèi)廠商近期新發(fā)布的模型在多個(gè)能力維度上正在快速縮小與GPT-4 Turbo的差距，包括智譜清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名較為靠前，反映了這些新模型具有較為均衡和全面的性能。

值得一提的是，此次大模型排行并未納入所有大模型企業(yè)，各家迭代版本時(shí)間不盡相同。上海人工智能實(shí)驗(yàn)室方面表示，更多企業(yè)在陸續(xù)發(fā)布新的大模型，一些企業(yè)近期也有發(fā)布新版本的計(jì)劃，所有這些新的大模型會(huì)進(jìn)入下一期榜單上。

根據(jù)客觀評(píng)測(cè)結(jié)果，部分大模型分?jǐn)?shù)與GPT-4 Turbo已接近，但這并不意味著國(guó)內(nèi)大模型與GPT-4 Turbo差距很校上海人工智能實(shí)驗(yàn)室青年科學(xué)家陳愷對(duì)第一財(cái)經(jīng)解釋，分?jǐn)?shù)是由不同的維度組合而來(lái)，國(guó)內(nèi)的大模型和GPT-4 Turbo在不同的維度上表現(xiàn)并不一樣，有些維度如知識(shí)、語(yǔ)言上可能打得有來(lái)有回，有些維度如推理上還存在著一定的差距，評(píng)測(cè)本身也會(huì)有局限性。

“出什么樣的題目去考察知識(shí)邊界會(huì)有區(qū)別，如果都出競(jìng)賽題，可能一個(gè)0分一個(gè)100分，出高考題那可能就是一個(gè)80分，一個(gè)90分。”陳愷表示，評(píng)測(cè)是一個(gè)整體普適性的比較，作為一個(gè)綜合評(píng)測(cè)在難度上會(huì)相對(duì)平衡，雖然國(guó)內(nèi)大模型與GPT-4的差距在縮小，但也不能忽視我們?cè)趶?fù)雜推理場(chǎng)景有大的進(jìn)步空間。

從具體指標(biāo)來(lái)看各個(gè)大模型的能力或許更為全面。OpenCompass2.0有客觀評(píng)測(cè)和主觀評(píng)測(cè)，大致類似考試中的客觀題與主觀題，總體上從語(yǔ)言、知識(shí)、創(chuàng)作、推理、數(shù)學(xué)、代碼、智能體等方面對(duì)大模型的能力進(jìn)行評(píng)測(cè)，在圖中能力項(xiàng)顏色條越長(zhǎng)代表能力越高。

評(píng)測(cè)顯示，推理、數(shù)學(xué)、代碼、智能體是國(guó)內(nèi)大模型的短板。GPT-4 Turbo在涉及復(fù)雜推理的場(chǎng)景雖然亦有提升空間，但已明顯領(lǐng)先于國(guó)內(nèi)的商業(yè)模型和開源模型。國(guó)內(nèi)大模型要整體趕超GPT-4 Turbo等國(guó)際頂尖的大模型，在復(fù)雜推理、可靠地解決復(fù)雜問(wèn)題等方面，仍需下大功夫。

復(fù)雜推理會(huì)如何影響大模型的能力？上海人工智能實(shí)驗(yàn)室領(lǐng)軍科學(xué)家林達(dá)華對(duì)第一財(cái)經(jīng)介紹，這關(guān)系到落地應(yīng)用時(shí)大模型的可靠性，例如在金融這樣的場(chǎng)景下不能在數(shù)字上有差錯(cuò)，會(huì)對(duì)數(shù)學(xué)上的可靠性有較高的要求。另外隨著大模型進(jìn)入商用，若要分析一家公司的財(cái)報(bào)，甚至是工業(yè)領(lǐng)域要去分析一些技術(shù)文檔，這時(shí)數(shù)學(xué)方面的計(jì)算能力就會(huì)成為一個(gè)壁壘。

“現(xiàn)在很多大模型的應(yīng)用場(chǎng)景是客服、聊天等等，在聊天場(chǎng)景一本正經(jīng)胡說(shuō)八道影響不太大，但它很難在非常嚴(yán)肅的商業(yè)場(chǎng)合去落地。”林達(dá)華表示。

在與GPT-4 Turbo的比較中，國(guó)內(nèi)大模型也有一些優(yōu)勢(shì)，如在主觀評(píng)測(cè)中，國(guó)內(nèi)模型在中文場(chǎng)景下相比海外模型具有性能優(yōu)勢(shì)，在中文語(yǔ)言理解、中文知識(shí)和中文創(chuàng)作上，國(guó)內(nèi)商業(yè)模型相比GPT-4 Turbo具有極強(qiáng)的競(jìng)爭(zhēng)力，甚至部分模型實(shí)現(xiàn)了部分維度上對(duì)GPT-4 Turbo的超越。

作為大模型的評(píng)測(cè)體系，OpenCompass于2023年7月推出，是Meta官方推薦的四個(gè)能力評(píng)測(cè)工具之一，且是其中唯一由中國(guó)機(jī)構(gòu)開發(fā)的評(píng)測(cè)工具。林達(dá)華介紹，評(píng)測(cè)體系借鑒的是高考的經(jīng)驗(yàn)，評(píng)測(cè)時(shí)這些模型題目并未公開，會(huì)避免一些模型對(duì)著題目“刷題”從而存在作弊現(xiàn)象，最后高考成績(jī)某種意義上是相對(duì)較公允的評(píng)價(jià)。到榜單發(fā)布時(shí)，會(huì)將這一期榜單的題目公開，這樣相關(guān)各方可以驗(yàn)證評(píng)測(cè)的分?jǐn)?shù)。

林達(dá)華認(rèn)為，關(guān)于評(píng)測(cè)，排名可能并不是最需要關(guān)注的，在榜單上一時(shí)的排名高或低并不能真正反映大模型的能力，評(píng)測(cè)的真正價(jià)值是幫助機(jī)構(gòu)和企業(yè)發(fā)現(xiàn)自家大模型進(jìn)一步需要努力的方向。

國(guó)內(nèi)大模型與GPT-4較高下：語(yǔ)言知識(shí)能力接近，復(fù)雜推理仍是短板
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-01-31 07:17:49 瀏覽：7625次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

國(guó)內(nèi)大模型與GPT-4較高下：語(yǔ)言知識(shí)能力接近，復(fù)雜推理仍是短板 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-01-31 07:17:49 瀏覽：7625次