展會(huì)信息港展會(huì)大全

大模型年度榜單公布:GPT-4第一,智譜、阿里緊追
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-02-04 09:18:05   瀏覽:5275次  

導(dǎo)讀:通過題海戰(zhàn)術(shù)提高大模型成績(jī),對(duì)于模型實(shí)際能力的反應(yīng)是失真的,影響了模型研發(fā)團(tuán)隊(duì)的改進(jìn)方向和模型的商業(yè)落地,高分低能傷害的是機(jī)構(gòu)本身。 國(guó)內(nèi)大模型相比GPT-4還存在差距,推理、數(shù)學(xué)、代碼、智能體是國(guó)內(nèi)大模型短板,中文場(chǎng)景下國(guó)內(nèi)最新大模型已展現(xiàn)出...

通過題海戰(zhàn)術(shù)提高大模型成績(jī),對(duì)于模型實(shí)際能力的反應(yīng)是失真的,影響了模型研發(fā)團(tuán)隊(duì)的改進(jìn)方向和模型的商業(yè)落地,“高分低能”傷害的是機(jī)構(gòu)本身。

國(guó)內(nèi)大模型相比GPT-4還存在差距,推理、數(shù)學(xué)、代碼、智能體是國(guó)內(nèi)大模型短板,中文場(chǎng)景下國(guó)內(nèi)最新大模型已展現(xiàn)出優(yōu)勢(shì)。

OpenCompass2.0大語(yǔ)言模型中英雙語(yǔ)客觀評(píng)測(cè)前十名(采用百分制)。商用閉源模型通過API形式測(cè)試,開源模型直接在模型權(quán)重上測(cè)試。

在一眾試圖“超越GPT”的大模型中,哪個(gè)大模型實(shí)力最強(qiáng)?大模型跑分、刷榜,如何測(cè)評(píng)大模型真實(shí)水平?

1月30日,大模型開源開放評(píng)測(cè)體系司南(OpenCompass2.0)揭曉了2023年度大模型評(píng)測(cè)榜單。對(duì)過去一年來主流大模型全面評(píng)測(cè)診斷后,結(jié)果顯示,GPT-4-Turbo在各項(xiàng)評(píng)測(cè)中均獲最佳表現(xiàn),國(guó)內(nèi)廠商近期發(fā)布的模型緊隨其后,包括智譜清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0。

評(píng)測(cè)是大模型的指揮棒和指南針,OpenCompass為模型提供評(píng)測(cè)服務(wù),量化模型在知識(shí)、語(yǔ)言、理解、推理和考試等五大能力維度的表現(xiàn)?傮w來看,大語(yǔ)言模型整體能力仍有較大提升空間,復(fù)雜推理相關(guān)能力仍是大模型普遍面臨的難題,國(guó)內(nèi)大模型相比于GPT-4還存在差距。中文場(chǎng)景下國(guó)內(nèi)最新大模型已展現(xiàn)出優(yōu)勢(shì),在部分維度上接近GPT-4-Turbo的水平。

中英雙語(yǔ)客觀評(píng)測(cè):數(shù)學(xué)、代碼仍是短板

OpenCompass于2023年7月由上海人工智能實(shí)驗(yàn)室在世界人工智能大會(huì)上推出,目前升級(jí)為OpenCompass2.0,構(gòu)造了一套中英文雙語(yǔ)評(píng)測(cè)基準(zhǔn),涵蓋語(yǔ)言與理解、常識(shí)與邏輯推理、數(shù)學(xué)計(jì)算與應(yīng)用、多編程語(yǔ)言代碼能力、智能體、創(chuàng)作與對(duì)話等方面。

基于語(yǔ)言、知識(shí)、推理、數(shù)學(xué)、代碼、智能體等六個(gè)維度,OpenCompass2.0構(gòu)建了超1.5萬(wàn)道高質(zhì)量中英文雙語(yǔ)問題,并引入首創(chuàng)的循環(huán)評(píng)估(Circular Evalution)策略,系統(tǒng)分析了國(guó)內(nèi)外大模型的綜合客觀性能。

中英雙語(yǔ)客觀評(píng)測(cè)榜單。截至該榜單發(fā)布,部分新大模型尚未納入本次評(píng)測(cè)。

在百分制的客觀評(píng)測(cè)基準(zhǔn)中,GPT-4 Turbo僅達(dá)到61.8分的及格水平。此結(jié)果顯示,復(fù)雜推理仍然是大模型面臨的重要難題,需要進(jìn)一步的技術(shù)創(chuàng)新來攻克。

在綜合性客觀評(píng)測(cè)中,智譜清言GLM-4、阿里巴巴Qwen-Max和百度文心一言4.0具有較為均衡和全面的性能,這些模型在語(yǔ)言和知識(shí)等基礎(chǔ)能力維度上可比肩GPT-4 Turbo。

推理、數(shù)學(xué)、代碼、智能體是國(guó)內(nèi)大模型的短板。GPT-4 Turbo在涉及復(fù)雜推理的場(chǎng)景雖然也有提升空間,但已明顯領(lǐng)先于國(guó)內(nèi)的商業(yè)模型和開源模型。國(guó)內(nèi)大模型要整體趕超GPT-4 Turbo等國(guó)際頂尖的大模型,在復(fù)雜推理、可靠地解決復(fù)雜問題等方面仍需下大功夫。

中文主觀評(píng)測(cè):閉源模型接近GPT-4

基于語(yǔ)言、知識(shí)、創(chuàng)作、數(shù)學(xué)與推理等五個(gè)維度,OpenCompass2.0構(gòu)建了超500道高質(zhì)量中文問題,采用基于大語(yǔ)言模型對(duì)戰(zhàn)的方式評(píng)測(cè)主流模型在開放場(chǎng)景下的對(duì)話體驗(yàn)。

中文主觀評(píng)測(cè)。截至該榜單發(fā)布,部分新大模型尚未納入本次評(píng)測(cè)。

“主觀評(píng)測(cè)中,最難的是主觀的數(shù)學(xué)題,不能靠猜答案。”上海人工智能實(shí)驗(yàn)室領(lǐng)軍科學(xué)家林達(dá)華表示,榜單中,GPT-4 Turbo的數(shù)學(xué)能力遙遙領(lǐng)先,說明在高難度的推理上具有優(yōu)勢(shì)。

基于主觀評(píng)測(cè)分析,研究人員還發(fā)現(xiàn),國(guó)內(nèi)商用大模型在中文評(píng)測(cè)中表現(xiàn)優(yōu)秀,和GPT-4 Turbo差距縮校阿里巴巴Qwen-Max、智譜清言GLM-4、百度文心4.0都取得了優(yōu)秀成績(jī)。在中文語(yǔ)言理解、中文知識(shí)和中文創(chuàng)作上,國(guó)內(nèi)商業(yè)模型相比GPT-4 Turbo有更強(qiáng)的競(jìng)爭(zhēng)力。

開源社區(qū)的Yi-34B-Chat、InternLM2-Chat-20B在綜合性對(duì)話體驗(yàn)上表現(xiàn)突出,它們以中輕量級(jí)的參數(shù)量、接近商業(yè)閉源模型的性能,為學(xué)術(shù)研究和工業(yè)應(yīng)用提供了良好基矗國(guó)內(nèi)開源模型近期快速進(jìn)步展現(xiàn)了開源模型的應(yīng)用潛力,開源模型和開源工具體系的結(jié)合可幫助企業(yè)快速試驗(yàn)大模型在應(yīng)用場(chǎng)景的適用性。

目前OpenCompass2.0已和合作伙伴共同推出了多個(gè)垂直領(lǐng)域的評(píng)測(cè)基準(zhǔn)和數(shù)據(jù)集,包括LawBench法律大模型評(píng)測(cè)基準(zhǔn)、OpenFinData金融評(píng)測(cè)集、MedBench醫(yī)療大模型評(píng)測(cè)系統(tǒng)、SecBench網(wǎng)絡(luò)安全大模型評(píng)測(cè)平臺(tái)等。

吸取高考經(jīng)驗(yàn),避免大模型直接刷題

“評(píng)測(cè)是大模型的指揮棒和指南針。”林達(dá)華教授表示,大模型評(píng)測(cè)要客觀公允、評(píng)測(cè)方式科學(xué)、評(píng)測(cè)維度全面。OpenCompass2.0的評(píng)測(cè)維度包括基礎(chǔ)能力和綜合能力兩個(gè)層級(jí),能力維度設(shè)計(jì)具備可擴(kuò)展性和增長(zhǎng)性,同時(shí)可根據(jù)未來的大模型應(yīng)用場(chǎng)景進(jìn)行動(dòng)態(tài)更新和迭代。

基礎(chǔ)能力維度以語(yǔ)言、知識(shí)、理解、數(shù)學(xué)、代碼為核心,包括意圖識(shí)別、情感分析、內(nèi)容評(píng)價(jià)與總結(jié)、多語(yǔ)言翻譯、漢語(yǔ)與中國(guó)傳統(tǒng)文化、常識(shí)百科、自然科學(xué)、人文社科、計(jì)算能力、數(shù)學(xué)應(yīng)用能力、多編程語(yǔ)言代碼等20余項(xiàng)細(xì)分任務(wù)。而綜合能力旨在考察模型在綜合運(yùn)用知識(shí)、數(shù)學(xué)推理、代碼工具等多種能力完成復(fù)雜任務(wù)的水平。

當(dāng)前,一些大模型沉迷于刷榜、跑分。林達(dá)華表示,通過題海戰(zhàn)術(shù)提高大模型成績(jī),對(duì)于模型實(shí)際能力的反應(yīng)是失真的,影響了模型研發(fā)團(tuán)隊(duì)的改進(jìn)方向和模型的商業(yè)落地,“高分低能”傷害的是機(jī)構(gòu)本身。為此,實(shí)驗(yàn)室吸取了高考經(jīng)驗(yàn),提前公布“考試大綱”,但在第一期測(cè)評(píng)榜單發(fā)布前不公開“考題”,下一期“考題”用于下一期測(cè)評(píng),每一期題目不同,避免大模型直接刷題,從而發(fā)現(xiàn)能力長(zhǎng)板與短板。未來也會(huì)考慮開發(fā)測(cè)評(píng)分集,對(duì)于高分考生,用更有挑戰(zhàn)、區(qū)分度更大的題目進(jìn)行測(cè)評(píng),凸顯能力差距。

“國(guó)內(nèi)有很多模型正在發(fā)布的路上,榜單上任何具體的名字只是大模型成長(zhǎng)過程中無數(shù)次測(cè)試中的一次,一時(shí)的排名高低并不真正反映模型的能力,最重要的是每一次測(cè)驗(yàn)可以回過頭來指導(dǎo)我們改進(jìn)自己。”林達(dá)華表示。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港