當(dāng)前位置：人工智能實(shí)驗(yàn)室> 企業(yè)新聞 > 國(guó)內(nèi)首個(gè)大模型評(píng)測(cè)數(shù)據(jù)集（MMCU）問(wèn)世加速完善國(guó)產(chǎn)AI產(chǎn)業(yè)圖譜

國(guó)內(nèi)首個(gè)大模型評(píng)測(cè)數(shù)據(jù)集（MMCU）問(wèn)世加速完善國(guó)產(chǎn)AI產(chǎn)業(yè)圖譜
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2023-05-23 10:14:47 瀏覽：9037次

導(dǎo)讀：在當(dāng)下人工智能領(lǐng)域，大語(yǔ)言模型將為各行各業(yè)帶來(lái)顛覆性的效率革命和體驗(yàn)升級(jí)，這已經(jīng)成為了業(yè)界共識(shí)。借此，一場(chǎng)由ChatGPT引發(fā)的百模大戰(zhàn)早已轟轟烈烈地拉開(kāi)序幕，縱觀整個(gè)科技圈，幾乎所有高科技公司都在打造自己的大語(yǔ)言模型，更有專家斷言，不出意外，將...

在當(dāng)下人工智能領(lǐng)域，大語(yǔ)言模型將為各行各業(yè)帶來(lái)顛覆性的效率革命和體驗(yàn)升級(jí)，這已經(jīng)成為了業(yè)界共識(shí)。借此，一場(chǎng)由ChatGPT引發(fā)的“百模大戰(zhàn)”早已轟轟烈烈地拉開(kāi)序幕，縱觀整個(gè)科技圈，幾乎所有高科技公司都在打造自己的大語(yǔ)言模型，更有專家斷言，不出意外，將很快升級(jí)為“千模大戰(zhàn)”。

面對(duì)國(guó)內(nèi)大語(yǔ)言模型萬(wàn)箭齊發(fā)的局面，如何更好地提升大語(yǔ)言模型對(duì)中文的理解能力，更好地服務(wù)于全球的中文用戶，甲骨易AI研究院首創(chuàng)性地推出了高質(zhì)量中文評(píng)測(cè)數(shù)據(jù)集——一款名為“超越”(MassiveMultitask Chinese Understanding，簡(jiǎn)稱MMCU)的大規(guī)模的多任務(wù)測(cè)試數(shù)據(jù)集，填補(bǔ)了中文大語(yǔ)言模型能力測(cè)試缺失的一大空白。5月20日，一場(chǎng)以“大模型實(shí)際應(yīng)用與場(chǎng)景化落地”為主題的研討沙龍暨“超越”MMCU測(cè)試數(shù)據(jù)集產(chǎn)品發(fā)布會(huì)在甲骨易第三空間拉開(kāi)序幕。

本次沙龍由甲骨易AI研究院主辦，來(lái)自中科院、北京大學(xué)、北京外國(guó)語(yǔ)大學(xué)、哈薩克恩斯坦國(guó)立大學(xué)等學(xué)術(shù)界代表，中關(guān)村軟件園、小米、咪咕、快手、商湯、霖瓏云、博思眾智、智譜華章、中航出版?zhèn)髅降犬a(chǎn)業(yè)界代表以及多家科技媒體代表出席了本次沙龍活動(dòng)，并針對(duì)大語(yǔ)言模型的數(shù)據(jù)量與評(píng)價(jià)標(biāo)準(zhǔn)等相關(guān)話題，暢所欲言，展開(kāi)了熱烈的討論。

邁向認(rèn)知智能演進(jìn)的過(guò)程

在本次沙龍活動(dòng)中，北京外國(guó)語(yǔ)大學(xué)人工智能與人類語(yǔ)言重點(diǎn)實(shí)驗(yàn)室主任、多語(yǔ)自然語(yǔ)言處理研究中心主任李佐文進(jìn)行了精彩的開(kāi)場(chǎng)致辭。李佐文認(rèn)為，語(yǔ)言智能包括對(duì)人類語(yǔ)言機(jī)理的研究以及對(duì)自然語(yǔ)言的技術(shù)處理研究?jī)纱蟀鍓K，這兩個(gè)領(lǐng)域都應(yīng)深入研究，并肩發(fā)展，機(jī)器方能有望像人一樣理解自然的語(yǔ)言，生成自然的語(yǔ)言。來(lái)自甲骨易的數(shù)據(jù)服務(wù)事業(yè)部負(fù)責(zé)人王敏在致辭中提及，甲骨易創(chuàng)始之初正是為了搭建人與人之間的溝通交流，跨越語(yǔ)言跨越文化之間的障礙，而當(dāng)下正是要搭建人與機(jī)器，甚至是機(jī)器與機(jī)器之間的溝通橋梁——這也正是甲骨易AI研究院成立的初心。

圖1：北京外國(guó)語(yǔ)大學(xué)人工智能與人類語(yǔ)言重點(diǎn)實(shí)驗(yàn)室主任李佐文致辭

圖2：甲骨易數(shù)據(jù)服務(wù)事業(yè)部負(fù)責(zé)人王敏致辭

眾所周知，人工智能技術(shù)在飛速演進(jìn)。沙龍上，來(lái)自小米公司的大模型數(shù)據(jù)負(fù)責(zé)人彭力進(jìn)行了以《小米遇上大模型》為主題的精彩演講，他介紹了業(yè)界中定義的人工智能產(chǎn)業(yè)發(fā)展演變的四個(gè)層面：第一層叫運(yùn)算智能層（早已實(shí)現(xiàn)），第二層叫感知智能層（目前已在多領(lǐng)域接近人類水平），第三層是認(rèn)知智能（尚在推進(jìn)中），第四層才是通用智能層（尚有距離）。其中，第三層的認(rèn)知智能指的是在感知智能的基礎(chǔ)上進(jìn)一步的理解、思考和解釋。他指出，我們正在向通用人工智能演進(jìn)，而大語(yǔ)言模型則可以加速人工智能演進(jìn)的進(jìn)程與當(dāng)前面臨的技術(shù)難點(diǎn)，并展示了小米在大語(yǔ)言模型領(lǐng)域的最新進(jìn)展。

圖3：小米大模型數(shù)據(jù)負(fù)責(zé)人彭力發(fā)言

實(shí)際上，ChatGPT最早主要是針對(duì)文本語(yǔ)料進(jìn)行大規(guī)模的學(xué)習(xí)，后來(lái)數(shù)據(jù)參數(shù)達(dá)到了數(shù)千億量級(jí)，便有了大語(yǔ)言模型的說(shuō)法。彭力表示，在訓(xùn)練大語(yǔ)言模型的過(guò)程中，諸如廣告等噪聲數(shù)據(jù)，以及大量的同質(zhì)化語(yǔ)料等因素都會(huì)影響訓(xùn)練的效果，甚至還會(huì)面臨數(shù)據(jù)版權(quán)的風(fēng)險(xiǎn)。來(lái)自北京外國(guó)語(yǔ)大學(xué)的李佐文則在分享中直言，業(yè)界通過(guò)自然語(yǔ)言處理等辦法，竭盡全力想讓機(jī)器理解人類的語(yǔ)言，依舊是挑戰(zhàn)重重。

國(guó)產(chǎn)中文大語(yǔ)言模型體系亟待完善

我們需要看清這樣的現(xiàn)實(shí)，國(guó)內(nèi)大語(yǔ)言模型和國(guó)際一流仍有差距，超越并非一朝一夕就可以實(shí)現(xiàn)。當(dāng)下，國(guó)內(nèi)廠商往往采取的是模仿與跟隨策略，盡管未來(lái)有望彎道超車，甚至后來(lái)者居上，但當(dāng)下就有一些廠商宣稱將實(shí)現(xiàn)通用模型對(duì)標(biāo)ChatGPT，中文大模型能夠超越ChatGPT的當(dāng)前版本，與之旗鼓相當(dāng)，并在多領(lǐng)域做到業(yè)界領(lǐng)先，無(wú)疑這樣的說(shuō)辭，也只是停留在口號(hào)之上，尚未經(jīng)過(guò)實(shí)踐驗(yàn)證。

盡管對(duì)標(biāo)ChatGPT等豪言壯語(yǔ)已響徹耳畔，但只憑借廠商只言片語(yǔ)的宣傳描述，以及對(duì)特定數(shù)據(jù)評(píng)測(cè)案例的展示，其數(shù)據(jù)樣本遠(yuǎn)遠(yuǎn)不足以及摻入了廠商的主觀意愿，導(dǎo)致現(xiàn)有數(shù)據(jù)資料不足以展現(xiàn)各大廠商之間大模型技術(shù)能力之間的差異性，也使得用戶很難真正了解各家技術(shù)能力的優(yōu)勢(shì)所在。在這樣的背景之下，許多優(yōu)秀的國(guó)產(chǎn)大模型被淹沒(méi)在這種噪聲當(dāng)中，嚴(yán)重制約了國(guó)產(chǎn)大模型乃至人工智能產(chǎn)業(yè)的發(fā)展。因此，如何發(fā)現(xiàn)大模型的缺陷，以及如何更好地理解包括中文在內(nèi)的人類語(yǔ)言文本？.....這一系列問(wèn)題擺在了當(dāng)下以ChatGLM、MOSS、文心一言、通義千問(wèn)、商量、星火等眾多具備中文能力的大模型廠商面前。

鑒于國(guó)外率先開(kāi)啟了大模型研究，針對(duì)英文大語(yǔ)言模型已經(jīng)有較為完善的評(píng)測(cè)方式，如2021年由DanHendrycks等人發(fā)布的MMLU。然而針對(duì)中文大語(yǔ)言模型，卻仍處于空白。需要指出的是，國(guó)外的很多機(jī)構(gòu)研究發(fā)現(xiàn)，數(shù)據(jù)量與分布對(duì)于訓(xùn)練模型的配比方式非常重要，Commoncrawl這種大數(shù)據(jù)集語(yǔ)言分布是不均勻的，英文占了46%，中文只占了5%。這樣配比導(dǎo)致后續(xù)的大模型進(jìn)行參照訓(xùn)練時(shí)，會(huì)發(fā)現(xiàn)在中文語(yǔ)料缺失的情況下，中文的理解能力是欠缺的，國(guó)內(nèi)研究機(jī)構(gòu)和人工智能企業(yè)都在去增補(bǔ)這些中文語(yǔ)料來(lái)提升中文能力。

與此同時(shí)，對(duì)理解中文的大語(yǔ)言模型及時(shí)加以客觀公正的評(píng)價(jià)，使其“越”來(lái)越強(qiáng)大，也成為了當(dāng)務(wù)之急。因此，甲骨易推出“超越”MMCU數(shù)據(jù)集恰逢其時(shí)，通過(guò)綜合評(píng)估模型在多個(gè)學(xué)科上的知識(shí)廣度和深度，能夠幫助研究者更精準(zhǔn)地找出模型的缺陷，并對(duì)模型的能力進(jìn)行打分。

“把大模型當(dāng)成一個(gè)真正的人類”

在分享過(guò)程中，來(lái)自甲骨易AI研究院的首席研究員Felix坦言，要評(píng)價(jià)這些大語(yǔ)言模型的基礎(chǔ)能力，實(shí)際上是一個(gè)非常難以解決的問(wèn)題。甲骨易憑借多年數(shù)據(jù)服務(wù)行業(yè)探索的技術(shù)優(yōu)勢(shì)，率先推出的針對(duì)于中文預(yù)訓(xùn)練大模型的大規(guī)模多任務(wù)評(píng)測(cè)數(shù)據(jù)集以及相應(yīng)的評(píng)測(cè)方法，旨在衡量中文大模型在處理眾多任務(wù)上的準(zhǔn)確度，主要覆蓋醫(yī)療、法律、心理學(xué)和教育四大領(lǐng)域，題目形式涵蓋單項(xiàng)選擇和多項(xiàng)的選擇題，共包含11900個(gè)問(wèn)題。

圖4：甲骨易AI研究院 Felix發(fā)言

“我們是把大模型當(dāng)作一個(gè)真正的人類來(lái)看待，”Felix如是說(shuō)，測(cè)試集之所以涉及語(yǔ)、數(shù)、物理、化學(xué)這些科目，因?yàn)槿斯ぶ悄鼙仨毾袢祟愐粯樱邆鋵?duì)于世界的基礎(chǔ)的認(rèn)知；而醫(yī)療、法律、心理學(xué)專業(yè)領(lǐng)域則是將大模型視為專業(yè)人士進(jìn)行考核。通過(guò)對(duì)多領(lǐng)域知識(shí)廣度與深度的測(cè)試，甲骨易AI研究院可以幫助技術(shù)研發(fā)人員發(fā)現(xiàn)大語(yǔ)言模型在哪些領(lǐng)域有缺陷，或者說(shuō)可能在其整體上都有缺陷。

沙龍上，中國(guó)科學(xué)院大學(xué)網(wǎng)絡(luò)數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室的咸寧先生則針對(duì)MMCU測(cè)試集的使用情況進(jìn)行分享，解釋了測(cè)試數(shù)據(jù)集的分析原理，對(duì)幾大模型的測(cè)試成果進(jìn)行了展示與客觀分析，并指出了超越MMCU測(cè)試數(shù)據(jù)集當(dāng)下尚存在一些亟待解決的問(wèn)題。

圖5：中國(guó)科學(xué)院大學(xué)網(wǎng)絡(luò)數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室咸寧發(fā)言

通過(guò)發(fā)布會(huì)召開(kāi)前開(kāi)展的大模型測(cè)試發(fā)現(xiàn)，在本應(yīng)有明顯優(yōu)勢(shì)的語(yǔ)文科目中，國(guó)產(chǎn)大模型的表現(xiàn)卻差強(qiáng)人意。Felix指出，現(xiàn)在很多模型評(píng)估還是處于人工評(píng)估階段，甲骨易推出“超越”MMCU數(shù)據(jù)集的初衷是希望實(shí)現(xiàn)對(duì)大模型進(jìn)行大規(guī)模的評(píng)估。當(dāng)下的評(píng)測(cè)結(jié)果可能存在隨機(jī)誤差，但未來(lái)還將持續(xù)優(yōu)化評(píng)測(cè)方式并擴(kuò)充評(píng)測(cè)領(lǐng)域。

攜手共建，未來(lái)可期

自ChatGPT的驚艷亮相，人類生活的方方面面已發(fā)生了巨變。大模型仍有許多難關(guān)亟待解決，借助超越MMCU評(píng)測(cè)數(shù)據(jù)集，一舉打破市面上所有的大語(yǔ)言模型只能基于英文數(shù)據(jù)集去進(jìn)行測(cè)試的現(xiàn)狀，中文大語(yǔ)言模型將有望構(gòu)建起一個(gè)完善的評(píng)測(cè)的體系，通過(guò)發(fā)現(xiàn)提升大語(yǔ)言的缺陷提升大語(yǔ)言模型對(duì)于中文的理解能力，更好地服務(wù)于全球的中文用戶。

圖6：大模型實(shí)際應(yīng)用與場(chǎng)景化落地沙龍現(xiàn)場(chǎng)

“大模型的訓(xùn)練以及大規(guī)模評(píng)估需要大量算力。”甲骨易AI研究院最后表示，愿與業(yè)界更多機(jī)構(gòu)聯(lián)手，一道攜手推進(jìn)大模型的發(fā)展，加速人工智能技術(shù)的產(chǎn)學(xué)研用進(jìn)程。超越評(píng)測(cè)數(shù)據(jù)集的發(fā)布，只是起點(diǎn)，甲骨易還將大有可為。更多精彩，敬請(qǐng)期待甲骨易第三空間未來(lái)更多活動(dòng)。

MMCU論文鏈接：https://arxiv.org/abs/2304.12986

感興趣的可以關(guān)注，期待這一工作能夠推動(dòng)國(guó)內(nèi)大模型發(fā)展。