展會信息港展會大全

甲骨易AI研究院推出中文大語言模型評測集合-LucyEval,讓智能有跡可循!
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-08-31 10:55:11   瀏覽:19663次  

導(dǎo)讀:夕小瑤科技說 分享 Lucy,是距今320萬年最早的人類祖先,也是被輸入某種物質(zhì)后大腦開發(fā)到100%的超智能人類,能感知宇宙萬物,擁有人類所有知識。如果大模型是Lucy,那么LucyEval即是助力其更智能的奇妙物質(zhì)。 隨著大語言模型不斷調(diào)優(yōu),大模型擁有了更優(yōu)越的...

夕小瑤科技說 分享

Lucy,是距今320萬年最早的人類祖先,也是被輸入某種“物質(zhì)”后大腦開發(fā)到100%的超智能人類,能感知宇宙萬物,擁有人類所有知識。如果大模型是Lucy,那么LucyEval即是助力其更智能的奇妙”物質(zhì)“。

隨著大語言模型不斷調(diào)優(yōu),大模型擁有了更優(yōu)越的理解人類話語、指令并且生成類似人類語言文本的能力。機(jī)器和人類終歸不同,如何最快速地判斷機(jī)器是否能正確理解人類的知識和語言,成為我們共同關(guān)注的問題。

由此,甲骨易AI研究院推出了中文大語言模型成熟度評測LucyEval,能夠通過對模型各方面能力的客觀測試,找到模型的不足,幫助設(shè)計(jì)者和工程師更加精準(zhǔn)地調(diào)整、訓(xùn)練模型,助力大模型不斷邁向更智能的未來。

Lucy的每一個字母背后都代表了不同的意義,包含著甲骨易AI研究院設(shè)計(jì)LucyEval時所考量的維度和堅(jiān)持的理念。

"Lucy" 包含以下含義:

Linguistic Fundamentals (基礎(chǔ)理解能力) :描述模型對基礎(chǔ)語法、詞匯和句子結(jié)構(gòu)的理解程度。

Utilization of Knowledge (知識運(yùn)用能力):衡量模型在回答問題或生成文本時如何運(yùn)用其內(nèi)嵌的知識。

Cognitive Reasoning (推理能力):評價模型是否能從給定的信息中進(jìn)行邏輯推斷或解決復(fù)雜問題。

Yield of Specialized Outputs (特殊生成能力):測試模型在生成特定類型或風(fēng)格的文本(例如詩歌、代碼或?qū)I(yè)文章)時的效能。

目前,LucyEval已發(fā)布如下兩項(xiàng)測試集。

大規(guī)模多任務(wù)中文理解能力測試 Massive Multitask Chinese Understanding

 

2023年4月25日,針對中文大模型理解能力測試缺失且推出高質(zhì)量中文評測數(shù)據(jù)集迫在眉睫這一現(xiàn)狀,甲骨易AI研究院率先發(fā)布(首發(fā))了一套大規(guī)模多任務(wù)中文大模型理解能力測試。

測試所包含的題目來自醫(yī)療、法律、心理學(xué)和教育四個科目的11900個問題,包含單項(xiàng)選擇和多項(xiàng)選擇題,目的旨在使測試過程中模型更接近人類考試的方式,覆蓋學(xué)科面廣,專業(yè)知識難度高,適合用來評估大模型的綜合理解能力。

論文鏈接:

https://arxiv.org/abs/2304.12986

中文大模型多學(xué)科生成能力自動化評測基準(zhǔn) Chinese Generation Evaluation

 

目前領(lǐng)域內(nèi)的評測大多都只針對模型的中文理解能力,通過選擇題由模型直接生成答案,或者提取模型對各個答案選項(xiàng)的輸出概率。從評測大模型的生成能力的角度,這些評測基準(zhǔn)就存在很大的局限性。

在率先發(fā)布國內(nèi)首個中文大模型理解能力測試后,甲骨易AI研究院于8月9日正式發(fā)布一套自動測評中文大模型多學(xué)科生成能力的評測基準(zhǔn)。

基準(zhǔn)包含11000道題目,涵蓋科技工程、人文與社會科學(xué)、數(shù)學(xué)計(jì)算、醫(yī)師資格考試、司法考試、注冊會計(jì)師考試等科目下的55個子科目。題型分為名詞解釋、簡答題和計(jì)算題三種類型。同時,甲骨易AI研究院還設(shè)計(jì)了一套復(fù)合打分方式Gscore,使評分過程更加合理、科學(xué)。

甲骨易AI研究院使用本評測基準(zhǔn)對以下模型進(jìn)行了zero-shot測試,包括GPT-4、ChatGLM-Std、訊飛星火Spark Desk、文心一言ERNIE Bot等。

本次受測中文大語言模型

從所有模型在六大類科目的平均分來看,GPT-4取得最高分41.12,比最低分32.28高出8.84分。

本次受測中文大語言模型平均得分

受測模型在其他學(xué)科的表現(xiàn)詳見評測地址:

http://lucyeval.besteasy.com/

未來,甲骨易AI研究院將矢志不移地為提升中文大語言模型能力為目標(biāo),持續(xù)研究適應(yīng)其發(fā)展的測試集,期待與同樣關(guān)注大語言模型發(fā)展的業(yè)界同仁攜手共建。

論文鏈接:

https://arxiv.org/abs/2308.04823

更多AI相關(guān)資訊,請關(guān)注微信公眾號:甲骨易

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港