展會信息港展會大全

當前位置：人工智能實驗室> 人工智能應(yīng)用 > 數(shù)學(xué)能力超過ChatGPT！上海交大計算大模型登開源榜首

數(shù)學(xué)能力超過ChatGPT！上海交大計算大模型登開源榜首
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-09-23 13:04:37 瀏覽：14905次

導(dǎo)讀：克雷西發(fā)自凹非寺量子位 | 公眾號 QbitAI 國產(chǎn)數(shù)學(xué)大模型，能力已經(jīng)超過了ChatGPT！最新榜單中，上海交大GAIR實驗室出品的Abel專有大模型：準確率高達83.6%，在開源模型中位列第一。據(jù)團隊介紹，該模型是用挪威數(shù)學(xué)家尼爾斯阿貝爾（Niels Abel）的名...

克雷西發(fā)自凹非寺

量子位 | 公眾號 QbitAI

國產(chǎn)數(shù)學(xué)大模型，能力已經(jīng)超過了ChatGPT！

最新榜單中，上海交大GAIR實驗室出品的Abel專有大模型：

準確率高達83.6%，在開源模型中位列第一。

據(jù)團隊介紹，該模型是用挪威數(shù)學(xué)家尼爾斯阿貝爾（Niels Abel）的名字命名的，以此向阿貝爾在代數(shù)和分析方面的開創(chuàng)性工作致敬。

在GSM8k數(shù)據(jù)集上，70B參數(shù)量的Abel碾壓所有開源模型，還超過了ChatGPT。

甚至在新數(shù)據(jù)集TALSCQ-EN上，Abel的表現(xiàn)比GPT-4還要強。

而實現(xiàn)這樣效果的Abel，成分可以說是十分“單純”：

沒有使用工具

沒有使用數(shù)學(xué)領(lǐng)域的大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)

沒有使用獎勵模型

沒有使用RLHF

僅使用有監(jiān)督精調(diào)（Supervised Fine-tuning，SFT）

那么Abel的效果究竟怎么樣呢？

成績超越開源模型SOTA

這里我們選擇同樣是開源的Llama-2來和Abel對比。

首先來看下這個雞兔同籠問題的變體：

Brown由牛和雞一共60只，雞的數(shù)量是牛的兩倍，一共有多少條腿？

這道題Llama-2出師不利，而且不是計算錯誤，是邏輯上就有問題：

Abel則成功地解決了這個問題。

再來看下一個問題：

12，21，6，11和30的中位數(shù)與平均數(shù)的和是多少？

兩個模型都正確理解了所涉及的概念，但Llama還是在計算和排序上出了錯。

而Abel依舊是正確地做出了這道題：

再從測試數(shù)據(jù)上看看Abel的表現(xiàn)。

首先是OpenAI提出的GSM8k數(shù)據(jù)集（大概是美國高中難度），這份榜單的前十名，Abel占了三個（不同參數(shù)規(guī)模）。

開源模型當中，70B規(guī)模的Abel打敗了曾經(jīng)的SOTAWizardMath。

如果把商業(yè)閉源模型算進來，Abel也僅次于GPT-4、Claude-2和PaLM-2-Flan這些最著名的模型。

甚至ChatGPT也不是Abel的對手。

△地球代表開源模型，鎖代表閉源模型

在難度更高的MATH（競賽題目）數(shù)據(jù)集中，開源模型的前三名被三個規(guī)模的Abel包攬，加上閉源也僅次于Google和OpenAI的產(chǎn)品。

研究團隊還使用了新數(shù)據(jù)集TALSCQ-EN對Abel進行測試，結(jié)果超過了GPT-4。

那么，研究團隊是怎么調(diào)教出這樣一款高性能模型的呢？

“保姆級”微調(diào)訓(xùn)練策略

核心奧義就是高質(zhì)量的訓(xùn)練數(shù)據(jù)。

Abel使用數(shù)據(jù)是經(jīng)過精心策劃的，不僅包含問題的答案，還要能告訴模型找到正確答案是的方法。

為此，研究團隊提出了一種叫做家長監(jiān)督（Parental Oversight）的“保姆級”微調(diào)訓(xùn)練策略。

在家長監(jiān)督的原則之下，團隊僅通過SFT方式就完成了Abel的訓(xùn)練。

為了評價Abel的魯棒性，研究團隊還用GPT4對GSM8k中的數(shù)字進行了修改，測試Abel是否依然能解出正確的答案。

結(jié)果顯示，在調(diào)整版GSM8k數(shù)據(jù)集下，70B參數(shù)的Abel魯棒性超過了同等規(guī)模的WizardMath。

在Abel的介紹的最后，研究團隊還留下了一個彩蛋：

Abel的下一代，將進化成為Bernoulli（伯努利）

不過團隊并沒有對其中的含義進行說明，我們不妨期待一番。

團隊簡介

Abel由上海交通大學(xué)GAIR（生成式人工智能研究組）團隊打造。

該團隊還曾推出過大模型高考Benchmark、AIGC事實核查工具Factool等成果。

該小組負責(zé)人、清源研究院劉鵬飛副教授同時也是Abel項目的負責(zé)人。

對這個數(shù)學(xué)模型感興趣的讀者，可以到GitHub頁面詳細了解。

GitHub頁面：

https://github.com/GAIR-NLP/abel

人工智能實驗室

相關(guān)熱詞： 數(shù)學(xué) 能力超過 ChatGPT 上海交大計算大模型開

上一篇：大疆 Mini 4 Pro 無人機高清渲染圖曝光

下一篇：英特爾野心勃勃，300毫米晶圓可容納 24,000 個量子比特

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

不被“機器狗之父”看好的人形機器人，未來要如何發(fā)展？

閱讀量：41704

OpenAI CEO：看好人形機器人，未來人類不必再掌握計算機科學(xué)

閱讀量：24264

追光十年｜從工業(yè)產(chǎn)線到人形智能，上海搶占機器人產(chǎn)業(yè)新高地

閱讀量：16626

轉(zhuǎn)向機器人！三星電子被曝停止自動駕駛研究：開發(fā)難度超預(yù)期，商業(yè)化難

閱讀量：13129

傅盛：我不看好雙足機器人的商業(yè)化

閱讀量：12602

斯坦福20億參數(shù)多模態(tài)AI Agent模型大升級，手機汽車機器人都能用

閱讀量：11434

推薦內(nèi)容

2024第七屆中國國際供應(yīng)鏈與物流博覽會
2024年坦桑尼亞礦山機械、建筑機械及工程機械展覽會
2024年拉美（秘魯）國際食品展覽會
AEIF 2024 第十一屆汽車電子創(chuàng)新大會暨汽車電子應(yīng)用展
2024年韓國暖通展制冷展凈化及樓宇自控展HARFKO
2024CEN中國電商展覽會
2024第七屆北京國際檔案信息化展覽會
2024CEN中國電商展覽會
2024中國國際造紙科技展覽會及會議
第九屆(2024)國際儲能技術(shù)和裝備及應(yīng)用(上海)大會暨展覽會暨SNEC第七屆(2024)國際氫能與燃料電池技術(shù)和裝備及應(yīng)用(上海)展覽會
2024年第十屆廣州國際漁業(yè)博覽會（廣州國際漁博會）
2024第三屆廈門國際服裝供應(yīng)鏈博覽會、紡織面料及輔料展覽會
2024年第六屆海名華北國際口腔器材展覽會暨華北五省市口腔醫(yī)學(xué)研討會
2024年非洲坦桑尼亞電力及能源展覽會
2024年印尼國際制冷空調(diào)空氣凈化及過濾展
PT EXPO CHINA 2024（PT展）
2024年印尼國際暖通展空調(diào)制冷及通風(fēng)凈化展
第10屆廣州國際漁業(yè)博覽會、廣州國際漁博會
大連國際生態(tài)環(huán)保博覽會
2024CXPE廈門印刷包裝產(chǎn)業(yè)博覽會暨2024東南印包展
2024第14屆中國(天津)國際紡織服裝供應(yīng)鏈博覽會
2024中食展（廣州）暨廣州國際食品食材展
2024第三屆全球數(shù)字貿(mào)易博覽會
2024第十一屆中國國際管材展覽會
2024年摩納哥游艇展覽會
2024第五屆中國團長大會&視頻達人會第十九屆上海國際新零售社區(qū)社群團購博覽會
2024年泰國空調(diào)制冷凈化展
2024石家莊藥交會
廣州國際自有品牌展
2024年印尼供暖、空調(diào)制冷、冷鏈、凈化、能源展IISM
2024第32屆中國國際信息通信展覽會
2024廈門國際印刷包裝瓦楞技術(shù)博覽會（CFPE 華印展）
2024第四屆四川教育博覽會（CEET創(chuàng)教展）
2024第七屆廣州國際新型建筑模板腳手架及施工技術(shù)與設(shè)備展覽會，第七屆廣州國際非開挖技術(shù)、海綿城市暨地下管線管廊展覽會，2024廣州國際建筑聲學(xué)與噪聲控制展覽會
2024第十二屆天津國際餐飲食材展覽會中國（天津）預(yù)制菜產(chǎn)業(yè)展覽會
2024年美國拉斯維加斯國際礦業(yè)機械展MINExpo
2024年美國國際礦業(yè)展覽會
2024年尼日利亞建材及建筑機械、工程機械展覽會
2024 中東（迪拜）國際廣告及圖像技術(shù)展覽會
2024年美國拉斯維加斯礦業(yè)展
2024美國ATA國際先進紡織品博覽會暨遮陽展（美國產(chǎn)業(yè)用布展）
2024第14屆阿塞拜疆(巴庫)國際消防與應(yīng)急展
2024第14屆阿塞拜疆(巴庫)國際勞保展
ADEX2024第五屆阿塞拜疆巴庫國際防務(wù)與軍警展
DroneX2024第四屆英國倫敦國際無人機展
第21屆中國東盟博覽會
第21屆中國-東盟博覽會食品加工和包裝機械設(shè)備展
第21屆中國-東盟博覽會綠色建材展
2024國際機器人展
2024數(shù)控機床與金屬加工展暨第24屆中國國際工業(yè)博覽會
2024新一代信息技術(shù)與應(yīng)用展工業(yè)互聯(lián)網(wǎng)展
2024第二十一屆中國東盟博覽會（東博會 CAEXPO）
2024阿曼薩拉拉國際航空航天與防務(wù)展
2024上海國際先進功能材料展覽會暨材料分析測試儀器設(shè)備展覽會
2024第24屆國際包裝材料展覽會
2024第24屆工博會暨頂墻面材料及內(nèi)部裝飾材料展覽會
2024第24屆中國國際工業(yè)博覽會
第24屆工博會暨球場跑道及運動地坪材料展覽會
2024 Construct Iraq伊拉克國際建材展
2024第14屆阿塞拜疆(巴庫)國際安防展
2024中國國際新能源材料與器件展覽會（新能源材料展）
2024第十屆廣州國際砂石技術(shù)與設(shè)備展
2024亞太服裝服飾供應(yīng)鏈博覽會（LINKFOR 2024）
2024中國環(huán)博會深圳展（IE expo Shenzhen）
2024第18屆中國（深圳）國際物流與供應(yīng)鏈博覽會（物博會 CILF）
2024江西省首屆殯葬設(shè)備用品博覽會
2024第13屆深圳國際營養(yǎng)與健康產(chǎn)業(yè)博覽會
2024年伊朗國際礦業(yè)展
2024第21屆中國東盟博覽會綠色建材、智能家居展
2024烏茲別克斯坦建筑建材&玻璃門窗展覽會報名方式
俄羅斯莫斯科國際泵閥展會PCVEXPO
2024第27屆中國國際衡器展覽會

展開

熱門欄目HotCates

關(guān)于我們

人工智能實驗室（AiLab：Artificial Intelligence Laboratory）中國人工智能領(lǐng)域的專業(yè)媒體平臺，始于2010年的中國AI創(chuàng)業(yè)先行者，專注人工智能、機器人、無人駕駛、可穿戴、模式識別、物聯(lián)網(wǎng)、云計算等新興技術(shù)信息資訊，是人工智能愛好者學(xué)習(xí)和交流平臺，是一群夢想者與實踐者的網(wǎng)絡(luò)家園！

版權(quán)聲明

本站部分文章來源于互聯(lián)網(wǎng)以及網(wǎng)友投稿，本站只負責(zé)對文章進行整理、排版、編輯，是出于知識傳遞之目的，并不意味著贊同其觀點或證實其內(nèi)容的真實性。如果您有什么意見或建議，請聯(lián)系E-mail：kefu#dcy13.com(將#換成@)！

Copyright © 2010-2024 AiLab Team. 人工智能實驗室版權(quán)所有關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港

<span id="uojfr"><noframes id="uojfr">

<li id="uojfr"><dl id="uojfr"><ruby id="uojfr"></ruby></dl></li>

<label id="uojfr"></label>

<label id="uojfr"></label>