展會信息港展會大全

數(shù)學(xué)能力超過ChatGPT!上海交大計算大模型登開源榜首
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-09-23 13:04:37   瀏覽:14905次  

導(dǎo)讀:克雷西 發(fā)自 凹非寺 量子位 | 公眾號 QbitAI 國產(chǎn)數(shù)學(xué)大模型,能力已經(jīng)超過了ChatGPT! 最新榜單中,上海交大GAIR實驗室出品的Abel專有大模型: 準確率高達83.6%,在開源模型中位列第一 。 據(jù)團隊介紹,該模型是用挪威數(shù)學(xué)家尼爾斯阿貝爾(Niels Abel)的名...

克雷西 發(fā)自 凹非寺

量子位 | 公眾號 QbitAI

國產(chǎn)數(shù)學(xué)大模型,能力已經(jīng)超過了ChatGPT!

最新榜單中,上海交大GAIR實驗室出品的Abel專有大模型:

準確率高達83.6%,在開源模型中位列第一。

據(jù)團隊介紹,該模型是用挪威數(shù)學(xué)家尼爾斯阿貝爾(Niels Abel)的名字命名的,以此向阿貝爾在代數(shù)和分析方面的開創(chuàng)性工作致敬。

在GSM8k數(shù)據(jù)集上,70B參數(shù)量的Abel碾壓所有開源模型,還超過了ChatGPT。

甚至在新數(shù)據(jù)集TALSCQ-EN上,Abel的表現(xiàn)比GPT-4還要強。

而實現(xiàn)這樣效果的Abel,成分可以說是十分“單純”:

沒有使用工具

沒有使用數(shù)學(xué)領(lǐng)域的大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)

沒有使用獎勵模型

沒有使用RLHF

僅使用有監(jiān)督精調(diào)(Supervised Fine-tuning,SFT)

那么Abel的效果究竟怎么樣呢?

成績超越開源模型SOTA

這里我們選擇同樣是開源的Llama-2來和Abel對比。

首先來看下這個雞兔同籠問題的變體:

Brown由牛和雞一共60只,雞的數(shù)量是牛的兩倍,一共有多少條腿?

這道題Llama-2出師不利,而且不是計算錯誤,是邏輯上就有問題:

Abel則成功地解決了這個問題。

再來看下一個問題:

12,21,6,11和30的中位數(shù)與平均數(shù)的和是多少?

兩個模型都正確理解了所涉及的概念,但Llama還是在計算和排序上出了錯。

而Abel依舊是正確地做出了這道題:

再從測試數(shù)據(jù)上看看Abel的表現(xiàn)。

首先是OpenAI提出的GSM8k數(shù)據(jù)集(大概是美國高中難度),這份榜單的前十名,Abel占了三個(不同參數(shù)規(guī)模)。

開源模型當中,70B規(guī)模的Abel打敗了曾經(jīng)的SOTAWizardMath。

如果把商業(yè)閉源模型算進來,Abel也僅次于GPT-4、Claude-2和PaLM-2-Flan這些最著名的模型。

甚至ChatGPT也不是Abel的對手。

△地球代表開源模型,鎖代表閉源模型

在難度更高的MATH(競賽題目)數(shù)據(jù)集中,開源模型的前三名被三個規(guī)模的Abel包攬,加上閉源也僅次于Google和OpenAI的產(chǎn)品。

研究團隊還使用了新數(shù)據(jù)集TALSCQ-EN對Abel進行測試,結(jié)果超過了GPT-4。

那么,研究團隊是怎么調(diào)教出這樣一款高性能模型的呢?

“保姆級”微調(diào)訓(xùn)練策略

核心奧義就是高質(zhì)量的訓(xùn)練數(shù)據(jù)。

Abel使用數(shù)據(jù)是經(jīng)過精心策劃的,不僅包含問題的答案,還要能告訴模型找到正確答案是的方法。

為此,研究團隊提出了一種叫做家長監(jiān)督(Parental Oversight)的“保姆級”微調(diào)訓(xùn)練策略。

在家長監(jiān)督的原則之下,團隊僅通過SFT方式就完成了Abel的訓(xùn)練。

為了評價Abel的魯棒性,研究團隊還用GPT4對GSM8k中的數(shù)字進行了修改,測試Abel是否依然能解出正確的答案。

結(jié)果顯示,在調(diào)整版GSM8k數(shù)據(jù)集下,70B參數(shù)的Abel魯棒性超過了同等規(guī)模的WizardMath。

在Abel的介紹的最后,研究團隊還留下了一個彩蛋:

Abel的下一代,將進化成為Bernoulli(伯努利)

不過團隊并沒有對其中的含義進行說明,我們不妨期待一番。

團隊簡介

Abel由上海交通大學(xué)GAIR(生成式人工智能研究組)團隊打造。

該團隊還曾推出過大模型高考Benchmark、AIGC事實核查工具Factool等成果。

該小組負責(zé)人、清源研究院劉鵬飛副教授同時也是Abel項目的負責(zé)人。

對這個數(shù)學(xué)模型感興趣的讀者,可以到GitHub頁面詳細了解。

GitHub頁面:

https://github.com/GAIR-NLP/abel

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港