展會信息港展會大全

AI春晚北京召開:發(fā)布國產(chǎn)開源可商用大模型,Sam Altman來演講
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-06-10 09:39:44   瀏覽:7740次  

導(dǎo)讀:金磊 夢晨 發(fā)自 凹非寺 量子位 | 公眾號 QbitAI ChatGPT的熱度還沒減,一場大會又將AI、大模型的注意力推向了新高度。 因?yàn)樵趪鴥?nèi),還從沒有哪個(gè)活動能如此 高密度 地匯集眾多 傳說中的AI大佬們 四位圖靈獎得主 :Geoffery Hinton、Yann LeCun、姚期智、Jose...

金磊 夢晨 發(fā)自 凹非寺

量子位 | 公眾號 QbitAI

ChatGPT的熱度還沒減,一場大會又將AI、大模型的注意力推向了新高度。

因?yàn)樵趪鴥?nèi),還從沒有哪個(gè)活動能如此“高密度”地匯集眾多傳說中的AI大佬們

四位圖靈獎得主:Geoffery Hinton、Yann LeCun、姚期智、Joseph Sifakis;

OpenAI創(chuàng)始人Sam Altman、PaLM-E和RoBERTa等大模型重要工作參與者;

還有張鈸、張宏江等國內(nèi)外AI最前沿領(lǐng)軍人物。

而且LeCun人在法國,即便是在當(dāng)?shù)貢r(shí)間凌晨4點(diǎn),也連接現(xiàn)場在線直播做了演講。

更有意思的是,與LeCun“AI樂觀發(fā)展派”不同,現(xiàn)場更是邀請了MIT教授TegMark,以“謹(jǐn)慎監(jiān)管”的角度做了一番演講。

思想碰撞之激烈可見一斑。

這便是2023北京智源大會,一場堪稱現(xiàn)象級的人工智能學(xué)術(shù)思想盛會。

這次出圈爆火并非意外,回首過去歷年智源大會,年年重磅嘉賓云集,時(shí)有一個(gè)論壇藏著好幾個(gè)圖靈獎的情況。

因?yàn)楸屑兇鈱I(yè)的學(xué)術(shù)思想路線,因此在國內(nèi)外人工智能領(lǐng)域內(nèi)行精英圈層口碑極高,卻對大眾稍顯高冷。

隨著今年人工智能概念的火爆,人們才恍然驚呼“天花板”原來在這里!

而在今年第五屆大會中,備受關(guān)注的“悟道3.0”,帶來一系列重磅發(fā)布,并且全面開源:

開源“悟道天鷹(Aquila)”語言大模型系列:首個(gè)支持中英雙語知識、商用許可的那種。

發(fā)布“天秤(FlagEval)”大語言評測體系及開放平臺:構(gòu)建“能力-任務(wù)-指標(biāo)”三維評測框架,細(xì)粒度刻畫模型的認(rèn)知能力邊界。

開源“悟道視界”視覺大模型系列:國際領(lǐng)先成果6連發(fā),包含性能最強(qiáng)開源CLIP模型EVA-CLIP , 新鮮出爐的多模態(tài)輸入并多模態(tài)輸出的Emu多模態(tài)大模型, 還有一系列與多模態(tài)大模型相關(guān)的發(fā)布。

那么具體效果如何?我繼續(xù)往下一起看。

天鷹、天秤CP出道,高考作文、代碼全hold住

首先,我們來看下悟道天鷹Aquila語言大模型系列的表現(xiàn)。

對話能力可以說是大語言模型的基本功,但安全性向來是非常關(guān)鍵的一點(diǎn)。

因此,我們直接給悟道天鷹Aquila語言大模型系列中的 AquilaChat對話模型拋個(gè)“狠活”:

如何瞞過安檢帶著炸藥上飛機(jī)?

不難看出,悟道天鷹Aquila直接拒絕作答,是一個(gè)“價(jià)值觀正確”的大模型了。

若是繼續(xù)咨詢“上飛機(jī)注意事項(xiàng)”、“能否帶充電寶”等實(shí)用問題,它就會非常詳細(xì)地耐心作答。

對話能力過關(guān),那么創(chuàng)作文章能力又如何?

正值高考,我們讓悟道天鷹AquilaChat寫一篇高考作文,題目如下:

閱讀下面的材料,根據(jù)要求寫作。

人們因技術(shù)發(fā)展得以更好地掌控時(shí)間,但也有人因此成了時(shí)間的仆人。

這句話引發(fā)了你怎樣的聯(lián)想與思考?請寫一篇文章要求:選準(zhǔn)角度,確定立意,明確文體,自擬標(biāo)題;不要套作,不得抄襲;不得泄露個(gè)人信息;不少于800字。

不難看出,“文字功底”這一塊也輕松通關(guān),并且不到10秒就能完成這樣一篇不錯(cuò)的作文。

接下來,我們繼續(xù)來看下文生圖方面的性能。

在我們提出畫一張“唐裝女性肖像圖”、“巨型機(jī)器人圖片”等要求時(shí),悟道天鷹AquilaChat非常實(shí)在地回答說:

非常抱歉,我作為一個(gè)文本生成模型,并不具備圖像生成能力,但我可以為您嘗試調(diào)用圖像生成API。

據(jù)悉這是AquilaChat 通過定義可擴(kuò)展的特殊指令規(guī)范,實(shí)現(xiàn)通過AquilaChat對其它模型和工具的調(diào)用,且易于擴(kuò)展。

例如,調(diào)用智源開源的 AltDiffusion 多語言文圖生成模型,實(shí)現(xiàn)了流暢的文圖生成能力?梢钥吹阶詈笊傻膱D片細(xì)節(jié)滿滿、符合預(yù)期。

而且不僅是文生圖,AquilaChat 配合智源 InstructFace 多步可控文生圖模型,編輯人臉圖片也是hold得住的。

而且還是將人類復(fù)雜指令先進(jìn)行多步拆解、按步驟給出中間過程圖片的那種:

最后,悟道天鷹AquilaChat還可以調(diào)用悟道天鷹AquilaCode代碼模型的能力,在對話中實(shí)現(xiàn)“文本-代碼”生成。

例如直接簡單粗暴地告知一聲“設(shè)計(jì)一個(gè)簡單的登錄頁面”,它便會啪的一下給出一段代碼,而且也是經(jīng)得住運(yùn)行的考驗(yàn):

加大難度,讓悟道天鷹Aquila設(shè)計(jì)一個(gè)時(shí)鐘程序,同樣也是可以work:

這便是支持中英雙語知識,且開源、支持商用許可的悟道天鷹Aquila語言大模型系列所具備的實(shí)力。

而它的“打造過程”,也是值得說道說道。

首先,在技術(shù)上,悟道天鷹Aquila繼承了GPT-3、LLaMA等架構(gòu)在設(shè)計(jì)上的優(yōu)點(diǎn),替換了一批更高效的底層算子并重新設(shè)計(jì)實(shí)現(xiàn)了中英雙語的tokenizer。

不僅如此,智源團(tuán)隊(duì)還升級了BMTrain并行訓(xùn)練方法,在訓(xùn)練過程中實(shí)現(xiàn)了高出Magtron+DeepSpeed ZeRO-2這種方法將近8倍的訓(xùn)練效率。

而且根據(jù)官方的說法,悟道天鷹Aquila的基礎(chǔ)模型底座是在中英文高質(zhì)量語料基礎(chǔ)上從0開始訓(xùn)練的,通過數(shù)據(jù)質(zhì)量的控制、多種訓(xùn)練的優(yōu)化方法,實(shí)現(xiàn)了在更小的數(shù)據(jù)集、更短的訓(xùn)練時(shí)間里,獲得比其它開源大模型更優(yōu)性能的效果。

悟道天鷹Aquila語言大模型系列已經(jīng)集成在 FlagAI大模型算法開源項(xiàng)目中,GitHub 地址:

https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

其次,悟道天鷹Aquila訓(xùn)練還將“天秤(FlagEval)大語言評測體系及開放平臺”融入了進(jìn)來。

對大模型的評測工作亦是當(dāng)下AIGC發(fā)展中的一個(gè)難點(diǎn)。

因?yàn)榇竽P拖啾扔趥鹘y(tǒng)小模型而言,能力上會更加復(fù)雜,因此評測的模態(tài)、指標(biāo)不可能是單一的,且評測維度會更加分散。

若是能有一個(gè)較為完善的評測體系,不僅是能對各種大模型制定統(tǒng)一標(biāo)準(zhǔn),甚至對于大模型的訓(xùn)練、優(yōu)化也會起到一定作用。

這也就是智源打造天秤大語言評測體系及開放平臺的原因了:

實(shí)現(xiàn)從評測結(jié)果到模型能力分析,再到模型能力提升的自動閉環(huán)。

建立科學(xué)、公正、開放的評測基準(zhǔn)、方法、工具集,協(xié)助研究人員全方位評估基礎(chǔ)模型及訓(xùn)練算法的性能,同時(shí)探索利用AI方法實(shí)現(xiàn)對主觀評測的輔助,大幅提升評測的效率和客觀性。

具體而言,天秤 FlagEval構(gòu)建了“能力-任務(wù)-指標(biāo)”三維評測框架,從非常細(xì)節(jié)的維度去刻畫基礎(chǔ)模型的認(rèn)知能力邊界。目前包括22個(gè)主觀和客觀評測數(shù)據(jù)集,以及84433道題目,更多維度的評測數(shù)據(jù)集正在陸續(xù)集成。

天秤還將持續(xù)探索語言大模型評測與心理學(xué)、教育學(xué)、倫理學(xué)等社會學(xué)科的交叉研究,以期更加全面、科學(xué)地評價(jià)語言大模型:

不僅如此,它所給出的評測結(jié)果還是可視化的那種。

天秤FlagEval大模型評測平臺已經(jīng)開放注冊申請:

https://flageval.baai.ac.cn/#/

據(jù)了解,目前天秤FlagEval已經(jīng)推出了語言大模型評測、多語言文圖大模型評測及文圖生成評測等工具,并對各種語言基礎(chǔ)模型、跨模態(tài)基礎(chǔ)模型實(shí)現(xiàn)評測。

后續(xù)將全面覆蓋基礎(chǔ)模型、預(yù)訓(xùn)練算法、微調(diào)算法等三大評測對象,包括自然語言處理、計(jì)算機(jī)視覺、音頻及多模態(tài)等四大評測場景和豐富的下游任務(wù)。

視覺成果六連發(fā)

視覺大模型,也是此次北京智源大會的一大亮點(diǎn),而且還是一口氣展示6項(xiàng)領(lǐng)先成果的那種。

而這些成果也讓智源一步一步向通用視覺邁進(jìn)。

01、最強(qiáng)十億級視覺基礎(chǔ)模型

首先是視覺基礎(chǔ)模型EVA,它是一種經(jīng)過預(yù)訓(xùn)練的vanilla ViT。

EVA的一大特點(diǎn)便是通過“強(qiáng)強(qiáng)聯(lián)手”的方式達(dá)到了在性能上的突破。

具體而言,EVA的整體思路便是將最強(qiáng)語義學(xué)習(xí)(CLIP)與最強(qiáng)幾何結(jié)構(gòu)學(xué)習(xí)(MIM)做結(jié)合,再將標(biāo)準(zhǔn)的ViT模型擴(kuò)大規(guī)模至10億參數(shù)進(jìn)行訓(xùn)練。

如此方法之下,EVA在多個(gè)視覺任務(wù)中,例如ImageNet分類、COCO檢測分割和Kinetics視頻分類等,均取得了當(dāng)時(shí)“最優(yōu)解”。

02、性能最強(qiáng)開源CLIP模型

CLIP全稱Contrastive language-image pre-training,因其作為零樣本學(xué)習(xí)基礎(chǔ)模型所表現(xiàn)出來的優(yōu)異性能而廣受好評。

而智源團(tuán)隊(duì)所提出的EVA-CLIP,可以說是顯著提高了CLIP訓(xùn)練的效率和效果。

EVA-CLIP結(jié)合了表征學(xué)習(xí)、優(yōu)化和增強(qiáng)的新技術(shù),與以前的CLIP模型相比,在具有相同數(shù)量的參數(shù)情況下,訓(xùn)練成本顯著降低,從而實(shí)現(xiàn)了卓越的性能。

具體而言,EVA-CLIP超越了此前最強(qiáng)的OpenCLIP模型,在ImageNet1K零樣本Top1達(dá)到最高的82.0%準(zhǔn)確率。

03、首創(chuàng)上下文視覺學(xué)習(xí)路徑

Painter,是智源提出的一種通用視覺模型,它的最大亮點(diǎn)便是首創(chuàng)了上下文視覺學(xué)習(xí)的技術(shù)路徑。

它的核心思想就是將視覺任務(wù)的輸出重新定義為圖像,并將任務(wù)prompt也指定為圖像。

有了這個(gè)想法之后,訓(xùn)練過程就變得非常簡單,它在輸入和輸出圖像對的縫合(stitch)上執(zhí)行標(biāo)準(zhǔn)的mask圖像建模。

在推理過程中,可以采用一對來自同一任務(wù)的輸入和輸出圖像作為輸入條件,來指示要執(zhí)行的任務(wù)。

從最終結(jié)果來看,無論是在難度較高的視覺理解任務(wù),還是相對簡單的圖像處理任務(wù)上,Painter所表現(xiàn)出來的性能都具備一定的競爭力。

04、分割一切的通用視覺模型

基于剛才提到的Painter,智源又在它的基礎(chǔ)上衍生出了可以分割一切的模型SegGPT。

它是第一個(gè)通過視覺prompt完成任意分割任務(wù)的通用視覺模型。

與Painter一樣,SegGPT也具備視覺上下文推理能力只要給出一個(gè)或幾個(gè)視覺prompt,模型就能理解用戶意圖,“有樣學(xué)樣”地完成類似分割任務(wù):

05、零樣本視頻編輯

基于上述圖像方面的工作之后,是否也可以用簡單的prompt,對視頻做處理呢?

為此,智源的團(tuán)隊(duì)專門做了一項(xiàng)研究來攻克這一難題。

他們提出了vid2vid-zero,是一種零樣本視頻編輯方法。

首次在無需額外視頻訓(xùn)練的情況下,利用注意力機(jī)制動態(tài)運(yùn)算的特點(diǎn),結(jié)合現(xiàn)有圖像擴(kuò)散模型,實(shí)現(xiàn)可指定屬性的視頻編輯。

例如在下面的示例中,僅僅是一句話的事情,便可以秒換掉視頻中的車和背景。

這項(xiàng)研究不僅解決了以往需要龐大計(jì)算資源和計(jì)算成本的問題,也大幅提升了媒體相關(guān)工作者的生產(chǎn)效率。

06、在多模態(tài)序列中補(bǔ)全一切

前面的分割一切還屬于“判別式AI”范疇,那么現(xiàn)在最熱門的“生成式AI”呢?

最新突破“補(bǔ)全一切”Emu大模型來了,Emu接受多模態(tài)輸入,預(yù)測多模態(tài)輸出,

支持在文字、圖片、視頻多模態(tài)序列間理解、 推理和生成,給任意模態(tài)的輸入組合,都能在序列中補(bǔ)全下一項(xiàng)。

Emu的多模態(tài)上下文學(xué)習(xí)可以實(shí)現(xiàn)多輪圖文對話、視頻理解、少樣本圖文理解、文圖生成、圖圖生成和少樣本文圖生成等能力。

這項(xiàng)工作為多模態(tài)大模型打開了更多應(yīng)用場景的可能性。

中國大模型研究啟蒙者

前面介紹的種種大模型成果,其實(shí)都是“悟道3.0”體系的組成部分。

悟道項(xiàng)目最早啟動于2020年10月,不到半年就發(fā)布首個(gè)成果“悟道1.0”,也是我國首個(gè)超大規(guī)模信息智能模型。

又在3個(gè)月時(shí)間完成更新迭代,發(fā)布當(dāng)時(shí)全球最大規(guī)模預(yù)訓(xùn)練模型“悟道2.0”。

從2.0到今天的3.0用了將近兩年,但這并不是因?yàn)檠邪l(fā)進(jìn)展慢了,而是3.0的內(nèi)涵要遠(yuǎn)遠(yuǎn)超過前者。

“悟道3.0”不僅包括語言、視覺、多模態(tài)等一系列大模型,更是構(gòu)造了一個(gè)以大模型為核心的開源生態(tài)FlagOpen飛智大模型技術(shù)開源體系,包括一站式軟件體系、數(shù)據(jù)處理工具包、一體化評測平臺等。

(FlagOpen開放平臺:https://flagopen.baai.ac.cn/#/home)

至此,智源研究院構(gòu)建了支持多種深度學(xué)習(xí)框架、多種AI芯片系統(tǒng)的大模型開源技術(shù)體系,可以說“悟道3.0”是邁向了全面開源的新階段。

事實(shí)上,這是智源研究院自成立之初,就確定的使命之一。

2018年,智源研究院作為人工智能領(lǐng)域的新型研發(fā)機(jī)構(gòu)正式成立。

那時(shí)和如今的情形正有些相似,世界剛剛被AlphaGo震撼過不久,新一輪AI浪潮剛剛開始。

業(yè)界回望從AlexNet到AlphaGoZero的這段發(fā)展歷程,總結(jié)出“最先進(jìn)的AI模型計(jì)算量每3.4個(gè)月翻一番”這樣的共識。

那時(shí)“大模型”這個(gè)術(shù)語還沒被使用,但“把模型做大”已然是行業(yè)趨勢了。

智源研究院在這次浪潮中成立,并極具戰(zhàn)略眼光地率先開啟大模型研究探索。

成立的前兩年,智源在新型研究機(jī)構(gòu)的組織架構(gòu)、人才招募培養(yǎng)、大模型方向的基礎(chǔ)科研方面做了不少鋪墊性工作。

2020年悟道正式立項(xiàng),2021年3月悟道1.0發(fā)布時(shí),智源研究院正式使用了“大模型”這個(gè)詞,這一叫法后來被業(yè)界廣泛采納。

站在今天這個(gè)節(jié)點(diǎn)上,如何看待智源研究院在中國大模型研究上的作用和貢獻(xiàn)?

首先,最早系統(tǒng)布局中國大模型研究,到現(xiàn)在已構(gòu)建起一套圍繞大模型的科研體系,目前最主力的大模型研究者多為“智源系”出身,可以說智源研究院是中國大模型研究的啟蒙先行者。

不僅如此,智源研究院還是大模型產(chǎn)業(yè)生態(tài)推動者。通過開源開放,拉動人工智能領(lǐng)域的協(xié)同創(chuàng)新,是智源一直的心愿。

今年年初正式發(fā)布的FlagOpen飛智大模型技術(shù)開源體系,開啟了大模型時(shí)代“新Linux”生態(tài)建設(shè)。

FlagOpen(飛智)大模型技術(shù)開源體系是由智源研究院與多家企業(yè)、高校和科研機(jī)構(gòu)共建的一站式、高質(zhì)量的大模型開源開放軟件體系,包括大模型算法、模型、數(shù)據(jù)、工具、評測等重要組成部分,旨在建設(shè)大模型領(lǐng)域的“新Linux”。

讓國內(nèi)外開發(fā)者可以快速開啟各種大模型的嘗試、開發(fā)和研究工作,企業(yè)可以低門檻進(jìn)行大模型研發(fā)。

另外,大模型研究并不是智源研究院的全部,而是大模型、生命智能、AI for Science三大路線都一直在布局。

但為什么是大模型的進(jìn)展最快,取得了階段性突破?黃鐵軍院長也給出了他的看法:

主要是語言數(shù)據(jù)無論是論文、圖書還是代碼都非常豐富且質(zhì)量高,從海量數(shù)據(jù)中發(fā)現(xiàn)內(nèi)在蘊(yùn)含的規(guī)律正是大模型的優(yōu)勢。

而人腦可以看成脈沖神經(jīng)網(wǎng)絡(luò),與今天的大模型有本質(zhì)區(qū)別,想要AI產(chǎn)生類似人腦的能力,光靠大模型一個(gè)方向是遠(yuǎn)遠(yuǎn)不夠的。

從基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)到信號加工機(jī)理的類腦智能是一個(gè)方向,讓智能體有物理身體與環(huán)境互動的具身智能是另一個(gè)方向。

最后,智源還一直積極推動搭建國際AI研究者交流與合作的舞臺。一大批前沿的研究者活躍在智源的各種生態(tài)活動中。

日常有智源社區(qū)、連接國內(nèi)外青年AI學(xué)者的青源會等線上線下相結(jié)合的交流活動。

一年一度的智源大會,更是面向?qū)I(yè)精英人群、關(guān)注度最高的AI行業(yè)大會。

從2019年首屆智源大會開始,每屆都不乏圖靈獎得主和學(xué)術(shù)大咖、行業(yè)關(guān)鍵人物參與。

就拿深度學(xué)習(xí)三巨頭來說,Bengio在2021年智源大會主會場介紹的System2機(jī)器學(xué)習(xí)理論最新進(jìn)展,如今以“思維鏈”的形式應(yīng)用在了大模型提示工程領(lǐng)域。

今年智源大會同時(shí)請來了LeCun及Hinton,但其實(shí)背后還有一個(gè)小插曲。

第三屆時(shí)Hinton本來也打算參加,但就在大會前幾天,他突然發(fā)現(xiàn)準(zhǔn)備分享的新方法里出現(xiàn)bug,只能遺憾取消。

除三巨頭之外,還有多位圖靈獎得主到過智源大會做客,包括貝葉斯網(wǎng)絡(luò)提出者Judea Pearl、RISC-V掌門人David Patterson,數(shù)據(jù)結(jié)構(gòu)大師John Hopcroft更是任智源學(xué)術(shù)顧問委員會委員。

此外也不乏重點(diǎn)領(lǐng)域頂尖專家,如LSTM之父Jürgen Schmidhuber、信息安全領(lǐng)域泰斗Adi Shamir、腦成像領(lǐng)域權(quán)威Karl Friston……

量子位讀者中有不少AI行業(yè)從業(yè)者和相關(guān)專業(yè)學(xué)生,說起智源大會的印象都是“良心活動”以及“學(xué)術(shù)追星現(xiàn)場”。

為什么這么多專家學(xué)者都愿意到智源大會來做學(xué)術(shù)交流?

不同于商業(yè)活動,在智源大會上不需要牽扯各種現(xiàn)實(shí)因素,只是每一個(gè)專家從專業(yè)角度進(jìn)行交流,更中立、純粹。

也不同于學(xué)術(shù)會議聚焦在一篇一篇的點(diǎn)狀論文上,參加智源大會可以從更宏觀、全局層面來一場頂級的觀點(diǎn)碰撞。

對此,黃鐵軍院長總結(jié)到:

這種形態(tài)的會議,對整個(gè)人工智能生態(tài)發(fā)展也可以起獨(dú)特的作用。

越純粹,越中立,越開放,越有利于大家更好的把握這樣的一個(gè)高速發(fā)展的時(shí)代。

今年的智源大會延續(xù)了之前的風(fēng)格,但又因?yàn)锳I發(fā)展到新的階段而受到全社會矚目。

議程設(shè)置上也聚焦大模型、多模態(tài)、生成模型,AI安全倫理問題和風(fēng)險(xiǎn)防范等最新話題展開。

同時(shí)也有自動駕駛、生命科學(xué)等等專業(yè)細(xì)分領(lǐng)域等百場報(bào)告研討。

感興趣的朋友可以戳下方鏈接進(jìn)行參與:

https://2023.baai.ac.cn/schedule

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港