當(dāng)前位置：人工智能實驗室> 人工智能動態(tài) > 中國最強AI研究院的大模型為何遲到了

中國最強AI研究院的大模型為何遲到了
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-06-11 19:33:46 瀏覽：4683次

導(dǎo)讀：出品｜虎嗅科技組作者｜齊健編輯｜陳伊凡頭圖｜FlagStudio OpenAI會再開源大模型嗎？當(dāng)智源研究院理事長張宏江向線上參加2023年智源大會的OpenAI首席執(zhí)行官Sam Altman問及開源問題時，Sam Altman微笑表示， OpenAI未來會開放更多代碼，但沒有具體的開源...

出品｜虎嗅科技組

作者｜齊健

編輯｜陳伊凡

頭圖｜FlagStudio

“OpenAI會再開源大模型嗎？”

當(dāng)智源研究院理事長張宏江向線上參加2023年智源大會的OpenAI首席執(zhí)行官Sam Altman問及開源問題時，Sam Altman微笑表示，OpenAI未來會開放更多代碼，但沒有具體的開源時間表。

這樣的討論來自這次智源大會的話題之一開源大模型。

6月9日，2023年智源大會在北京舉行，座無虛席。在大會現(xiàn)場，“算力”、“大模型”“生態(tài)”等與AI相關(guān)的詞時不時出現(xiàn)在參會者的聊天中，還有這個產(chǎn)業(yè)鏈上的各家公司。

本次大會上，智源研究院發(fā)布了全面開源的悟道3.0。包括視覺大模型系列“視界”，語言大模型系列“天鷹”，以及獨創(chuàng)的大模型評測體系“天秤”。

大模型開源，就意味著公開模型代碼，供AI開發(fā)者研究。悟道3.0中的“天鷹”基礎(chǔ)層語言模型還是一款可商用的模型，每個人都可以免費使用這款大模型。

“目前，國際上有三家機構(gòu)在AI領(lǐng)域處在前沿地位，微軟的深度合作伙伴OpenAI，谷歌，以及BAAI。”微軟總裁Brad Smith在不久前的一次采訪中，曾提到一家與OpenAI、谷歌齊名的中國“最強”AI研究機構(gòu)BAAI，這家機構(gòu)就是北京智源人工智能研究院。這樣一家研究院舉辦的人工智能大會，被眾多業(yè)內(nèi)人士視為行業(yè)的風(fēng)向標(biāo)。

被微軟總裁高度認可的智源研究院，早在2020年10月已啟動了AI大模型“悟道”項目，并先后發(fā)布了悟道大模型1.0和2.0兩個版本。其中悟道2.0官方公布的參數(shù)規(guī)模達到1.7萬億。彼時，OpenAI公布1750億參數(shù)的GPT-3模型也才一年時間。

不過，就是這樣一個AI大模型的先行者，在最近半年的AI大模型熱潮中，卻異常低調(diào)。

當(dāng)大廠和創(chuàng)業(yè)公司中，大模型層出不窮時，智源在過去三個多月里，對外一直保持“靜默”狀態(tài)，除了4月上旬與Meta的摳圖AI“SAM”撞車的“SegGPT”，幾乎沒有向公眾透露任何有關(guān)AI大模型的信息。

對此，AI行業(yè)內(nèi)外的很多人都有疑問，在AI大模型領(lǐng)域領(lǐng)先的智源研究院，為什么在大模型的高潮時刻似乎來遲了？

開源模型要拆了OpenAI的護城河嗎？

“雖然現(xiàn)在的大模型競爭火熱，但無論是OpenAI還是谷歌，都沒有護城河，因為‘開源’正在AI大模型領(lǐng)域崛起。”

在一份谷歌泄露的文件中，谷歌內(nèi)部研究人員認為，開源模型或?qū)⒁I(lǐng)大模型發(fā)展的未來，這份文件中提到“開源模型的迭代速度更快，可定制性更強，更有私密性，而當(dāng)免費的、不受限制的替代品質(zhì)量相當(dāng)時，人們不會為受限制的模型付費。”這或許也是智源選擇開發(fā)開源大模型的原因之一。

目前，開源的商用大模型并不多，智源研究院對目前已發(fā)布的部分AI大模型進行了一個調(diào)查，在國外發(fā)布的39個開源語言大模型中，可商用的大模型有16個。國內(nèi)已發(fā)布的28個大語言模型中，開源模型有11個，其中開源可商用的模型僅有1個。

智源此次發(fā)布的大語言模型是開源且可商用的模型，也是目前為數(shù)不多的可商用開源大語言模型之一，這也決定了這樣的模型在發(fā)布之前需要更加謹慎。

“就智源來說，肯定不希望開源模型太難看，所以會謹慎發(fā)布。”智源大會現(xiàn)場的一位AI研究員表示，開源模型難免要被反復(fù)驗證，被大量開發(fā)者挑bug，為了保證開源模型的質(zhì)量，智源的研發(fā)進度可能被“開源”拖慢了一些。

智源研究院院長黃鐵軍認為，目前我國市場上大模型的開源開放力度遠遠不夠，“我們應(yīng)該進一步加強開源開放。開源開放也是競爭，真有水平、真有好算法，拿出來評測、去比，才能證明技術(shù)水平。”

目前國內(nèi)的大模型技術(shù)透明度不高，不少國內(nèi)廠商在大模型發(fā)布之初，都曾被質(zhì)疑模型是否自研。有人說他們是API調(diào)用ChatGPT，也有人說他們用Meta泄露的LLaMA模型+ChatGPT的答案數(shù)據(jù)訓(xùn)練而來，開源模型則從源頭上斷絕了這些質(zhì)疑。

不過，開源模型，提高技術(shù)透明度并不是為了自證清白，而是真的要“集中力量辦大事”。據(jù)智源數(shù)據(jù)顯示，天鷹大語言模型每天的訓(xùn)練成本在10萬元以上，而在國內(nèi)“百模大戰(zhàn)”甚至“千模大戰(zhàn)”的大勢下，很多行業(yè)中都在進行大量不必要的重復(fù)訓(xùn)練，導(dǎo)致的重復(fù)開支可能是個天文數(shù)字。

而開源模型可以減少重復(fù)訓(xùn)練，對于有模型需求的企業(yè)來說，直接利用開源可商用的AI大模型，結(jié)合自身數(shù)據(jù)進行訓(xùn)練，或許是AI落地和行業(yè)應(yīng)用的最優(yōu)解。

開源的另一方面考慮，在于前期積累用戶和開發(fā)者，以便構(gòu)建良好生態(tài)，并實現(xiàn)未來的商業(yè)化。一位國內(nèi)大模型公司創(chuàng)始人告訴虎嗅，“OpenAI的GPT-1和GPT-2都是開源的大模型，這是為了積累用戶，提高模型的認可度。等到GPT-3的模型能力涌現(xiàn)出來，就會開始考慮商業(yè)化，模型也會逐漸走向封閉。因此，開源模型一般不會允許商用，這也是出于后續(xù)商業(yè)化的考慮。”

但顯然，智源作為非營利的研究機構(gòu)，在開源問題上，并沒有商業(yè)化的考慮。對于智源而言，在模型開源方面，一方面是希望通過對底層模型等開源開放，促進AI大模型行業(yè)的科研創(chuàng)新，加速產(chǎn)業(yè)落地。另一方面，或許也是想要基于開源模型積累更多的用戶反饋，提升大模型在工程上的可用性。

不過，模型開源也并非“完美”。

一位大廠AI技術(shù)總監(jiān)告訴虎嗅，目前的AI大模型的商業(yè)化市場可以分為三層，第一層是完全具備自研模型能力的頭部大玩家，第二層是需要根據(jù)特定場景訓(xùn)練專有模型的企業(yè)，第三層則是只需要通用模型能力，使用API接口調(diào)用即可滿足需求的中小客戶。

在這個背景下，開源模型對于有自研能力的頭部玩家來說，可以幫助他們省去了大量研發(fā)模型的時間和成本。但對于第二層和第三層企業(yè)來說，則需要他們自己組建技術(shù)團隊去對模型進行訓(xùn)練和調(diào)優(yōu)，而這對于很多技術(shù)實力不那么雄厚的企業(yè)來說，反而把落地流程變得更加復(fù)雜了，開源對他們來說似乎有一些“免費的東西最貴”的感覺。

此“悟道”已非彼“悟道”

智源的悟道3.0，是一套完全重新開發(fā)的大模型系列，這也是其“遲發(fā)”的原因之一。

既然已經(jīng)有了悟道2.0的基礎(chǔ)，智源為什么要重新開發(fā)一套模型體系？一方面是模型的技術(shù)方向調(diào)整，另一方面則是由于模型底層訓(xùn)練數(shù)據(jù)的“換血”。

“悟道2.0的研發(fā)是在2021年，所以無論是語言模型（如GLM）還是文生圖模型（如CogView），其所基于的算法架構(gòu)從現(xiàn)在來看是比較早的。在過去一年多，相關(guān)領(lǐng)域的模型架構(gòu)已經(jīng)有了更多的驗證、或演進。例如，語言模型中采用decoder only的架構(gòu)，已經(jīng)證實，加以更高質(zhì)量的數(shù)據(jù)，可以在大規(guī)模參數(shù)的基礎(chǔ)模型中，獲得更好的生成性能。在文生圖模型中，我們改用了基于difussion來進行進一步的創(chuàng)新。所以在悟道3.0中，我們對語言大模型、文圖生成大模型等都采用了這些更新的架構(gòu)來重新開發(fā)。”在智源研究院副院長兼總工程師林詠華表示，基于過去模型的研究，悟道3.0在很多方向進行了重構(gòu)。

另外，悟道3.0還對底層模型的訓(xùn)練數(shù)據(jù)進行了全面優(yōu)化升級，訓(xùn)練數(shù)據(jù)中使用了更新的悟道中文數(shù)據(jù)，包括2021年到現(xiàn)在的，并進行了更嚴(yán)格的質(zhì)量清洗；另一方面，增加了大量的高質(zhì)量中文，包括中文書籍、文獻等；此外還增加了高質(zhì)量的代碼數(shù)據(jù)集等，因此基礎(chǔ)模型也發(fā)生了很大的改變。

在此之前，很多國內(nèi)模型對中文理解能力不行的問題，就源自底層模型訓(xùn)練的數(shù)據(jù)不是原生中文。國外的AI大模型，以及部分國內(nèi)模型都采用了大量國外開源數(shù)據(jù)進行訓(xùn)練。其中主要的來源包括著名的開源數(shù)據(jù)集Common Crawl。

智源對100萬條Common Crawl網(wǎng)頁數(shù)據(jù)進行分析，可以提取出中文的網(wǎng)頁有39052個。從站源角度來看，可以提取出中文的網(wǎng)站共有25842個，其中IP在中國內(nèi)地的，只有4522個，占比僅為17%。這樣不僅中文數(shù)據(jù)的準(zhǔn)確性大打折扣，安全性也很低。

“訓(xùn)練基礎(chǔ)模型的語料很大程度會影響AIGC應(yīng)用、微調(diào)后的模型等內(nèi)容生成的合規(guī)、安全和價值觀。”林詠華表示，天鷹基礎(chǔ)模型的中文能力不是簡單的翻譯，而是把足夠多中文的知識“壓到這個模型里”，它的中文互聯(lián)網(wǎng)數(shù)據(jù)99%來自國內(nèi)網(wǎng)站，企業(yè)可以放心地基于它做持續(xù)訓(xùn)練。

同時，通過大量對數(shù)據(jù)、數(shù)字的精細化處理和清洗，達到用少的數(shù)據(jù)量來訓(xùn)練出一樣性能甚至性能更好的模型，這個數(shù)據(jù)甚至低到30%、40%的數(shù)據(jù)量就能趕上或者超過現(xiàn)有的開源模型了。

如今看來，這條路徑對于智源來說，也許是個更優(yōu)解。因為在訓(xùn)練數(shù)據(jù)方面，智源與互聯(lián)網(wǎng)廠商相比存在短板。互聯(lián)網(wǎng)大廠不僅擁有大量來自用戶側(cè)的交互數(shù)據(jù)，還擁有很多可用于訓(xùn)練的版權(quán)數(shù)據(jù)。就在不久前，阿里達摩院剛剛發(fā)布來一款視頻語言數(shù)據(jù)集Youku-mPLUG，其中的所有內(nèi)容均來自阿里旗下的視頻平臺優(yōu)酷。

由于智源沒有深厚的用戶基礎(chǔ)，所以在訓(xùn)練數(shù)據(jù)方面，只能通過與版權(quán)方協(xié)商獲得授權(quán)，并通過一些公益數(shù)據(jù)項目一點點采集積累。

但是，目前智源的中文數(shù)據(jù)集還只能做到部分開源，其主要原因是，中文數(shù)據(jù)的版權(quán)分散在各個機構(gòu)手中，目前智源的訓(xùn)練數(shù)據(jù)是在多方協(xié)調(diào)下，獲得的針對開源模型研究開放的使用權(quán)限。大部分數(shù)據(jù)只能應(yīng)用到智源的模型中，而沒有開放二次使用的權(quán)利。

“國內(nèi)很有必要建立針對數(shù)據(jù)集的產(chǎn)業(yè)聯(lián)盟，把版權(quán)所有方聯(lián)合在一起，對人工智能方面的訓(xùn)練數(shù)據(jù)進行統(tǒng)一規(guī)劃，但這需要頂層設(shè)計的智慧。”林詠華告訴虎嗅。

國內(nèi)大模型行業(yè)的黃埔軍校

悟道3.0正在講一個與悟道2.0不同的故事，研發(fā)團隊的變化是其中之一。作為AI大模型行業(yè)的先驅(qū)，智源研究院就像是國內(nèi)AI大模型的黃埔軍校。上到智源學(xué)者，下至基層工程師，在今天的大模型熱潮中，都成了行業(yè)里的香餑餑，智源的原始團隊中，也孵化了幾個大模型的創(chuàng)業(yè)團隊。

在悟道3.0之前，一個大模型系列是由多個外部實驗室聯(lián)合發(fā)布的研究成果的組合，而這次的悟道3.0是由智源團隊完全自研的系列模型。

2021年發(fā)布的悟道2.0模型，其中包括：文源、文瀾、文匯、文溯。其中，兩個核心模型分別由清華的兩個實驗室主力完成。而如今這兩個團隊都已成立了自己的創(chuàng)業(yè)公司，并沿著CPM和GLM的研發(fā)路徑形成了自己的獨立產(chǎn)品。

其中，GLM的主力研發(fā)團隊清華大學(xué)知識工程研究室（KEG），就與智譜AI一同推出了開源模型ChatGLM-6B，并得到了業(yè)界的廣泛認可；CPM的主力研發(fā)團隊，清華大學(xué)計算機系自然語言處理與社會人文計算實驗室（THUNLP）中的部分成員組成的深言科技，成立一年就受到了各家資本的青睞，今年的兩輪融資中分別出現(xiàn)了騰訊投資、紅杉中國、奇績創(chuàng)壇等基金的身影。

有接近智源研究院的人士告訴虎嗅，自從國內(nèi)AI大模型升溫以來，智源團隊成為了人才大戰(zhàn)的“圍獵目標(biāo)”，“整個研發(fā)團隊都被其他公司或獵頭盯上”。

當(dāng)下國內(nèi)AI大模型行業(yè)，最不缺的是錢，最缺的就是人。在獵聘、脈脈、BOSS直聘三個平臺搜索ChatGPT，碩博學(xué)歷職位的月薪普遍高于3萬，最高達9萬。“在薪酬方面IT大廠并不會占多少便宜，AI大模型的研發(fā)都是高舉高打，創(chuàng)業(yè)公司給出的薪酬可能更有競爭力。”西湖心辰COO俞佳對虎嗅表示，人才大戰(zhàn)在AI行業(yè)里將會越來越激烈。

“薪酬double，在智源的很多員工看來根本就沒有競爭力。因為現(xiàn)在都是拿著五倍甚至十倍工資來挖人。即使你再有理想，對未來再有規(guī)劃，也很難頂住過百萬年薪的誘惑。”一位接近智源的人士告訴虎嗅，由于智源是一家非營利研究機構(gòu)，薪酬水平很難與互聯(lián)網(wǎng)大廠或者是背后有大量資本支持的創(chuàng)業(yè)公司相比。

虎嗅從獵頭處了解到NLP（自然語言識別）研究專家的年薪目前起步都會超過100萬。對于一些工作年限長，工資不高的員工來說，面對幾倍的薪水很難不動遙

不過，從目前智源的公開數(shù)據(jù)來看，智源研究院的各個核心項目團隊帶頭人，多數(shù)還在全職負責(zé)智源研究院的研發(fā)項目。

“悟道3.0的模型全部是智源自己的研究人員開發(fā)的，包括天鷹、天秤，以及視界。”林詠華表示，智源研究院目前的研發(fā)實力在行業(yè)中一直是頂尖的。