當前位置：人工智能實驗室> 人工智能動態(tài) > 智譜AI CEO張鵬：中國大模型創(chuàng)業(yè)者，不再追隨OpenAI

智譜AI CEO張鵬：中國大模型創(chuàng)業(yè)者，不再追隨OpenAI
來源：互聯(lián)網發(fā)布日期：2023-09-19 09:17:17 瀏覽：11564次

導讀：大模型如何從實驗室到商業(yè)化公司。文｜《中國企業(yè)家》記者趙建凱編輯｜李薇頭圖來源｜受訪者看到福島核電站啟動核污染水排海的新聞，張鵬在自己的電腦上選了一個AIGC機器人模板，想看看結合這個主題，AI能給出什么建議，寫出什么題材的內容。 AI機器...

大模型如何從實驗室到商業(yè)化公司。

文｜《中國企業(yè)家》記者趙建凱

編輯｜李薇

頭圖來源｜受訪者

看到福島核電站啟動核污染水排海的新聞，張鵬在自己的電腦上選了一個AIGC機器人模板，想看看結合這個主題，AI能給出什么建議，寫出什么題材的內容。

AI機器人給出來的前五條結果比較常規(guī)，都是關于核電站、核污水的歷史、書目、科普知識這類內容。然而，之后的幾條結果，讓他感到了幾分驚奇。

“我覺得后兩條建議，真的超出了想象。”坐在北京清華科技園賽爾大廈五層的會議室，張鵬對《中國企業(yè)家》說道。賽爾大廈五層是智譜華章公司所在地，這家公司更為人熟悉的名字是智譜AI，張鵬則是這家AI創(chuàng)業(yè)公司的CEO。

這臺智譜AI研發(fā)的AI機器人，按照張鵬的提問，生成的一條建議是，“結合AR或VR的技術，做一個全場景式的虛擬游覽，帶著人去看下福島核電站現(xiàn)在的狀況與以前的對比、差異有哪些，‘切身’體驗一下核污水排放的影響到底有沒有，影響究竟幾何。”

這個結果，于張鵬的個人感受雖然是意料之外，但如果結合到他現(xiàn)在所做的事情，也許就是情理之中了�；蛟S是這臺AI機器人背后的算法，捕捉到了張鵬在平時工作中的一些碎片信息，才給出來這樣的建議。

雖然成立只有四年時間，但由于是由清華大學計算機系知識工程實驗室的技術成果轉化而來，智譜AI自誕生起就頗受市場關注，估值已經超過了100億元人民幣，是目前國內估值最快超過百億人民幣的創(chuàng)業(yè)公司之一。

有接近智譜AI的人士稱，這家公司目前正處于新一輪融資中，新一輪投后估值在140億元人民幣左右，但尚未對外公布確認的具體投資人。

作為一家AI創(chuàng)業(yè)公司的掌舵者，張鵬現(xiàn)在所做的事情，就是如何將AI大語言模型在應用層面上，實現(xiàn)更快、更好的商業(yè)化落地。

從OpenAI受到啟發(fā)

有人把2023年定義為“大語言模型元年”。一個關鍵的理由是，今年以來國內已有十多家AI公司的融資都超過了1億元，除了智譜AI外，還有百川智能、瀾舟科技、Minimax等公司。

“元年”的觸發(fā)點，是去年11月份OpenAI公司首次向公眾開放自家的聊天機器人ChatGPT，不僅推高了AI投資浪潮，更推高了AI發(fā)展的新一波技術浪潮。

投資圈、創(chuàng)業(yè)圈里很多人都認為，如今的AI技術的重要作用和影響，并不遜于智能手機、云計算。這項技術的應用，可以重塑很多行業(yè)，比如廣告營銷、金融、電子商務等。

那些可以完全掌握這項技術的核心的AI公司，或者那些可以充分應用這項技術的公司，都能率先在市場上贏得一定的市場份額，占據市場主導地位。

但在張鵬的定義中，“AI大語言模型元年”應該是2020年，也就是智譜AI成立的第二年。

2020年6月，OpenAI發(fā)布了預訓練語言模型GPT-3，“刺激”了包括蘋果、谷歌在內的一些科技巨頭公司，投入更多的資金和人力訓練自己的大語言模型。

來源：視覺中國

與以往的語言訓練模型相比，GPT-3最大的不同之處在于，它所支持的訓練參數的規(guī)模數量達到了1750億個，這個規(guī)模比其上一代（2018~2019年間，OpenAI推出過GPT-1、GPT-2）的GPT-2高出了一個數量級，并且，每個參數都還可以單獨調整。

GPT-3甫一問世，人們就爭相探索它的文本內容生成能力，嘗試著用它來撰寫短篇小說、喜劇劇本，甚至創(chuàng)作詩歌。

但GPT-3也有自生“胎里帶”的問題它生成的文本內容的含義與對現(xiàn)實世界的理解、解釋之間，仍存在差距。

雖然生成的文本在（英語）語法上是正確的，但卻脫離了現(xiàn)實，比如，它會寫到“從夏威夷跳到17需要兩條彩虹”(“it takes two rainbows to jump from Hawaii to 17”)。

“GPT-3的應用效果在一開始推出時并不是很好，但在當時也確實讓大家看到了一種新思路確切地說，是從當時AI技術研究的角度來說，創(chuàng)造了一個新的思路。”張鵬說。

GPT-3帶來思路啟發(fā)后，業(yè)內出現(xiàn)了兩極分化，一撥人覺得它是個新物種，非常贊。而另一撥人覺得它既沒有生成什么新的東西，在背后也沒有什么高深的理論支撐，只不過是“大力出奇跡”而已，應用效果也并不是很好。張鵬則站在“兩極”之外，以開放的視角來看待。

在張鵬看來，技術的衍生、演進是線性連續(xù)的，“永遠是慢慢地往上漲、往上漲”。當技術的研究和應用累積到一個“閾值”時，會邁過一個很關鍵的“坎兒”，這時的變化或效果就好像實現(xiàn)了一個階層跳躍，會讓大家大吃一驚，幾乎超過所有人的預料。

“當時（2020年）令我吃驚的，并不是GPT-3在原理或理論上的突破，而是這種技術變化或效果的階躍的出現(xiàn)，也就是所謂的‘智能涌現(xiàn)’。”

OpenAI的研究員統(tǒng)計出，在目前各種不同的大語言模型中已經出現(xiàn)了接近140種所謂的“涌現(xiàn)”能力。

“所以在我心里，把GPT-3出現(xiàn)的2020年，看作這一波AI技術（生成式預訓練模型）浪潮的‘元年’。” 張鵬對《中國企業(yè)家》說。

冥冥之中自有巧合。OpenAI的GPT-3在2020年發(fā)布的時間，與智譜AI公司成立一周年的司慶日“撞”在了一起。

司慶日當天，國內AI領域的先驅張鈸院士作為受邀嘉賓來到智譜AI座談。張鵬建議，與張鈸院士好好聊一下關于剛發(fā)布的GPT-3。

“GPT-3發(fā)布前，我們自己其實也在做這樣的技術。它一發(fā)布，我們心里就隱隱有一種感受，它確實不一樣。”張鵬說，“OpenAI做的這個事情，也是我們一直期待去做的，一定要去追尋去做的，更是一定要去做的。”

一周年司慶之后，智譜AI把OpenAI作為自己的對標對象，投入全情全力去做這件心中念念不忘的事情，開始規(guī)劃自己的超大規(guī)模預訓練模型。

“是千億參數規(guī)模以上的那種預訓練模型。在當時，能做這個事情的公司還是少數，最多只有五家。”張鵬強調。

“權衡”VS “兼顧”

接受《中國企業(yè)家》專訪時，張鵬言談間透露出典型的學者才有的一些習慣：在論述一個主題時，開始會有前情提要的鋪墊，中間有論述的展開和闡釋，最后有結論的輸出和定論。

他的衣著，透露出的則是一種權衡之后的兼顧：白色立領襯衫傳達出恰如其當的商務氣質；專業(yè)跑鞋，可以保證行動自如時的舒適性。即便是正式采訪前喝咖啡，也是權衡了咖啡因的提神效果和劑量后，才選擇只喝一杯咖啡。

這種“權衡”和“兼顧”，在智譜AI決定下場進入大規(guī)模預訓練模型“游戲”時，更有著重體現(xiàn)。

作為一家創(chuàng)業(yè)公司，要做大語言模型，“想到”之外，在“做到”時除了研究層面上的挑戰(zhàn)，還有模型訓練工程層面上涉及到的資源投入、團隊、訓練數據等一系列的事情，每一項都需要非常大的投入。

“要想把這個模型做出來，成本巨大。不是隨隨便便的一個玩家就能玩得起的。我們在當時下了很大的決心，才開始做這件事情。”張鵬說。

2019年發(fā)表的一篇論文就曾估計出，訓練一種大語言模型一個版本的成本在當時就高達300萬美元。有新的數據稱，GPT-4的訓練總成本在1億美元左右。這些真金白銀，主要集中用在數據、計算力、電力等幾方面。

大模型訓練所需的數據量，限制著模型能力能否持續(xù)改進。GPT-3在訓練時用到的文本數據量，相當于可從互聯(lián)網上公開下載的所有高質量文本的數量。而其他的可供訓練用的高質量文本，被存儲在一些公司的專門數據庫中，不能隨便、免費使用。要想使用這些專有數據，需要支付版權費。

已經有AI公司為了訓練自己的模型，正在尋求與類似《衛(wèi)報》、新聞集團這類的媒體機構合作，使用它們的授權文章來訓練自己的模型，每年的合作費用大概在500萬至2000萬美元。還有的AI公司用已有的大模型生成出來的內容，去二次“喂養(yǎng)”，但這種訓練的結果喜憂參半。

至于電力消耗，大模型訓練就像是一個吃電怪獸。OpenAI在訓練GPT-3的時候，用掉了1.3吉瓦時(GWh)的電力，相當于美國120個家庭一年的用電量，電費花了460萬美元。

決定下場后，智譜AI面臨數據不足、算力不夠、成本高企與模型實用有效性之間如何權衡的困境。“對于我們這樣的一個創(chuàng)業(yè)公司而言，在當時做這個事情，首要目標是把成本降下來。也確實是經歷過一段比較困難的時期。”張鵬說。

在權衡了各種籌錢的辦法后，智譜AI決定自己掏腰包做。當初“困難時期”的一個有趣場景是，公司一只眼看著訓練的數據量輸入越來越少，另一只眼看著銀行賬戶上的儲備現(xiàn)金輸出越來越多。

這些流出去的錢，有一定的比例是用在購買訓練所用的算力上。算力的大小與涌現(xiàn)能力的出現(xiàn)緊密關聯(lián)。因為出現(xiàn)涌現(xiàn)的閾值，除了與訓練數據的規(guī)模有關，更要靠算力這個“煉丹爐”的加持。

在高算力的作用下，模型規(guī)模只要稍微再擴大一些，新的能力在電石火花間就能顯現(xiàn)出來。當初，GPT-3.5沒能通過美國統(tǒng)一律師考試，到了GPT-4時，它以超過90%考生的分數通過了。

算力的作用機制是，把模型里的文本數據分拆成一個個字符塊，這些字符塊在通常情況下會一起出現(xiàn)。這些字符塊的專業(yè)名詞是“語素”(Token)，可以是單詞，也可以是單詞的前綴或后綴，甚至還可以是標點符號。

在GPT-3的算力范圍內，每一次最多可以向它輸入大約2000個語素；GPT-4則是3.2萬個。模型可接受輸入的語素越多，它能“理解”的上下文就越長，輸出的答案也就越好。

也就是說，只要算力越強，模型內部處理的上下文就越長，允許可輸入的語素就越多，最終輸出的答案就越好。

在業(yè)界，目前基本都是靠GPU（圖形處理單元）芯片來提供這種算力。為了在成本可控的范圍下，解決可以與“千億規(guī)模模型”匹配起來的算力，智譜AI找到了國內一家云服務供應商。

這家公司2020年左右采購了一批GPU芯片，原計劃是將這批算力提供給視頻游戲公司，但由于市場環(huán)境變化，這批芯片最后只能堆在倉庫。智譜AI急需一定數量的芯片來解決算力問題，但成本又不能太高。機緣巧合之下，就找到了這家云服務公司。

“我們先看了一下這批芯片的參數，與我們自己的計算需求相差10%左右。然后又測試了一下，基本能用上。雙方就迅速達成了合作，合作量還挺大的。”張鵬說。

有了可接受成本范圍內的GPU芯片，智譜AI還在想辦法把模型訓練的成本往下壓，又做了很多后續(xù)的事情，比如，把模型壓縮、量化、加速，讓它能夠在盡量更低的成本下運行起來。

經過這種在算法上的處理，原來在一臺機器上要用到八張GPU卡（八張高端GPU卡的價格在100萬元人民幣左右）來計算的任務，現(xiàn)在可能只需要10萬~20萬元人民幣的硬件就能有效跑起來了。

半身科學家，半身工程師

在業(yè)內人士看來，脫胎于高校實驗室的智譜AI從一出生就是有技術、有人才、有客戶的“三有”公司。而這背后，是在實驗室時工程、技術、原理、科學理論的四位一體融合，“體”就是公司的創(chuàng)始團隊。

來源：視覺中國

“在實驗室時，我們的團隊就是一邊做研究一邊做工程。”張鵬說。主要研究的是如何將機器學習、數據挖掘、知識圖譜這些技術應用到工程實踐中。

實驗室從系統(tǒng)、理論上建立了一整套的方法論和實用工具，然后在工程中去實踐。通過實踐后的反饋再來檢驗技術研究的成果，并在實踐過程中敏銳地捕捉前沿技術的一點一點的演進。

從2017年開始，實驗室開始做AI預訓練模型，當時還沒有“大”這個前綴，在算法研究方面夯實了基矗這就讓實驗室團隊的成員既能解決AI算法上的技術科研問題，也能解決工程上的技術應用問題。

在實驗室時，團隊就可以服務B端客戶了，實驗室也可以自己養(yǎng)活自己。“當成立公司的時候，差不多整個實驗室團隊就‘平移’出來了。所以才會有人說我們是帶著技術、人才團隊，甚至客戶出來的。”張鵬說。

2019年的6月11號，對于智譜AI而言是一個關鍵時刻，在這一天，公司成立。“這就表示我們正式地從一個純研究的實驗室身份變成了一個商業(yè)化的公司，要到AI產業(yè)里面摸爬滾打地去做些事情出來。”

但在張鵬看來，本質上智譜AI做的事情本身沒有太明顯的變化，“我們對這件事情并不陌生，已經做了很多年”。

上一篇：智能家居控制系統(tǒng)：從PRD撰寫到實際應用的深度探索

下一篇：呂仲濤：AI大模型技術尚未成熟，全面落地金融業(yè)還需大數據、大算力、大合作、大創(chuàng)新

AiLab云推薦

智譜AI CEO張鵬：中國大模型創(chuàng)業(yè)者，不再追隨OpenAI
來源：互聯(lián)網發(fā)布日期：2023-09-19 09:17:17 瀏覽：11564次

相關內容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內容

在線客服

熱門欄目HotCates

關于我們

版權聲明

智譜AI CEO張鵬：中國大模型創(chuàng)業(yè)者，不再追隨OpenAI 來源：互聯(lián)網 發(fā)布日期：2023-09-19 09:17:17 瀏覽：11564次

相關內容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內容

在線客服

熱門欄目HotCates

關于我們

版權聲明

智譜AI CEO張鵬：中國大模型創(chuàng)業(yè)者，不再追隨OpenAI
來源：互聯(lián)網發(fā)布日期：2023-09-19 09:17:17 瀏覽：11564次