展會信息港展會大全

智譜AI CEO張鵬:中國大模型創(chuàng)業(yè)者,不再追隨OpenAI
來源:互聯(lián)網   發(fā)布日期:2023-09-19 09:17:17   瀏覽:11564次  

導讀:大模型如何從實驗室到商業(yè)化公司。 文|《中國企業(yè)家》記者 趙建凱 編輯|李薇 頭圖來源 | 受訪者 看到福島核電站啟動核污染水排海的新聞,張鵬在自己的電腦上選了一個AIGC機器人模板,想看看結合這個主題,AI能給出什么建議,寫出什么題材的內容。 AI機器...

大模型如何從實驗室到商業(yè)化公司。

文|《中國企業(yè)家》記者 趙建凱

編輯|李薇

頭圖來源受訪者

看到福島核電站啟動核污染水排海的新聞,張鵬在自己的電腦上選了一個AIGC機器人模板,想看看結合這個主題,AI能給出什么建議,寫出什么題材的內容。

AI機器人給出來的前五條結果比較常規(guī),都是關于核電站、核污水的歷史、書目、科普知識這類內容。然而,之后的幾條結果,讓他感到了幾分驚奇。

“我覺得后兩條建議,真的超出了想象。”坐在北京清華科技園賽爾大廈五層的會議室,張鵬對《中國企業(yè)家》說道。賽爾大廈五層是智譜華章公司所在地,這家公司更為人熟悉的名字是智譜AI,張鵬則是這家AI創(chuàng)業(yè)公司的CEO。

這臺智譜AI研發(fā)的AI機器人,按照張鵬的提問,生成的一條建議是,“結合AR或VR的技術,做一個全場景式的虛擬游覽,帶著人去看下福島核電站現(xiàn)在的狀況與以前的對比、差異有哪些,‘切身’體驗一下核污水排放的影響到底有沒有,影響究竟幾何。”

這個結果,于張鵬的個人感受雖然是意料之外,但如果結合到他現(xiàn)在所做的事情,也許就是情理之中了;蛟S是這臺AI機器人背后的算法,捕捉到了張鵬在平時工作中的一些碎片信息,才給出來這樣的建議。

雖然成立只有四年時間,但由于是由清華大學計算機系知識工程實驗室的技術成果轉化而來,智譜AI自誕生起就頗受市場關注,估值已經超過了100億元人民幣,是目前國內估值最快超過百億人民幣的創(chuàng)業(yè)公司之一。

有接近智譜AI的人士稱,這家公司目前正處于新一輪融資中,新一輪投后估值在140億元人民幣左右,但尚未對外公布確認的具體投資人。

作為一家AI創(chuàng)業(yè)公司的掌舵者,張鵬現(xiàn)在所做的事情,就是如何將AI大語言模型在應用層面上,實現(xiàn)更快、更好的商業(yè)化落地。

從OpenAI受到啟發(fā)

有人把2023年定義為“大語言模型元年”。一個關鍵的理由是,今年以來國內已有十多家AI公司的融資都超過了1億元,除了智譜AI外,還有百川智能、瀾舟科技、Minimax等公司。

“元年”的觸發(fā)點,是去年11月份OpenAI公司首次向公眾開放自家的聊天機器人ChatGPT,不僅推高了AI投資浪潮,更推高了AI發(fā)展的新一波技術浪潮。

投資圈、創(chuàng)業(yè)圈里很多人都認為,如今的AI技術的重要作用和影響,并不遜于智能手機、云計算。這項技術的應用,可以重塑很多行業(yè),比如廣告營銷、金融、電子商務等。

那些可以完全掌握這項技術的核心的AI公司,或者那些可以充分應用這項技術的公司,都能率先在市場上贏得一定的市場份額,占據市場主導地位。

但在張鵬的定義中,“AI大語言模型元年”應該是2020年,也就是智譜AI成立的第二年。

2020年6月,OpenAI發(fā)布了預訓練語言模型GPT-3,“刺激”了包括蘋果、谷歌在內的一些科技巨頭公司,投入更多的資金和人力訓練自己的大語言模型。

來源:視覺中國

與以往的語言訓練模型相比,GPT-3最大的不同之處在于,它所支持的訓練參數的規(guī)模數量達到了1750億個,這個規(guī)模比其上一代(2018~2019年間,OpenAI推出過GPT-1、GPT-2)的GPT-2高出了一個數量級,并且,每個參數都還可以單獨調整。

GPT-3甫一問世,人們就爭相探索它的文本內容生成能力,嘗試著用它來撰寫短篇小說、喜劇劇本,甚至創(chuàng)作詩歌。

但GPT-3也有自生“胎里帶”的問題它生成的文本內容的含義與對現(xiàn)實世界的理解、解釋之間,仍存在差距。

雖然生成的文本在(英語)語法上是正確的,但卻脫離了現(xiàn)實,比如,它會寫到“從夏威夷跳到17需要兩條彩虹”(“it takes two rainbows to jump from Hawaii to 17”)。

“GPT-3的應用效果在一開始推出時并不是很好,但在當時也確實讓大家看到了一種新思路確切地說,是從當時AI技術研究的角度來說,創(chuàng)造了一個新的思路。”張鵬說。

GPT-3帶來思路啟發(fā)后,業(yè)內出現(xiàn)了兩極分化,一撥人覺得它是個新物種,非常贊。而另一撥人覺得它既沒有生成什么新的東西,在背后也沒有什么高深的理論支撐,只不過是“大力出奇跡”而已,應用效果也并不是很好。張鵬則站在“兩極”之外,以開放的視角來看待。

在張鵬看來,技術的衍生、演進是線性連續(xù)的,“永遠是慢慢地往上漲、往上漲”。當技術的研究和應用累積到一個“閾值”時,會邁過一個很關鍵的“坎兒”,這時的變化或效果就好像實現(xiàn)了一個階層跳躍,會讓大家大吃一驚,幾乎超過所有人的預料。

“當時(2020年)令我吃驚的,并不是GPT-3在原理或理論上的突破,而是這種技術變化或效果的階躍的出現(xiàn),也就是所謂的‘智能涌現(xiàn)’。”

OpenAI的研究員統(tǒng)計出,在目前各種不同的大語言模型中已經出現(xiàn)了接近140種所謂的“涌現(xiàn)”能力。

“所以在我心里,把GPT-3出現(xiàn)的2020年,看作這一波AI技術(生成式預訓練模型)浪潮的‘元年’。” 張鵬對《中國企業(yè)家》說。

冥冥之中自有巧合。OpenAI的GPT-3在2020年發(fā)布的時間,與智譜AI公司成立一周年的司慶日“撞”在了一起。

司慶日當天,國內AI領域的先驅張鈸院士作為受邀嘉賓來到智譜AI座談。張鵬建議,與張鈸院士好好聊一下關于剛發(fā)布的GPT-3。

“GPT-3發(fā)布前,我們自己其實也在做這樣的技術。它一發(fā)布,我們心里就隱隱有一種感受,它確實不一樣。”張鵬說,“OpenAI做的這個事情,也是我們一直期待去做的,一定要去追尋去做的,更是一定要去做的。”

一周年司慶之后,智譜AI把OpenAI作為自己的對標對象,投入全情全力去做這件心中念念不忘的事情,開始規(guī)劃自己的超大規(guī)模預訓練模型。

“是千億參數規(guī)模以上的那種預訓練模型。在當時,能做這個事情的公司還是少數,最多只有五家。”張鵬強調。

“權衡”VS “兼顧”

接受《中國企業(yè)家》專訪時,張鵬言談間透露出典型的學者才有的一些習慣:在論述一個主題時,開始會有前情提要的鋪墊,中間有論述的展開和闡釋,最后有結論的輸出和定論。

他的衣著,透露出的則是一種權衡之后的兼顧:白色立領襯衫傳達出恰如其當的商務氣質;專業(yè)跑鞋,可以保證行動自如時的舒適性。即便是正式采訪前喝咖啡,也是權衡了咖啡因的提神效果和劑量后,才選擇只喝一杯咖啡。

這種“權衡”和“兼顧”,在智譜AI決定下場進入大規(guī)模預訓練模型“游戲”時,更有著重體現(xiàn)。

作為一家創(chuàng)業(yè)公司,要做大語言模型,“想到”之外,在“做到”時除了研究層面上的挑戰(zhàn),還有模型訓練工程層面上涉及到的資源投入、團隊、訓練數據等一系列的事情,每一項都需要非常大的投入。

“要想把這個模型做出來,成本巨大。不是隨隨便便的一個玩家就能玩得起的。我們在當時下了很大的決心,才開始做這件事情。”張鵬說。

2019年發(fā)表的一篇論文就曾估計出,訓練一種大語言模型一個版本的成本在當時就高達300萬美元。有新的數據稱,GPT-4的訓練總成本在1億美元左右。這些真金白銀,主要集中用在數據、計算力、電力等幾方面。

大模型訓練所需的數據量,限制著模型能力能否持續(xù)改進。GPT-3在訓練時用到的文本數據量,相當于可從互聯(lián)網上公開下載的所有高質量文本的數量。而其他的可供訓練用的高質量文本,被存儲在一些公司的專門數據庫中,不能隨便、免費使用。要想使用這些專有數據,需要支付版權費。

已經有AI公司為了訓練自己的模型,正在尋求與類似《衛(wèi)報》、新聞集團這類的媒體機構合作,使用它們的授權文章來訓練自己的模型,每年的合作費用大概在500萬至2000萬美元。還有的AI公司用已有的大模型生成出來的內容,去二次“喂養(yǎng)”,但這種訓練的結果喜憂參半。

至于電力消耗,大模型訓練就像是一個吃電怪獸。OpenAI在訓練GPT-3的時候,用掉了1.3吉瓦時(GWh)的電力,相當于美國120個家庭一年的用電量,電費花了460萬美元。

決定下場后,智譜AI面臨數據不足、算力不夠、成本高企與模型實用有效性之間如何權衡的困境。“對于我們這樣的一個創(chuàng)業(yè)公司而言,在當時做這個事情,首要目標是把成本降下來。也確實是經歷過一段比較困難的時期。”張鵬說。

在權衡了各種籌錢的辦法后,智譜AI決定自己掏腰包做。當初“困難時期”的一個有趣場景是,公司一只眼看著訓練的數據量輸入越來越少,另一只眼看著銀行賬戶上的儲備現(xiàn)金輸出越來越多。

這些流出去的錢,有一定的比例是用在購買訓練所用的算力上。算力的大小與涌現(xiàn)能力的出現(xiàn)緊密關聯(lián)。因為出現(xiàn)涌現(xiàn)的閾值,除了與訓練數據的規(guī)模有關,更要靠算力這個“煉丹爐”的加持。

在高算力的作用下,模型規(guī)模只要稍微再擴大一些,新的能力在電石火花間就能顯現(xiàn)出來。當初,GPT-3.5沒能通過美國統(tǒng)一律師考試,到了GPT-4時,它以超過90%考生的分數通過了。

算力的作用機制是,把模型里的文本數據分拆成一個個字符塊,這些字符塊在通常情況下會一起出現(xiàn)。這些字符塊的專業(yè)名詞是“語素”(Token),可以是單詞,也可以是單詞的前綴或后綴,甚至還可以是標點符號。

在GPT-3的算力范圍內,每一次最多可以向它輸入大約2000個語素;GPT-4則是3.2萬個。模型可接受輸入的語素越多,它能“理解”的上下文就越長,輸出的答案也就越好。

也就是說,只要算力越強,模型內部處理的上下文就越長,允許可輸入的語素就越多,最終輸出的答案就越好。

在業(yè)界,目前基本都是靠GPU(圖形處理單元)芯片來提供這種算力。為了在成本可控的范圍下,解決可以與“千億規(guī)模模型”匹配起來的算力,智譜AI找到了國內一家云服務供應商。

這家公司2020年左右采購了一批GPU芯片,原計劃是將這批算力提供給視頻游戲公司,但由于市場環(huán)境變化,這批芯片最后只能堆在倉庫。智譜AI急需一定數量的芯片來解決算力問題,但成本又不能太高。機緣巧合之下,就找到了這家云服務公司。

“我們先看了一下這批芯片的參數,與我們自己的計算需求相差10%左右。然后又測試了一下,基本能用上。雙方就迅速達成了合作,合作量還挺大的。”張鵬說。

有了可接受成本范圍內的GPU芯片,智譜AI還在想辦法把模型訓練的成本往下壓,又做了很多后續(xù)的事情,比如,把模型壓縮、量化、加速,讓它能夠在盡量更低的成本下運行起來。

經過這種在算法上的處理,原來在一臺機器上要用到八張GPU卡(八張高端GPU卡的價格在100萬元人民幣左右)來計算的任務,現(xiàn)在可能只需要10萬~20萬元人民幣的硬件就能有效跑起來了。

半身科學家,半身工程師

在業(yè)內人士看來,脫胎于高校實驗室的智譜AI從一出生就是有技術、有人才、有客戶的“三有”公司。而這背后,是在實驗室時工程、技術、原理、科學理論的四位一體融合,“體”就是公司的創(chuàng)始團隊。

來源:視覺中國

“在實驗室時,我們的團隊就是一邊做研究一邊做工程。”張鵬說。主要研究的是如何將機器學習、數據挖掘、知識圖譜這些技術應用到工程實踐中。

實驗室從系統(tǒng)、理論上建立了一整套的方法論和實用工具,然后在工程中去實踐。通過實踐后的反饋再來檢驗技術研究的成果,并在實踐過程中敏銳地捕捉前沿技術的一點一點的演進。

從2017年開始,實驗室開始做AI預訓練模型,當時還沒有“大”這個前綴,在算法研究方面夯實了基矗這就讓實驗室團隊的成員既能解決AI算法上的技術科研問題,也能解決工程上的技術應用問題。

在實驗室時,團隊就可以服務B端客戶了,實驗室也可以自己養(yǎng)活自己。“當成立公司的時候,差不多整個實驗室團隊就‘平移’出來了。所以才會有人說我們是帶著技術、人才團隊,甚至客戶出來的。”張鵬說。

2019年的6月11號,對于智譜AI而言是一個關鍵時刻,在這一天,公司成立。“這就表示我們正式地從一個純研究的實驗室身份變成了一個商業(yè)化的公司,要到AI產業(yè)里面摸爬滾打地去做些事情出來。”

但在張鵬看來,本質上智譜AI做的事情本身沒有太明顯的變化,“我們對這件事情并不陌生,已經做了很多年”。

贊助本站

人工智能實驗室
相關內容
AiLab云推薦
推薦內容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港