當(dāng)前位置：人工智能實(shí)驗室> 人物報道 > 李開復(fù)：正開發(fā)一種新的專有模型，手頭芯片庫存充足至少維持18個月

李開復(fù)：正開發(fā)一種新的專有模型，手頭芯片庫存充足至少維持18個月
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-12-28 19:11:21 瀏覽：9340次

導(dǎo)讀：劃重點(diǎn) 1 李開復(fù)最近接受采訪時預(yù)測，中國生成式AI行業(yè)正在經(jīng)歷一場預(yù)選賽，最終可能只會剩下幾個大贏家。 2 中國的科技巨頭和眾多初創(chuàng)公司正處于大模型開發(fā)的技術(shù)驗證階段，需要證明自己有能力構(gòu)建高質(zhì)量模型。 3 通過技術(shù)驗證的公司將進(jìn)入下個階段，開始考...

劃重點(diǎn)

李開復(fù)最近接受采訪時預(yù)測，中國生成式AI行業(yè)正在經(jīng)歷一場“預(yù)選賽”，最終可能只會剩下幾個大贏家。

中國的科技巨頭和眾多初創(chuàng)公司正處于大模型開發(fā)的技術(shù)驗證階段，需要證明自己有能力構(gòu)建高質(zhì)量模型。

通過技術(shù)驗證的公司將進(jìn)入下個階段，開始考慮如何實(shí)現(xiàn)商業(yè)化，增加收入和創(chuàng)造利潤。

李開復(fù)透露，零一萬物公司目前正在開發(fā)一種新的專有模型，參數(shù)超過1000億。

科技新聞訊 12月28日消息，據(jù)外媒報道，風(fēng)險投資家、谷歌中國前總裁李開復(fù)在接受采訪時預(yù)測，中國生成式人工智能初創(chuàng)行業(yè)正在經(jīng)歷一場“預(yù)選賽”，在經(jīng)歷了行業(yè)大洗牌后，最終可能只會剩下幾個大贏家。

今年早些時候，李開復(fù)創(chuàng)立了零一萬物（01.AI），這是一家總部位于北京，致力于開發(fā)大語言模型（LLM）的初創(chuàng)公司。上個月，該公司完成了最新一輪融資，估值高達(dá)10億美元。

目前，中國的科技巨頭如阿里巴巴、騰訊、百度和字節(jié)跳動，以及眾多初創(chuàng)公司，都在開發(fā)自己的大語言模型。這場科技競賽被媒體稱為“百模大戰(zhàn)”，各大公司都在爭奪人工智能領(lǐng)域的領(lǐng)先地位。

在最近的一次采訪中，李開復(fù)表示，這些公司正處于技術(shù)驗證階段，他們需要證明自己有能力構(gòu)建高質(zhì)量的模型。經(jīng)過技術(shù)驗證的公司將進(jìn)入下一階段，即如何實(shí)現(xiàn)商業(yè)化、增加收入和創(chuàng)造利潤。

李開復(fù)預(yù)測：“在中國，我們最終會有幾個大贏家，還有少數(shù)公司可以體面地退出，但大多數(shù)公司最終要么半途放棄，要么會轉(zhuǎn)向更具體、更實(shí)際的目標(biāo)，比如為特定行業(yè)開發(fā)應(yīng)用程序和解決方案。”

零一萬物成立于今年3月份，目前擁有100多名員工，大部分人在北京工作。上個月，該公司推出了第一個開源大模型YI-34B，但其未來的收入將不會依賴于此模型。相反，零一萬物的商業(yè)計劃是銷售專有的大語言模型，主要面向中國市常據(jù)李開復(fù)透露，該公司目前正在開發(fā)一種新的專有模型，參數(shù)規(guī)模超過1000億。

然而，在YI-34B迅速攀升到Hugging Face的開源大語言模型排行榜首位之后，這家初創(chuàng)公司遭遇了一些爭議。有開發(fā)者調(diào)查發(fā)現(xiàn)，YI-34B使用了Meta的開源人工智能模型Llama，但并未在相關(guān)文檔中提及此事。為此，零一萬物最終對部分內(nèi)容進(jìn)行了重新命名，并感謝了Llama的貢獻(xiàn)。李開復(fù)也對之前的疏忽表示了歉意。

最近，李開復(fù)在北京辦公室接受了科技媒體The Information的視頻專訪，聊到了零一萬物的未來、如何應(yīng)對美國的芯片出口限制、中國人工智能產(chǎn)業(yè)的未來發(fā)展趨勢以及中國人工智能公司如何在全球?qū)ふ覚C(jī)遇等話題。

以下為專訪全文：

問：中國目前有數(shù)十家公司都在開發(fā)大語言模型，接下來會發(fā)生什么？

李開復(fù)：我想中國以前也曾出現(xiàn)過很多類似現(xiàn)象，比如團(tuán)購及其模仿者、自行車租賃應(yīng)用的興起，以及計算機(jī)視覺和語音識別在深度科技領(lǐng)域的突破。當(dāng)計算機(jī)視覺證明取得了突破性進(jìn)展時，無數(shù)企業(yè)如雨后春筍般涌現(xiàn)，渴望在這個行業(yè)中分一杯羹。但現(xiàn)實(shí)是殘酷的，大部分公司并沒有堅持下來。中國市場的競爭尤為激烈，甚至比美國市場還要激烈。

當(dāng)前，中國人工智能領(lǐng)域的競爭仍然處在預(yù)選賽階段。首先面臨的考驗是：哪家公司能夠率先構(gòu)建出真正有價值的高質(zhì)量模型？只有當(dāng)模型表現(xiàn)卓越，才有可能在實(shí)際應(yīng)用中嶄露頭角。否則，它只能被視為一個玩具，而不能真正解決實(shí)際問題。

那些通過預(yù)選賽的公司將進(jìn)入下一階段，這一階段關(guān)乎如何增加商業(yè)價值。你們有明確的商業(yè)模式嗎？你們是如何盈利的？很快，投資者將根據(jù)這些公司的損益表來評估其價值，提出的問題將與他們對云服務(wù)提供商、企業(yè)軟件公司和消費(fèi)者應(yīng)用程序的關(guān)注點(diǎn)類似。如果企業(yè)無法回答這些問題，它們的增長將會受到限制。

在美國，OpenAI已經(jīng)證明了其技術(shù)的領(lǐng)先地位，并且能夠創(chuàng)造收入。由于它創(chuàng)造了足夠的價值，人們愿意在其上構(gòu)建應(yīng)用程序并為之付費(fèi)。

而在中國，我們最終會有幾個大贏家，還有少數(shù)公司可以體面地退出，但大多數(shù)公司最終要么半途放棄，要么會轉(zhuǎn)向更具體、更實(shí)際的目標(biāo)，比如為特定行業(yè)開發(fā)應(yīng)用程序和解決方案，而不是試圖開發(fā)預(yù)訓(xùn)練大模型。隨著時間的推移，開發(fā)這些模型的成本將不斷攀升。

問：中國人工智能初創(chuàng)企業(yè)及其投資者表示，中國將為生成式人工智能模型和應(yīng)用開發(fā)自己的生態(tài)系統(tǒng)。你對此如何看？

李開復(fù)：我們都不希望出現(xiàn)一個平行的宇宙。我們都更傾向于在全球范圍內(nèi)展開競爭，讓真正出色的公司脫穎而出，這樣效率才更高。然而，我們無法完全掌控自己的命運(yùn)。

地緣政治問題尤其突出。如果我們想進(jìn)入美國市場，雖然法規(guī)并未禁止我們進(jìn)入，但由于目前美國市場對中國軟件存在不公平的偏見，我認(rèn)為我們很難獲得大量的業(yè)務(wù)。這是我們不得不面對的現(xiàn)實(shí)。

我們對中國以外的商機(jī)持開放態(tài)度，但我們完全理解有些事情是不可能的。將我們的專有模型賣給美國的公司是不可能的，他們不會購買，我們也不會做無用功。

中國顯然蘊(yùn)藏著巨大的機(jī)會，但我不會將世界其他地區(qū)排除在中國公司可能進(jìn)入的地區(qū)之外。總的來說，硅谷的做法是一刀切的。這或多或少地對Facebook和谷歌等公司的崛起起到了關(guān)鍵作用，并幫助美國獲得了主導(dǎo)地位。但這一次不同，因為大語言模型是在數(shù)據(jù)方面進(jìn)行培訓(xùn)的，而數(shù)據(jù)涉及到偏見、意識形態(tài)和價值觀等問題。美國的價值觀在某些國家并不受歡迎，甚至不被接受。中國不會是唯一這樣做的國家。我認(rèn)為，中東是另一個可能想要以不同方式思考問題的地區(qū)。這將促使各國希望更多地控制自己的模型。

我確實(shí)認(rèn)為，為不同的國家構(gòu)建不同的特殊模型是有可能的。但這是硅谷公司不愿意去做的事情，因為他們覺得自己的價值觀就是正確的，他們希望更多的人能夠接受并融入其中。而且，要為不同的市場制造不同的模型，需要大量的工程工作。因此，硅谷公司不愿意開發(fā)這類模型。而來自世界其他地區(qū)的公司，包括中國的公司，可能有機(jī)會研究這種模型。但顯然，他們必須贏得用戶和各國政府的信任。

問：有媒體報道，零一萬物公司成功降低了YI-34B的人工智能培訓(xùn)成本。你們是怎么做到的？

李開復(fù)：我們擁有一支非常強(qiáng)大的基礎(chǔ)設(shè)施團(tuán)隊，這也是我們公司規(guī)模最大的團(tuán)隊。我很早就告訴過員工，每增加一個建模人員，圖形處理單元的負(fù)擔(dān)就會加重一分。而每增加一名基礎(chǔ)設(shè)施人員，圖形處理單元的效率就會提升一分。當(dāng)然，我們也需要強(qiáng)大的建模團(tuán)隊，但從一開始，我們的主要優(yōu)先事項就是構(gòu)建一個強(qiáng)大的基礎(chǔ)設(shè)施團(tuán)隊。

基礎(chǔ)設(shè)施團(tuán)隊的成員們就像無名英雄一樣，默默地承擔(dān)著處理硬件、軟件和海量數(shù)據(jù)的重任。他們還需要處理圖形處理單元、內(nèi)存和網(wǎng)絡(luò)，這三者中的任何一個都可能成為瓶頸。要知道，圖形處理單元很難擴(kuò)展到幾千個以上。當(dāng)你從2000個增加到8000個時，你不可能簡單地通過軟件搞定，因為隨著你轉(zhuǎn)向更大的模型和更大的數(shù)據(jù)集，網(wǎng)絡(luò)需求也會發(fā)生巨大變化。

我們的基礎(chǔ)設(shè)施團(tuán)隊里有數(shù)十名工程師，該團(tuán)隊也是目前零一萬物最大的團(tuán)隊。他們的工作包括研究如何使用FP8（英偉達(dá)H100芯片的數(shù)據(jù)格式）來大幅減少計算量，還要弄清楚在哪里使用FP8，在哪里使用其他數(shù)據(jù)格式，以及如何無縫地轉(zhuǎn)換它們。除了這些，他們還得處理一系列令人頭疼的問題，比如我們應(yīng)該使用什么網(wǎng)絡(luò)協(xié)議、如何優(yōu)化編譯器以及如何處理出現(xiàn)故障的圖形處理單元。實(shí)際上，圖形處理單元出現(xiàn)故障的頻率相當(dāng)高。當(dāng)一個圖形處理單元出現(xiàn)故障時，可以熱插拔嗎？我們?nèi)栽谂鉀Q這個問題。我們可以假設(shè)下：如果你擁有一個由上千個圖形處理單元組成的計算集群，卻因為一個圖形處理單元出現(xiàn)故障而停止一小時的訓(xùn)練，那么能夠進(jìn)行熱插拔將為你每天節(jié)省一個小時。這些時間會積少成多。

另一件相關(guān)的事情是彈性培訓(xùn)。這意味著，如果你有一個由2000個H100芯片組成的集群，并且你只需要其中500個來執(zhí)行單獨(dú)的任務(wù)，那么你可以在檢查點(diǎn)（Checkpoints,大模型訓(xùn)練過程中保存模型參數(shù)的機(jī)制）之間移除它們，然后再添加回來嗎？這些任務(wù)并不是人工智能研究人員該干的，而是屬于網(wǎng)絡(luò)工程師的職責(zé)。

如果把大語言模型的開發(fā)比作火箭科學(xué)，那么就像是沒有工程師，火箭永遠(yuǎn)飛不起來一樣。SpaceX的成功并不僅僅是因為其擁有大量研究人員，還因為它做了大量非常復(fù)雜的工程工作。

問：美國限制向中國出口先進(jìn)的半導(dǎo)體技術(shù)，包括英偉達(dá)的關(guān)鍵芯片。零一萬物是如何應(yīng)對的？

李開復(fù)：我曾經(jīng)公開說過，我們手頭有足夠的芯片庫存，至少能夠維持18個月。這些芯片基本上都是在美國出臺限制措施之前購買的。我們當(dāng)然正在努力研究如何使用中國的芯片。這不是件容易的事情。給它們編程并不是我們所熟悉的領(lǐng)域。但如果這是我們必須做的，那我們也會勇敢地迎接挑戰(zhàn)。

英偉達(dá)的芯片非常出色，但有些人可能會認(rèn)為，更簡單的芯片可以用低得多的成本完成這項工作。然而，英偉達(dá)之所以如此強(qiáng)大，背后的一個主要因素是圍繞其CUDA軟件庫打造了一個完整的生態(tài)系統(tǒng)，這使得編程變得相對容易。如果我們強(qiáng)迫工程師使用非英偉達(dá)的芯片，他們可能會強(qiáng)烈反對，因為他們的效率會大大降低。我們面臨的困境要在18個月后才會顯現(xiàn)，但我們必須更早開始行動。如果我們無法獲得英偉達(dá)的芯片，我們將尋找更簡單的芯片，更專注于轉(zhuǎn)換器。然而，這將是一個痛苦的編程過程。但是，如果我們別無選擇，那我們就只能這么做。

大家都知道，中國工程師有才華、有決心，他們可以出色地應(yīng)對這種被認(rèn)為艱巨的工程挑戰(zhàn)。這與我之前所說的我們基礎(chǔ)設(shè)施團(tuán)隊的工作有些相似。學(xué)習(xí)如何使用非常有限的庫來編寫新的、非標(biāo)準(zhǔn)的圖形處理單元，也是一項繁瑣的任務(wù)。

中國企業(yè)家是堅韌不拔的。中國的工程師都非常勤奮。他們不怕繁重的工作。我們確實(shí)面臨著許多困難的挑戰(zhàn)，甚至可以說它們是在浪費(fèi)時間和精力。但這就是我們手中的牌，所以我們會盡最大努力打好這些牌。（編譯/金鹿）