當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > 林凡對(duì)話(huà)面壁智能李大海：OpenAI o1內(nèi)化Agent能力，中美差距有1到2年

林凡對(duì)話(huà)面壁智能李大海：OpenAI o1內(nèi)化Agent能力，中美差距有1到2年
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-25 20:07:45 瀏覽：731次

導(dǎo)讀：作者丨程瀟熠編輯丨葉錦言出品丨深網(wǎng)騰訊新聞小滿(mǎn)工作室觀點(diǎn)提煉： 1. 蘋(píng)果iPhone16，8G內(nèi)存能放的模型大小有限，會(huì)制約Apple Intelligence的表現(xiàn)。更適配蘋(píng)果端側(cè)大模型的硬件或?qū)⑹莍Phone 18。 2.端側(cè)大模型優(yōu)勢(shì)：隱私保護(hù)，數(shù)據(jù)存在終端設(shè)備；可離線(xiàn)，...

作者丨程瀟熠

編輯丨葉錦言

出品丨深網(wǎng)科技新聞小滿(mǎn)工作室

觀點(diǎn)提煉：

1. 蘋(píng)果iPhone16，8G內(nèi)存能放的模型大小有限，會(huì)制約Apple Intelligence的表現(xiàn)。更適配蘋(píng)果端側(cè)大模型的硬件或?qū)⑹莍Phone 18。

2.端側(cè)大模型優(yōu)勢(shì)：隱私保護(hù)，數(shù)據(jù)存在終端設(shè)備；可離線(xiàn)，出國(guó)沒(méi)網(wǎng)也能實(shí)時(shí)翻譯；低延時(shí)，自動(dòng)駕駛執(zhí)行即時(shí)指令。

3. 大模型時(shí)代的智能翻譯進(jìn)化：以前英語(yǔ)翻譯到俄語(yǔ)需要一個(gè)模型，俄語(yǔ)翻譯到漢語(yǔ)又需要一個(gè)模型，排列組合之下需要非常多小模型。大語(yǔ)言模型可以用一個(gè)模型解決所有的問(wèn)題，俚語(yǔ)翻譯也不是問(wèn)題。

4.未來(lái)的硬件會(huì)像現(xiàn)在的大模型軟件一樣，分成兩種類(lèi)型：一種是Copilot，比如手機(jī)、智能眼鏡等；另一種叫agent，比如小機(jī)器人等，未來(lái)我們的生活里會(huì)有很多的Agent類(lèi)型的硬件。

5. 現(xiàn)在的手機(jī)界面，很多都是通過(guò)安卓開(kāi)發(fā)工程師寫(xiě)出來(lái)的APP固定的軟件界面，未來(lái)大模型有機(jī)會(huì)接管這個(gè)輸出界面。未來(lái)的千人千面，可能每個(gè)人看到的終端界面都不同。

6.云端模型，中美差距還在1到2年，主要體現(xiàn)在如今國(guó)內(nèi)的所有云端大模型，還沒(méi)有誰(shuí)顯著的達(dá)到或者超過(guò)GPT-4。

7.GPT-o1其實(shí)是把Agent的能力內(nèi)化了，過(guò)去一年國(guó)內(nèi)很多公司在Agent上做了不少工作，追趕GPT-o1沒(méi)那么難，難的是追趕GPT-4、GPT-4o、GPT-5。

8. 人類(lèi)大腦能耗只有15瓦到25瓦，人類(lèi)大腦的稀疏化特性對(duì)節(jié)省能耗非常有幫助，大模型也存在稀疏化特性，可以不斷訓(xùn)練增加知識(shí)密度。

9.芯片制程的盡頭是量子力學(xué)，大模型的知識(shí)密度的盡頭是信息論，兩者都有極限。

10. 選擇開(kāi)源還是選擇閉源，是每個(gè)公司的商業(yè)判斷，這沒(méi)有對(duì)錯(cuò)，它是一種商業(yè)模式。

11. 未來(lái)人更重要的是想法，是構(gòu)思，是打動(dòng)別人的能力。人完全可以通過(guò)AI去放大自己的想法，也就是杠桿效應(yīng)。

12.AI可能會(huì)讓很多白領(lǐng)的工作開(kāi)始慢慢地平臺(tái)化。未來(lái)公司形態(tài)要么只有一個(gè)人，要么會(huì)出現(xiàn)越來(lái)越大的平臺(tái)整合所有勞動(dòng)力資源。

13. 信息繭房一方面是人的個(gè)人選擇，另一方面也是商業(yè)順應(yīng)人的選擇，利用人性下墜的力量去實(shí)現(xiàn)商業(yè)目的。

9月24日晚，科技新聞小滿(mǎn)工作室聯(lián)合職場(chǎng)社區(qū)和社交平臺(tái)脈脈共同打造的首檔AI訪(fǎng)談直播節(jié)目《Fan談大模型》首期播出，國(guó)內(nèi)最早從事大語(yǔ)言模型的團(tuán)隊(duì)之一、頭部大模型初創(chuàng)公司面壁智能CEO李大海，與節(jié)目主理人、脈脈創(chuàng)始人兼CEO林凡以及科技新聞《深網(wǎng)》作者程瀟熠一起深度探討AI 手機(jī)背后的端側(cè)大模型進(jìn)展、未來(lái)交互變革可能性、被AI接管的未來(lái)，普通人該如何快速適應(yīng)等重要話(huà)題。

以下為直播實(shí)錄精簡(jiǎn)版：

真正的第一臺(tái)AIiPhone 或許會(huì)是iPhone18

林凡：大家看到iPhone 16發(fā)布后其實(shí)有個(gè)疑問(wèn)，AI手機(jī)和之前的這個(gè)智能手機(jī)，到底這兩個(gè)概念有什么差異？我們大家都知道引入了端側(cè)的能力，但從用戶(hù)的視角，到底他能感受到什么變化？

李大海：第一版的蘋(píng)果的這個(gè)所謂的AI手機(jī)還只是這個(gè)功能的一個(gè)初步呈現(xiàn)，遠(yuǎn)遠(yuǎn)還沒(méi)有達(dá)到一個(gè)理想的狀態(tài)。

新一代的AI手機(jī)會(huì)跟新一代的智能汽車(chē)一樣，都會(huì)變成所謂的超級(jí)智能體。什么叫超級(jí)智能體呢？就是它會(huì)基于一個(gè)端側(cè)模型，把用戶(hù)所有的上下文都串在一起去更加懂用戶(hù)。這個(gè)其實(shí)是也是蘋(píng)果在WWDC和它的Apple Intelligence里面最想傳達(dá)出來(lái)的功能。

我們知道在移動(dòng)互聯(lián)網(wǎng)時(shí)代，最大的一個(gè)范式是每一個(gè)APP它能夠去給用戶(hù)進(jìn)行一個(gè)完整的用戶(hù)畫(huà)像的描述。比如美團(tuán)會(huì)對(duì)每一個(gè)用戶(hù)在美團(tuán)上喜歡什么吃什么，進(jìn)行清晰的用戶(hù)畫(huà)像描述。未來(lái)有了AI手機(jī)后，我們可以通過(guò)端側(cè)模型把這些畫(huà)像存在手機(jī)上，不用傳到任何一個(gè)其他第三方的存儲(chǔ)系統(tǒng)里，這是端側(cè)模型帶來(lái)的非常大的變化。

林凡：我看網(wǎng)上也有很多人討論說(shuō)， iphone 16只有8G的內(nèi)存，真的要跑好一個(gè)大模型，很可能要12G的內(nèi)存。那么今天來(lái)看端側(cè)大模型，在什么樣的硬件的情況下，要多長(zhǎng)時(shí)間大概能初步達(dá)到我們剛才說(shuō)的這樣的應(yīng)用場(chǎng)景。

李大海：蘋(píng)果新的iphone 16，它的內(nèi)存大小是8G的話(huà)，確實(shí)能夠放的模型的大小有限，這個(gè)會(huì)在一定程度上制約apple intelligence的表現(xiàn)。

我個(gè)人對(duì)于硬件發(fā)展是否能夠支撐住端側(cè)模型的應(yīng)用這件事情是比較樂(lè)觀的。端側(cè)的芯片通常由三個(gè)部分組成：CPU，NPU和GPU。其中NPU，過(guò)去幾年基本上是一個(gè)停滯發(fā)展的狀態(tài)，因?yàn)檫^(guò)去幾年沒(méi)有發(fā)展出好的應(yīng)用，還用不上。

現(xiàn)在大模型出來(lái)以后，芯片廠(chǎng)商都非常興奮，發(fā)現(xiàn)說(shuō)NPU有機(jī)會(huì)更快速地去發(fā)展。所以我看到的是很多芯片廠(chǎng)商都列了非常好的計(jì)劃，未來(lái)兩年應(yīng)該能夠出現(xiàn)很多NPU上算力很大，能夠去支撐好更大的端側(cè)模型的芯片，這是第一點(diǎn)。

第二點(diǎn)，終端上的情況比芯片要更復(fù)雜。終端上，我們要考慮的限制條件不只是算力的總量，還有能耗，還有內(nèi)存的帶寬，還有內(nèi)存的大小等等。這些因素組合在一起，它決定了一個(gè)設(shè)備能夠支撐一個(gè)什么樣的模型。

AI產(chǎn)品榜在七月份用我們的面壁小鋼炮的1.2B跟2.4B的模型，在現(xiàn)在市場(chǎng)上的主流機(jī)型上進(jìn)行了評(píng)測(cè)。然后發(fā)現(xiàn)像蘋(píng)果手機(jī)，它在我們的1.2B的模型上跑的得分就很高，但2.4B得分比較低，得分指它的性能。

因?yàn)?.4B的模型需要占的內(nèi)存更大，但是蘋(píng)果手機(jī)相對(duì)于安卓手機(jī)來(lái)說(shuō)，內(nèi)存的配置都會(huì)更校所以當(dāng)我們的模型的內(nèi)存要求高了以后，手機(jī)的內(nèi)存大小會(huì)變成一個(gè)顯著的瓶頸，影響到模型的發(fā)揮。

林凡：對(duì)，在我跟手機(jī)行業(yè)內(nèi)人士的交流中，他們也說(shuō)蘋(píng)果的硬件大概會(huì)提前三年去做設(shè)計(jì)和規(guī)劃。他們整個(gè)團(tuán)隊(duì)是去年才把要跑一個(gè)3B的大模型，大概需要的硬件和支持需求報(bào)給了硬件團(tuán)隊(duì)。硬件團(tuán)隊(duì)的答復(fù)就是那就等iPhone 18，再過(guò)兩年后，它的硬件才能支撐這個(gè)事情。

端側(cè)模型優(yōu)勢(shì)：隱私保護(hù)、可離線(xiàn)、低延時(shí)

林凡：大模型為什么要有一個(gè)端側(cè)大模型？不能用云端大模型解決所有的問(wèn)題嗎？

李大海：自動(dòng)駕駛里端側(cè)模型一定是很重要的。因?yàn)槠?chē)開(kāi)在120公里每小時(shí)的時(shí)候，我們很難容忍它有3秒、5秒的指令空白，這種非常即時(shí)性的指令一定要從端側(cè)出。

我們現(xiàn)在提到端側(cè)模型，它是整個(gè)終端的模型解決方案的一部分，很多時(shí)候需要端側(cè)模型和云端模型一起協(xié)同，就是端側(cè)模型跟云端模型他們其實(shí)擅長(zhǎng)的工作不一樣，所以合在一起能夠更好解決問(wèn)題。

具體展開(kāi)來(lái)說(shuō)，端側(cè)模型因?yàn)樗軌蚪佑|到用戶(hù)所有的隱私數(shù)據(jù)，所以懂用戶(hù)的這部分工作可以由端側(cè)模型來(lái)執(zhí)行。云端模型因?yàn)樗�，或者說(shuō)我們其實(shí)是把云端模型按照全知全能的方向在發(fā)展，所以它其實(shí)它更懂世界，可以把它認(rèn)為是一個(gè)world model。那和世界相關(guān)的部分就可以交給云端模型來(lái)執(zhí)行。

簡(jiǎn)單地講，當(dāng)用戶(hù)有一個(gè)需求的時(shí)候，我們可以由端側(cè)來(lái)把個(gè)人部分進(jìn)行脫敏，再把世界相關(guān)交給云端來(lái)做，返回響應(yīng)云端加工后，端側(cè)再將符合用戶(hù)個(gè)性化的部分給到用戶(hù)，整個(gè)體驗(yàn)最完整。

另外，用戶(hù)隱私安全這絕對(duì)是一個(gè)真實(shí)的需求，端側(cè)模型是能夠解決這些需求。

比如智能音箱的場(chǎng)景，我自己有個(gè)顧慮，如果它的數(shù)據(jù)是傳到某一個(gè)云端去處理的，我會(huì)擔(dān)心我家里面說(shuō)的各種各樣的話(huà)都被它聽(tīng)了去。但如果數(shù)據(jù)全留在終端，我知道它只在我家里的設(shè)備上，那我就會(huì)很放心。

現(xiàn)在還只是語(yǔ)音，大家可以想象如果未來(lái)我們?cè)诩依锓块g的各個(gè)角落，都放一些攝像頭，我也會(huì)擔(dān)心我在家里可能洗完澡后穿的很清涼出來(lái)到處逛的信號(hào)傳到云端。

還有一個(gè)差異是可靠性�？煽啃赃@個(gè)差異在中國(guó)不是很明顯。我在反過(guò)來(lái)說(shuō)，海外的網(wǎng)絡(luò)遠(yuǎn)遠(yuǎn)不如中國(guó)，感謝我們國(guó)家的政府基礎(chǔ)設(shè)施建設(shè)，中國(guó)的網(wǎng)絡(luò)是全球覆蓋度最高的，我們?cè)谌魏我粋€(gè)地方網(wǎng)絡(luò)基本是可用的。但是在海外，很多時(shí)候網(wǎng)絡(luò)是極其不可用的。

在那種情況下，一個(gè)終端你隨時(shí)可用的比起云端的來(lái)說(shuō)會(huì)更安心，更可靠。一個(gè)可靠性，一個(gè)隱私保護(hù)，對(duì)于用戶(hù)來(lái)說(shuō)是端側(cè)最重要的兩個(gè)優(yōu)勢(shì)。

林凡：我前段時(shí)間去埃及，埃及那邊說(shuō)的是阿拉伯語(yǔ)。我語(yǔ)言不通就下了個(gè)谷歌的翻譯去那邊用，結(jié)果到了發(fā)現(xiàn)需要聯(lián)網(wǎng)，有一次我在跟司機(jī)溝通的時(shí)候發(fā)現(xiàn)那個(gè)地方?jīng)]有網(wǎng)絡(luò)，只能比手畫(huà)腳。

李大海：我們正在合作打造一個(gè)離線(xiàn)翻譯機(jī)，這個(gè)離線(xiàn)翻譯機(jī)里面會(huì)放我們的離線(xiàn)大語(yǔ)言模型，至少可以支持30種以上的海外不同語(yǔ)言的互相翻譯。這樣就不用擔(dān)心有沒(méi)有網(wǎng)的問(wèn)題了，只需要擔(dān)心有沒(méi)有電。

AI光年：當(dāng)?shù)刭嫡Z(yǔ)也能翻譯出來(lái)嗎？

林凡：從我的理解來(lái)講，大模型解決像俚語(yǔ)這樣的問(wèn)題，根本不是有挑戰(zhàn)的事情。

李大海：對(duì)，以前的技術(shù)，三十種語(yǔ)言要做互相的翻譯，比如說(shuō)英語(yǔ)翻譯到俄語(yǔ)需要一個(gè)模型，俄語(yǔ)翻譯到漢語(yǔ)又需要一個(gè)模型。這樣一個(gè)排列組合，就需要非常多的小模型。但是用了大語(yǔ)言模型以后，就可以用一個(gè)模型去解決所有的問(wèn)題，這個(gè)是一個(gè)技術(shù)上很重要的跨越。

未來(lái)AI或直接接管手機(jī)界面

林凡：端側(cè)大模型它在交互上面可能會(huì)改變很多人對(duì)于手機(jī)，甚至對(duì)于汽車(chē)的一些使用的習(xí)慣。

好幾年前有一個(gè)場(chǎng)景讓我印象很深刻，我們家閨女打開(kāi)電腦，對(duì)著電腦說(shuō)：siri給我講個(gè)笑話(huà)吧。那個(gè)場(chǎng)景對(duì)我產(chǎn)生了非常大的沖擊。

我自己從互聯(lián)網(wǎng)時(shí)代開(kāi)始用電腦，非常習(xí)慣文字鍵盤(pán)的輸入，鼠標(biāo)的輸入，然后到了移動(dòng)時(shí)代，學(xué)會(huì)了用手機(jī)觸點(diǎn)的方式，但是我們很少用語(yǔ)音跟一個(gè)設(shè)備進(jìn)行交互。我閨女那個(gè)交互的行為是非常自然的，她經(jīng)常也會(huì)說(shuō)siri我要定一個(gè)八點(diǎn)的鬧鐘。

那次之后我一直在思考，為什么我們還不習(xí)慣用語(yǔ)音去跟設(shè)備去做交互。其實(shí)原因很簡(jiǎn)單，今天設(shè)備的理解能力，在沒(méi)有端側(cè)大模型的時(shí)候還是比較弱的。很多時(shí)候你發(fā)的語(yǔ)音，它要不就是瞎響應(yīng)，要么就是你沒(méi)叫它的時(shí)候突然冒出來(lái)了。但有了端側(cè)的能力以后，語(yǔ)音交互的準(zhǔn)確性會(huì)有一個(gè)巨大的提升。

第二個(gè)，我們跟美團(tuán)交互的過(guò)程和我們?nèi)粘５母说慕换サ牧?xí)慣還是挺不一樣的。

比如，平時(shí)我可能會(huì)問(wèn)，你喜歡吃什么？想吃什么？但你打開(kāi)美團(tuán)是有好多店自己要去挑。會(huì)不會(huì)以后手機(jī)突然說(shuō)：中午了，你想吃什么？他不會(huì)把一堆可能的選項(xiàng)給你去挑，而是說(shuō)：你最近好久沒(méi)吃火鍋了，我覺(jué)得你挺喜歡吃火鍋的，今天哪里有個(gè)火鍋店打折你有沒(méi)有興趣？這樣的交互過(guò)程。

李大海：超作為超級(jí)智能體，它應(yīng)該還能夠更進(jìn)一步。

比如像剛才你提到那個(gè)場(chǎng)景，智能體他可能會(huì)提前感知，林凡平時(shí)喜歡在11點(diǎn)半左右考慮吃飯的問(wèn)題。但是今天因?yàn)槊](méi)有考慮，那么到11點(diǎn)半他就會(huì)開(kāi)始提醒你：林凡你平時(shí)在這個(gè)點(diǎn)兒已經(jīng)要開(kāi)始點(diǎn)外賣(mài)了，或者說(shuō)已經(jīng)開(kāi)始考慮要邀請(qǐng)朋友去外面吃飯了，你要不要我?guī)湍闾崆鞍盐恢枚ㄒ幌�，或者幫你把外賣(mài)給定了，他可以去做更加主動(dòng)的關(guān)懷。這是未來(lái)汽車(chē)、手機(jī)可能可以做的事。

實(shí)際肯定要回到用戶(hù)畫(huà)像上，如果用戶(hù)不喜歡被打擾，這個(gè)手機(jī)不應(yīng)該自己出來(lái)添亂，它應(yīng)該像你的朋友一樣非常了解你，針對(duì)你的喜好脾性來(lái)去針對(duì)性的交互。

AI光年：這是不是可以解放決策精力？很多人有選擇困難癥，有智能體或許不用在穿哪件衣服這種瑣碎的事上浪費(fèi)決策精力。

李大海：是的，一個(gè)是節(jié)省大家的決策成本，另外一個(gè)是可以放大大家的執(zhí)行效果。

比如編程，當(dāng)我有一個(gè)好想法的時(shí)候，我自己還要把它變成代碼，這個(gè)過(guò)程其實(shí)是很耗精力的，如果我們用AI來(lái)去做了以后，一方面能夠放大大家想法的杠桿效應(yīng)，另一方面也能抹平不同的人在執(zhí)行上因?yàn)槟芰Σ町悗?lái)的鴻溝。

林凡：端側(cè)大模型還有沒(méi)有別的一些典型的應(yīng)用的場(chǎng)景和可能性？

李大海：還挺多的，比如汽車(chē)，具身智能，智能家居，智能制造。首先端側(cè)模型其實(shí)是今年剛剛開(kāi)始興起的一個(gè)新的一個(gè)技術(shù)趨是面壁在這里面出發(fā)的最早，走的最遠(yuǎn)的，但是它仍然處于早期階段。很多場(chǎng)景，都還在打磨落地的過(guò)程中。

除此之外，還有一些新的強(qiáng)輸入的設(shè)備，這是端側(cè)很好的場(chǎng)景（與之相對(duì)的手機(jī)是強(qiáng)輸出的設(shè)備），像智能眼鏡還有耳機(jī)類(lèi)似這樣的設(shè)備，它可以24小時(shí)開(kāi)機(jī)，把使用者的所有數(shù)據(jù)都記錄下來(lái)，就像當(dāng)年在皇宮里專(zhuān)門(mén)記錄皇帝一言一行起居錄的小太監(jiān)。

這個(gè)設(shè)備不僅會(huì)記錄對(duì)話(huà)，虛擬環(huán)境里的上下文，還能把真實(shí)世界的上下文也記錄下來(lái)，那么這個(gè)設(shè)備就會(huì)具備非常大懂用戶(hù)的價(jià)值。

林凡：我們?nèi)粘Ｉ钪羞€會(huì)有手勢(shì)以及各種各樣的表情，這些會(huì)不會(huì)成為新的跟設(shè)備交互的可能？

李大海：一定會(huì)的。我們現(xiàn)在在做的多模態(tài)模型，就是要往處理這些交互方式發(fā)展。

我認(rèn)為未來(lái)的硬件會(huì)像現(xiàn)在的大模型軟件一樣，分成兩種類(lèi)型：一種類(lèi)型我們就是我們說(shuō)的copilot，一種類(lèi)型叫agent。手機(jī)、眼鏡一定是一個(gè)copilot，但是未來(lái)我們生活里會(huì)有很多的agent類(lèi)型的硬件。

比如說(shuō)一個(gè)智能攝像頭配上了輪子以后，它就變成一個(gè)小機(jī)器人。它可以移動(dòng)，它可以觀察你家里的情況，再根據(jù)觀察去執(zhí)行一些行動(dòng)。當(dāng)agent類(lèi)的這種設(shè)備越來(lái)越多的時(shí)候，它完全可以通過(guò)對(duì)于圖像信號(hào)的環(huán)境感知，通過(guò)對(duì)于圖像信號(hào)的環(huán)境感知，來(lái)接收用戶(hù)的更多種多樣的傳遞的信息，比如身體姿態(tài)，比如用表情傳遞出來(lái)的情緒。

我們正在合作做一個(gè)電子寵物貓，它的觸感就像真貓一樣，用戶(hù)可以摸著它的背和它的脖子去感受。然后我們的大模型放在里面不是讓它學(xué)會(huì)說(shuō)話(huà)，而是讓它更懂用戶(hù)傳達(dá)的情緒，它可以用對(duì)應(yīng)的情緒的叫聲和姿態(tài)來(lái)回應(yīng)用戶(hù)，讓用戶(hù)覺(jué)得這個(gè)貓好懂我，這就是一個(gè)全新的場(chǎng)景陪伴。

AI光年：copilot和agent的區(qū)別是什么？

李大海：Copilot就是助手，它已經(jīng)做到了70%，工程師只要做一些修改和檢查就可以用了。Agent基本上可以理解為機(jī)器人，我們叫它智能體。這個(gè)智能體它是能夠跟環(huán)境去做更自主的互動(dòng)，能夠做出更自主的決策。

我還有一個(gè)補(bǔ)充，剛才提到的交互，主要還是怎么接收和收入的，還有一個(gè)是輸出。比如現(xiàn)在的手機(jī)界面，都是通過(guò)安卓開(kāi)發(fā)工程師寫(xiě)出來(lái)的APP固定的軟件界面，未來(lái)大模型有機(jī)會(huì)接管這個(gè)輸出界面。

當(dāng)它（大模型）需要用某種方式去表達(dá)它的觀點(diǎn)和輸出它的信息的時(shí)候，它完全可以用類(lèi)似于現(xiàn)在的圖像生成的方式，直接就把相關(guān)的信息生成出來(lái)。這也是一個(gè)未來(lái)可能會(huì)產(chǎn)生的可以期待的方向。

林凡：我們現(xiàn)在所謂的千人千面，還是說(shuō)你看到的內(nèi)容是不一樣的。而未來(lái)的千人千面，你看到的界面都是不一樣的。

中美差距：云端差距明顯，端側(cè)同時(shí)起步

林凡：大模型剛出來(lái)的時(shí)候，我們說(shuō)中國(guó)落后美國(guó)兩年的時(shí)間，稍微有一些追趕后可能只差一年了。這個(gè)差距主要是指云端大模型，因?yàn)樵贫舜竽Ｐ褪艿矫绹?guó)對(duì)硬件的限制，中國(guó)在算力是有極大差距的。

那么在端側(cè)大模型，中國(guó)的設(shè)備硬件還是不錯(cuò)的，而像蘋(píng)果的硬件和模型之間的差距還要一兩年的時(shí)間，那不知道在端側(cè)大模型上面中美的差距如何？我自己對(duì)面壁印象最深刻的就是，斯坦福一個(gè)團(tuán)隊(duì)抄襲你們的模型。

李大海：云端模型的話(huà)，中美的差距我覺(jué)得還是1到2年的。到底是一年還是兩年，可能不同的人的觀點(diǎn)不太一樣，這個(gè)量化本身也沒(méi)有太大的意義，都是大家的感受而已。不糾結(jié)它多大，但差距依然很明顯的存在。

主要體現(xiàn)在我們現(xiàn)在國(guó)內(nèi)的所有云端大模型，還沒(méi)有誰(shuí)顯著的達(dá)到或者超過(guò)GPT-4。

隨著這個(gè)o1出現(xiàn)，我們肯定還有更多的追趕的工作。但是o1這件事情我比較樂(lè)觀的點(diǎn)是，我們過(guò)去一年，國(guó)內(nèi)有很多公司，包括面壁在內(nèi)，在agent上做了蠻多的工作。因?yàn)槲易约旱目捶ň褪莖1其實(shí)它是把a(bǔ)gent的能力內(nèi)化了。所以我覺(jué)得這個(gè)追趕起來(lái)應(yīng)該沒(méi)有那么的難。

但是更大的模型做到GPT-4、GPT-4o，甚至未來(lái)馬上要出的GPT-5，這方面的追趕還要花一些時(shí)間。

端側(cè)模型上因?yàn)槊姹诔霭l(fā)的比較早，我們跟微軟的Phi系列起步、發(fā)展的速度差不多。所以我們?cè)谶@塊上其實(shí)跟美國(guó)的差距并不大。

林凡：具體在技術(shù)上會(huì)有哪些差距呢？我們有哪些優(yōu)勢(shì)？

李大海：我以稀疏化這個(gè)方向舉例。我們?cè)贫送玫氖荕oE的方式，就是混合專(zhuān)家模型，這在云端很好用，因?yàn)镸oE內(nèi)存相對(duì)便宜，可以用內(nèi)存換計(jì)算的密度。但端側(cè)用MoE就不是一個(gè)很好的選擇，我們剛剛講了，算力的大孝內(nèi)存的大小，還有內(nèi)存的帶寬都可能會(huì)是瓶頸，我們看到更好的方式是逐漸在模型里進(jìn)行稀疏化。

我們?cè)诮衲?月份的時(shí)候，在行業(yè)里面首創(chuàng)發(fā)布了稀疏化的端側(cè)模型，這種技術(shù)原創(chuàng)性的工作，我們跟美國(guó)的起步是同時(shí)的時(shí)候，我們不會(huì)落后，也能做出領(lǐng)先的技術(shù)點(diǎn)。

大模型的演進(jìn)速度非常的快。任何一個(gè)公司都很難說(shuō)自己的工作永遠(yuǎn)是或者說(shuō)長(zhǎng)時(shí)間保持Sota，state of the art，可以簡(jiǎn)單理解為行業(yè)最好水平。

很多時(shí)候一個(gè)工作做出來(lái)能夠Sota一個(gè)月就很好了。更重要的是一個(gè)團(tuán)隊(duì)具備這樣的素質(zhì)，能夠在一個(gè)領(lǐng)域里面做出Sota的原創(chuàng)工作，以及能夠跟進(jìn)其他人的Sota工作。

林凡：MOE給大家簡(jiǎn)單解釋一下，就是相當(dāng)于說(shuō)在一個(gè)模型里面，有很多個(gè)專(zhuān)家同時(shí)在對(duì)一個(gè)事情做判斷，然后把它們合并在一起，尋找到一個(gè)最優(yōu)的解返回給用戶(hù)。但是稀疏化在原理上面是怎么解決剛才說(shuō)的這個(gè)問(wèn)題的呢？

李大海：首先我們理解一個(gè)現(xiàn)象，人的大腦是稀疏化的。

我們現(xiàn)在在這里討論大模型話(huà)題，都是集中精力的。但是就算我們集中精力，我們的大腦可能也只有5%的神經(jīng)元是激活的。這是大腦的稀疏化特性，對(duì)于節(jié)省能耗非常有幫助。人的大腦只有15瓦到25瓦，其實(shí)主要就是由這個(gè)稀疏性帶來(lái)的。

我們發(fā)現(xiàn)在大模型里也存在稀疏性。所以可以通過(guò)一些模型訓(xùn)練的方法，讓稀疏性能夠表現(xiàn)的更加徹底。

為什么在端側(cè)一定是要稀疏化而不是MOE。因?yàn)镾caling Law是，網(wǎng)絡(luò)的規(guī)模越大，它的能力越強(qiáng)。當(dāng)我們MOE混合專(zhuān)家的時(shí)候，每個(gè)專(zhuān)家的規(guī)模決定了這個(gè)模型的能力。如果我們?cè)诙藗?cè)整體大小較小的情況下，還把它拆成很多個(gè)專(zhuān)家，那專(zhuān)家規(guī)模會(huì)變得更小，會(huì)對(duì)整體智能水平有影響，所以稀疏化的方式就會(huì)更好。

林凡：簡(jiǎn)單來(lái)說(shuō)，就是云端它有很強(qiáng)的算力，有很強(qiáng)的硬件，所以它就可以搞出好多個(gè)大腦來(lái)一起來(lái)去思考這個(gè)問(wèn)題，然后達(dá)到一個(gè)結(jié)果。在端側(cè)要解決這個(gè)問(wèn)題，但能力有限，所以盡量只讓其中的一部分活躍的去想這個(gè)，剩下的就安心的干活。

李大海：相當(dāng)于他的知識(shí)密度能夠更高，因?yàn)槲覅⑴c推理的參數(shù)量變小了，所以我的功耗是更小的。

大模型的知識(shí)密度是指什么呢？就是一個(gè)大模型能夠達(dá)到的智能水平，用多大的推理參數(shù)規(guī)模來(lái)達(dá)到這個(gè)智能水平。

比如說(shuō)在20年6月的時(shí)候，OpenAI發(fā)布了他們的GPT3.0的API，當(dāng)時(shí)是1750億的參數(shù)，他每一次推理都要去對(duì)這1750億參數(shù)進(jìn)行計(jì)算。但是在今年2月1號(hào)，面壁智能發(fā)布的 MiniCPM1.0，面壁小鋼炮1.0，24億的參數(shù)的模型已經(jīng)達(dá)到了同等的智能水平。所以我們的知識(shí)密度變得更高，差不多是GPT3.0的100倍。

其實(shí)我們?nèi)说拇竽X現(xiàn)在知識(shí)密度是最高的。人的大腦可以達(dá)到120到140的智商，但是功耗只有15到20瓦，遠(yuǎn)比現(xiàn)在的所有的大模型都要聰明。

AI光年：大模型知識(shí)密度可以類(lèi)比芯片制程，但芯片有物理載體很好理解制程縮小的過(guò)程，大模型的知識(shí)密度是怎么增加的？

李大海：芯片制程的盡頭是量子力學(xué)，大模型的知識(shí)密度的盡頭是信息論，兩者都有極限。

我們根據(jù)過(guò)去對(duì)行業(yè)的觀察，提出了面壁定理，大模型每8個(gè)月它的知識(shí)密度會(huì)提升一倍。相比摩爾定律每18個(gè)月芯片的計(jì)算密度提升一倍更快。

AI光年：大模型發(fā)展會(huì)帶來(lái)能源問(wèn)題嗎？

李大海：如果接下來(lái)所有行業(yè)里面所有的模型都按照高知識(shí)密度去優(yōu)化自己的模型，長(zhǎng)期來(lái)看能源不會(huì)是一個(gè)問(wèn)題。

但比如說(shuō)以O(shè)penAI為首去追“星際之門(mén)”這樣非常巨大的一個(gè)集群，去訓(xùn)非常巨大的模型，這種方式對(duì)于能源，從局部上是會(huì)產(chǎn)生很大的挑戰(zhàn)。而且這樣模型訓(xùn)練出來(lái)以后，實(shí)際去做推理，服務(wù)用戶(hù)也會(huì)產(chǎn)生能源上的挑戰(zhàn)，我覺(jué)得這個(gè)經(jīng)濟(jì)賬是算不過(guò)來(lái)的。

長(zhǎng)期來(lái)看，我們還是要追求兩條腿走路。一方面要不斷的提升我們模型的知識(shí)密度；另一方面在模型各種能力上的延伸，要去做更多的、外向的、突破性的探索。這兩件事情都是要做的。但是純粹去追求模型的大，這個(gè)我覺(jué)得不是一個(gè)合理的方向。

林凡：能源問(wèn)題其實(shí)非常依賴(lài)于說(shuō)Scaling Law到底是一個(gè)線(xiàn)性的，還是一個(gè)超線(xiàn)性的，還是走平的狀態(tài)。

從目前來(lái)看，我覺(jué)得能源問(wèn)題應(yīng)該不是一個(gè)大的問(wèn)題。但是如果有哪一天技術(shù)又發(fā)生一些跳變的話(huà)，那也有可能會(huì)是一個(gè)問(wèn)題。

李大海：Scaling Law我們現(xiàn)在看起來(lái)應(yīng)該不是線(xiàn)性的，甚至是一個(gè)類(lèi)似log函數(shù)這樣的變化。那我們現(xiàn)在要做的事情就是不斷的提升知識(shí)密度，讓知識(shí)密度提升速度，要快于我們對(duì)Scaling Law的規(guī)模的追求。這樣的話(huà)就可以把對(duì)規(guī)模追求，壓在一個(gè)合理的區(qū)間里。

開(kāi)源與閉源沒(méi)有對(duì)錯(cuò)，是商業(yè)模式選擇

AI光年：為什么大部分端側(cè)模型都選擇開(kāi)源？

李大海：這是當(dāng)前的現(xiàn)狀，不代表未來(lái)大家不會(huì)把模型閉源掉。

選擇開(kāi)源還是選擇閉源，是每個(gè)公司的商業(yè)判斷，這沒(méi)有對(duì)錯(cuò)，它是一種商業(yè)模式。開(kāi)源它能夠以更低的成本去接觸到更多的潛在的客戶(hù)，能夠讓更多客戶(hù)更方便地使用自己的產(chǎn)品。

所以在to b這個(gè)領(lǐng)域里面，你通過(guò)開(kāi)源的方式能夠更好地接觸客戶(hù)，更低成本接觸客戶(hù)。同時(shí)客戶(hù)也能夠更低成本的去驗(yàn)證你的產(chǎn)品的真實(shí)的含金量。

如果一個(gè)產(chǎn)品它是完全做to c的，它不需要去在模型質(zhì)量上去取悅客戶(hù)的話(huà)，它完全可以用閉源。OpenAI一開(kāi)始做ChatGPT是一個(gè)C端的產(chǎn)品，那它的模型不開(kāi)源也沒(méi)有關(guān)系。

林凡：在美國(guó)我們會(huì)看到大量的公司沒(méi)有采用OpenAI的API，而是用Llama 3（Meta大模型）的API，原因很簡(jiǎn)單。今天大量的美國(guó)大公司，它的很多數(shù)據(jù)已經(jīng)在云上了，它要用OpenAI的API會(huì)面臨一個(gè)問(wèn)題，它需要把數(shù)據(jù)從它原先用的云上遷移到微軟云上。所以它會(huì)說(shuō)OK Llama 3也有不錯(cuò)的效果了，在我的云上能用Llama 3開(kāi)源的服務(wù)，所以選擇Llama 3。

未來(lái)人類(lèi)更重要的是構(gòu)思，白領(lǐng)工作或逐漸平臺(tái)化

林凡：我們今天能看到很多技術(shù)進(jìn)展，但大多數(shù)人更關(guān)注大模型對(duì)社會(huì)、對(duì)自己會(huì)產(chǎn)生什么樣的影響。

李大海：世界會(huì)因?yàn)樾碌募夹g(shù)帶來(lái)更多崗位。我們回顧過(guò)去20年互聯(lián)網(wǎng)發(fā)展，也能看到像流量規(guī)劃師、插畫(huà)設(shè)計(jì)師這種我過(guò)去上學(xué)的時(shí)候從來(lái)沒(méi)有想象過(guò)的職業(yè)。隨著AI的發(fā)展，一定會(huì)有一些職業(yè)因?yàn)榧夹g(shù)升級(jí)被淘汰，但同時(shí)也會(huì)產(chǎn)生更多職業(yè)。

同時(shí)我們看到，未來(lái)人更重要的是想法，是構(gòu)思，是打動(dòng)別人的能力。人完全可以通過(guò)AI去放大自己的想法，也就是杠桿效應(yīng)。

面壁在去年做過(guò)一個(gè)實(shí)驗(yàn)性的產(chǎn)品叫ChatDev ，是用若干個(gè)智能體去組成一個(gè)軟件開(kāi)發(fā)公司，有CEO、CTO、CPO。你給它說(shuō)給我開(kāi)發(fā)一個(gè)貪吃蛇游戲，它就會(huì)讓CEO決定方向，CPO做產(chǎn)品設(shè)計(jì)，CTO做技術(shù)選型，然后還有軟件工程師、測(cè)試等等。所有工作做完，它會(huì)把游戲打成一個(gè)包給你。

未來(lái)一定會(huì)產(chǎn)生很多這樣的虛擬智能體，能夠幫個(gè)人去做非常多的事情。未來(lái)可能會(huì)出現(xiàn)大量的公司，就是一個(gè)人開(kāi)的。他只有一個(gè)想法，有很多虛擬的智能體去幫他完成他的想法。

這樣的話(huà)整個(gè)世界的經(jīng)濟(jì)結(jié)構(gòu)會(huì)發(fā)生巨大的變化，但你說(shuō)人的工作是不是都消失了？其實(shí)不是，更多人需要去做構(gòu)思的事了。我在去年年底的時(shí)候跟《失控》那本書(shū)的作者KK有過(guò)一次訪(fǎng)談，他有句話(huà)我特別的認(rèn)可，他說(shuō)AI不會(huì)替代人，真正替代人的是比你更會(huì)使用AI的人。AI未來(lái)會(huì)是一個(gè)更有效率的工具。誰(shuí)能夠掌握好這個(gè)工具，誰(shuí)就能夠放大自己的工作效率。

林凡：如果我們具體一點(diǎn)來(lái)看的話(huà)，出國(guó)旅游的翻譯會(huì)不會(huì)被取代？酒店里的服務(wù)員會(huì)不會(huì)受到?jīng)_擊？包括大量用自動(dòng)駕駛后，司機(jī)會(huì)不會(huì)受到影響？雖然說(shuō)從一個(gè)很長(zhǎng)的歷史周期來(lái)講，這些崗位這些人都肯定會(huì)有新的可能性和新的機(jī)會(huì)。但你不可避免的是當(dāng)下可能我就失業(yè)了，這個(gè)問(wèn)題你怎么看？

李大海：首先這個(gè)過(guò)程它不會(huì)是一個(gè)1到2年就完全釋放的一個(gè)過(guò)程。

這個(gè)過(guò)程中一定會(huì)有一些特別具體的行業(yè)和職業(yè)受到的沖擊大一些。你看我們現(xiàn)在整個(gè)行業(yè)里面，像外賣(mài)、滴滴司機(jī)，還有內(nèi)容平臺(tái)的創(chuàng)作者，越來(lái)越多的領(lǐng)域里面，都凸顯出了靈活職業(yè)的這種特點(diǎn)。這種靈活的這種職業(yè)是在發(fā)生和涌現(xiàn)的。

這種交替的過(guò)程中，確實(shí)會(huì)存在有一些崗位就會(huì)縮減。但我想真的遇到這樣問(wèn)題的朋友，還是要積極的去擁抱新的變化，能夠?qū)W會(huì)使用AI一定是有更多新的機(jī)會(huì)。

林凡：我有一些觀察，今天大家有的時(shí)候不好找工作，就會(huì)說(shuō)去開(kāi)滴滴或者是去送外賣(mài)。也就是過(guò)去互聯(lián)網(wǎng)把一部分藍(lán)領(lǐng)的工作平臺(tái)化了，給大家提供了兜底選項(xiàng)，就是我再差也可以去干這個(gè)事情。

AI可能會(huì)讓很多白領(lǐng)的工作開(kāi)始慢慢地平臺(tái)化。

雖然AI讓“一個(gè)公司”成為可能，但前提是這個(gè)“一人公司”要通過(guò)AI平臺(tái)公司把任務(wù)拆解之后，再交給每一個(gè)具體的人來(lái)執(zhí)行。這些具體的人也會(huì)在各自的領(lǐng)域做自己擅長(zhǎng)的事情。

那更多的人工作越來(lái)越“靈活”。這個(gè)“靈活”不是代表說(shuō)真的沒(méi)工作干了被迫靈活，而是說(shuō)未來(lái)組織的構(gòu)建的形式會(huì)發(fā)生巨大的變化，公司可能要么就是一個(gè)人的公司，要么就是越來(lái)越大的平臺(tái)來(lái)去整合所有這些勞動(dòng)力的資源。

李大海：對(duì)，這個(gè)跟我剛剛提到的copilot和agent也有關(guān)系。

AI的能力還在發(fā)展過(guò)程中，對(duì)于準(zhǔn)確率要求非常高的工作場(chǎng)景，全依賴(lài)AI還不太現(xiàn)實(shí)，這個(gè)時(shí)候它是copilot的形式，所以就需要人在里面做一些兜底工作。

蘿卜快跑，我們知道它背后是有大概幾千個(gè)司機(jī)做云代駕，一旦智能駕駛系統(tǒng)出了任何問(wèn)題，馬上有人來(lái)接管。它就是copilot的一個(gè)很好的范例。

我有個(gè)朋友在海外，他去為金融機(jī)構(gòu)做了一個(gè)很好的業(yè)務(wù)系統(tǒng)，里面用了非常重的AI。但是客戶(hù)選擇他們的唯一的原因是，他們背后有一個(gè)500人的人工團(tuán)隊(duì)做托管，一旦有什么問(wèn)題的時(shí)人會(huì)接管，所以客戶(hù)敢用很放心。

林凡：面壁現(xiàn)在會(huì)在看什么樣的人才？

李大海：我們從去年就一直在提一個(gè)詞叫AI原生人才。什么叫AI原生的人才呢？我們用搜索原生人才來(lái)做一個(gè)例子。

現(xiàn)在幾乎所有人都是搜索原生的，生下來(lái)就有搜索這個(gè)產(chǎn)品，所以但凡我遇到什么問(wèn)題，我都會(huì)想著去通過(guò)搜索來(lái)解決問(wèn)題。但是AI是個(gè)新事物，看大家遇到問(wèn)題后，是不是善于或者下意識(shí)地就想用AI去解決問(wèn)題。

能夠擅長(zhǎng)把AI跟自己的能力結(jié)合在一起的人，我們把他稱(chēng)為AI原生的人才，這是第一個(gè)。

第二個(gè)，我們非常認(rèn)同AI的這種學(xué)習(xí)方法，機(jī)器學(xué)習(xí)的方式是一種非常好的優(yōu)化方式。所以我們?nèi)ゴ罱ńM織的時(shí)候，也會(huì)把自己搭建成為一個(gè)學(xué)習(xí)型的組織，或者說(shuō)像機(jī)器學(xué)習(xí)型的組織。

更簡(jiǎn)單的講，你要更能理解自己真實(shí)的情況，不要欺騙自己，要知道自己現(xiàn)在什么地方好，什么地方不好，要知道自己的目標(biāo)是什么，就相當(dāng)于能夠快速迭代，每次迭代都能知道自己在這個(gè)迭代里面有多大進(jìn)步，離目標(biāo)還有多遠(yuǎn)。只有這樣的方式，才能夠不斷地學(xué)習(xí)進(jìn)步。

AI光年：我們現(xiàn)在的公司組織還是從工業(yè)時(shí)代延續(xù)下來(lái)的科層制，以后這個(gè)科層制是否適用于AI時(shí)代？會(huì)有怎樣的迭代？

林凡：未來(lái)的公司還是會(huì)有科層制，特別是一些平臺(tái)型的公司、核心的大模型的公司，它還會(huì)是科層制的，但一定會(huì)涌現(xiàn)出更加平層的管理機(jī)制。當(dāng)所有的任務(wù)流開(kāi)始被AI掌管的時(shí)候，有很多具體的工作就可以由人來(lái)做，上面就是AI了。

李大海：AI人工智能在這個(gè)階段非常顯著的一個(gè)影響，是極大地提升人的生產(chǎn)力。生產(chǎn)力的極大的提升一定會(huì)影響到生產(chǎn)關(guān)系。在不同的領(lǐng)域，不同的場(chǎng)景肯定影響是不同的。

AI光年：AI會(huì)導(dǎo)致信息繭房問(wèn)題加劇嗎？

李大海：這個(gè)問(wèn)題可能比較哲學(xué)。有個(gè)社會(huì)科學(xué)的研究說(shuō)，他發(fā)現(xiàn)他把正反兩個(gè)方向的人的觀點(diǎn)互相暴露地非常充分，也會(huì)導(dǎo)致這兩方對(duì)自己觀點(diǎn)的堅(jiān)持程度變得更強(qiáng)。他的這個(gè)結(jié)論是否正確我不知道，我只是看到有這樣的觀點(diǎn)。

總的來(lái)說(shuō)，現(xiàn)在因?yàn)樾畔⑦^(guò)載，每個(gè)人選擇相信什么，這里面有很多的不確定性�？萍荚谶@里面確實(shí)會(huì)有影響，但是具體的影響是什么，還需要我們花更多的精力去理解。

林凡：從技術(shù)角度來(lái)講的話(huà)，我倒是覺(jué)得說(shuō)大模型的時(shí)代對(duì)于信息繭房這個(gè)問(wèn)題會(huì)比現(xiàn)在會(huì)更好。

為什么會(huì)有信息繭房？本質(zhì)上是因?yàn)榈讓邮且粋€(gè)推薦模型，推薦模型它快速收斂到你喜歡看什么，你愿意在什么信息上面去停留多長(zhǎng)時(shí)間，它就是一個(gè)簡(jiǎn)單的系統(tǒng)去往這個(gè)方向去迭代優(yōu)化的。

但到了大模型，因?yàn)樗邆淞俗銐蚨嗟男畔ⅲ⑶宜邆淞艘欢ǖ耐评磉壿嬙谶@個(gè)地方。所以只要我們?cè)谶@個(gè)底層邏輯上，不完全按個(gè)人喜歡去輸出信息，那么你是有機(jī)會(huì)把信息繭房繞過(guò)去一部分。但肯定還是會(huì)有類(lèi)似的問(wèn)題。

AI光年：其實(shí)從古至今都存在信息繭房，只是互聯(lián)網(wǎng)發(fā)達(dá)之后，我們對(duì)“繭房”這個(gè)概念更清晰了。

李大海：你說(shuō)的沒(méi)錯(cuò)�，F(xiàn)在每個(gè)人每天接受信息量也比過(guò)去大非常多，但從大腦構(gòu)造的角度上來(lái)講，大腦還是傾向于去接受自己熟悉的信息和自己關(guān)注的信息。

有篇非常有影響力的論文，叫《Attention Is All You Need》，這篇文章是講大模型的，但是我覺(jué)得這個(gè)標(biāo)題也適合我們現(xiàn)在的討論點(diǎn)。很多時(shí)候人的注意力是分配到自己想要分配的地方去的，所以信息繭房一方面是人的個(gè)人選擇，另一方面也是商業(yè)順應(yīng)人的選擇，利用人性下沉的力量去實(shí)現(xiàn)商業(yè)目的。

如果每個(gè)人都傾向于去消費(fèi)自己不熟悉的內(nèi)容，那商家或者說(shuō)這些系統(tǒng)，這些應(yīng)用，這些業(yè)務(wù)，它也會(huì)去順從這個(gè)趨勢(shì)。但實(shí)際上不是，很多時(shí)候都是人的選擇。