當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > OpenAI o1如何延續(xù)Scaling Law

OpenAI o1如何延續(xù)Scaling Law
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-22 07:28:46 瀏覽：897次

導(dǎo)讀：如果每天和開發(fā)者打交道，你不會(huì)感覺(jué)這個(gè)行業(yè)停滯或變冷。文丨程曼祺賀乾明《晚點(diǎn)聊 LateTalk》是《晚點(diǎn) LatePost》推出的播客節(jié)目，在文字報(bào)道之外，用音頻訪談形式捕捉商業(yè)世界變化的潮流和不變的邏輯，與這其中的人和故事。 OpenAI 發(fā)布新模型 o1 后...

“如果每天和開發(fā)者打交道，你不會(huì)感覺(jué)這個(gè)行業(yè)停滯或變冷。”

文丨程曼祺賀乾明

《晚點(diǎn)聊 LateTalk》是《晚點(diǎn) LatePost》推出的播客節(jié)目，在文字報(bào)道之外，用音頻訪談形式捕捉商業(yè)世界變化的潮流和不變的邏輯，與這其中的人和故事。

OpenAI 發(fā)布新模型 o1 后的第二天，我們邀請(qǐng)了硅基流動(dòng)創(chuàng)始人袁進(jìn)輝與我們分享了 o1 的技術(shù)意義，也討論了今年 1 月至今，袁進(jìn)輝觀察到的 AI 開發(fā)者社區(qū)變化。

o1 的一個(gè)重要變化就是增加了分配給推理（inference，即大模型的使用）階段的算力，推理階段計(jì)算（test-time compute）重要性提升。

而袁進(jìn)輝今年初創(chuàng)立的硅基流動(dòng)（SiliconFlow）就是一家做推理加速優(yōu)化的 AI Infra（中間層軟件）公司。他是一位連續(xù)創(chuàng)業(yè)者，曾在 2017 年創(chuàng)立一流科技（OneFlow），在 2023 年加入王慧文組建的大模型創(chuàng)業(yè)公司光年之外，成為聯(lián)合創(chuàng)始人。（袁進(jìn)輝的上兩段創(chuàng)業(yè)故事，可聽《晚點(diǎn)聊 LateTalk》第 58 期。）

o1 打破了一個(gè)預(yù)期過(guò)去，在大語(yǔ)言模型范式下，模型在解決邏輯推理問(wèn)題時(shí)遇到了瓶頸。而 o1 通過(guò) 3 個(gè)技術(shù)方法，顯著提升了模型的邏輯推理能力，包括：

強(qiáng)化學(xué)習(xí)，也就是 RL（Reinforcement Learning）

chain of thought，也就是思維鏈

還有 test-time compute 或者 inference-time compute，也就是在推理階段分配更多計(jì)算資源。

o1 在科學(xué)、數(shù)學(xué)和編程等需要更多邏輯能力的任務(wù)上都有很大提升。

袁進(jìn)輝在這期播客里比較通俗地解釋了上述技術(shù)方法是怎么發(fā)揮作用的；我們也討論了，o1 的這些新技術(shù)特性，對(duì)算力消耗量，行業(yè)應(yīng)用和其它 AI 公司動(dòng)作的影響。

硅基流動(dòng)直接服務(wù)大量開發(fā)者。與很多人的觀點(diǎn)不同，袁進(jìn)輝說(shuō)，在應(yīng)用開發(fā)端，他沒(méi)有感到 AI 熱潮的冷卻，只是現(xiàn)在涌現(xiàn)出的很多開發(fā)者是小微企業(yè)甚至是個(gè)人開發(fā)者，他們不在傳統(tǒng) VC 的視野里：“如果每天和開發(fā)者打交道，你不會(huì)感覺(jué)這個(gè)行業(yè)停滯或變冷。”

所以一方面，創(chuàng)投市場(chǎng)覺(jué)得 AI 應(yīng)用的爆發(fā)不如預(yù)期，另一方面，實(shí)際調(diào)用量也在快速增長(zhǎng)。

袁進(jìn)輝還分享了一些一手?jǐn)?shù)據(jù)，比如硅基流動(dòng)自己的客戶，調(diào)用最多的開源模型是阿里巴巴的通義千問(wèn)（Qwen 開源系列）、幻方的 DeepSeek，和 Meta 的 Lamma，Qwen 的優(yōu)勢(shì)是不同規(guī)模模型版本齊全，DeepSeek 則有突出的編程能力。

以下我們摘錄了播客中的部分內(nèi)容：

強(qiáng)化學(xué)習(xí)、思維鏈，每一個(gè) idea 都不是石破天驚，但 OpenAI 做了最好的組合

《晚點(diǎn)聊》：看到 o1 發(fā)布是什么感覺(jué)，哪些部分超出預(yù)期？

袁進(jìn)輝：這個(gè)提前已有多次消息泄露，有一些預(yù)期已經(jīng)支出了。o1 兌現(xiàn)了之前的承諾，就是用合成數(shù)據(jù)、強(qiáng)化學(xué)習(xí)等方法在 reasoning （邏輯推理）能力上有突破，數(shù)理能力、編程能力都有較大提升。

《晚點(diǎn)聊》：你覺(jué)得這是個(gè)什么量級(jí)的變化？openAI 稱其為新階段（new level）。

袁進(jìn)輝：一般會(huì)認(rèn)為大模型有三層能力：一是對(duì)語(yǔ)言的掌握語(yǔ)言生成得流暢不流暢、地道不地道；二是對(duì)常識(shí)或世界知識(shí)的掌握比如知道一些交通規(guī)則。之前的大模型，不管 GPT 還是其他開源模型，這兩個(gè)能力都做得非常好了。

但還有一層，是考驗(yàn)智商的部分，我們叫邏輯推理或 reasoning，這一塊公認(rèn)做得不夠好，也有人說(shuō)這限制了 agent（智能體）的發(fā)展。

而這次 o1 用一套行之有效的方法論把 reasoning 能力提高了一大步，能解決相當(dāng)多問(wèn)題，確實(shí)讓大語(yǔ)言模型能力往上邁了一個(gè)臺(tái)階。

《晚點(diǎn)聊》：今年 7 月，Google DeepMind 發(fā)布了 AlphaGeometry 更新版，也使用了強(qiáng)化學(xué)習(xí)，它差一分就可以拿到 IMO（國(guó)際數(shù)學(xué)奧賽）金牌。但相比 o1，好像沒(méi)那么多人討論，這是為什么？

袁進(jìn)輝：AlphaGeometry 等 Alpha 家族，就是 AlphaGo、AlphaProof、AlphaCode 等等，這些在大模型之前幾年已經(jīng)發(fā)生了就是用強(qiáng)化學(xué)習(xí)，讓模型解決某一個(gè)規(guī)則非常清晰的領(lǐng)域的問(wèn)題，模型可以做得比人好，所以這個(gè) “wow” 時(shí)刻在 AlphaGo 時(shí)（2016 年）已經(jīng)有了。

然后下一個(gè) wow 時(shí)刻是 ChatGPT，也就是 GPT-3.5，大家發(fā)現(xiàn)模型能把語(yǔ)言問(wèn)題和世界知識(shí)也解得非常漂亮。

而現(xiàn)在這個(gè) wow，是在 GPT 上疊加了 Alpha 家族的方法論，打破了之前有一種預(yù)期，認(rèn)為在大語(yǔ)言模型范式下，專業(yè)問(wèn)題比通識(shí)問(wèn)題更難。

同時(shí)從應(yīng)用價(jià)值看，大模型在邏輯推理能力上的突破也可能明顯促進(jìn) agent 發(fā)展。之前 agent 跑不通，主要就是受限于模型的邏輯推理能力。

《晚點(diǎn)聊》：我們來(lái)拆解一下 o1 使用的技術(shù)，這次 OpenAI 提到了強(qiáng)化學(xué)習(xí)、思維鏈（chain of thought,CoT）、test-time compute（測(cè)試時(shí)間計(jì)算）等新方法。它們是怎么發(fā)揮作用的？

袁進(jìn)輝：無(wú)論大語(yǔ)言模型還是強(qiáng)化學(xué)習(xí)，都是 “統(tǒng)計(jì)學(xué)習(xí)”，也就是數(shù)據(jù)里有什么，模型才能學(xué)到什么，數(shù)據(jù)里沒(méi)有，或數(shù)據(jù)里不充分的比如某種規(guī)律或 pattern（模式）出現(xiàn)的頻率不夠高，模型就學(xué)不到或?qū)W不好。

你提到的這些方法都是基于這條原理衍生的。其中強(qiáng)化學(xué)習(xí)的重要作用是生成專業(yè)性數(shù)據(jù)，因?yàn)樽匀徽Z(yǔ)言語(yǔ)料大多數(shù)是通識(shí)類、消費(fèi)向數(shù)據(jù)，專業(yè)數(shù)據(jù)不夠。

強(qiáng)化學(xué)習(xí)怎么生成數(shù)據(jù)？以 AlphaGo 為例，它自己構(gòu)造了一個(gè)博弈環(huán)境，讓 AI 自己和自己下棋，中間會(huì)形成很多博弈軌跡（trace），這些數(shù)據(jù)可以補(bǔ)充到訓(xùn)練數(shù)據(jù)里。

同時(shí)強(qiáng)化學(xué)習(xí)有一個(gè)基本環(huán)節(jié)是反饋，AI 和環(huán)境交互后，環(huán)境會(huì)給反饋，正向后果要給激勵(lì)（reward）。如果是規(guī)則特別清晰的領(lǐng)域，構(gòu)造這個(gè)反饋環(huán)路更容易，比如 AlphaGeometry 解數(shù)學(xué)問(wèn)題，答案正確就給激勵(lì)。而另一些場(chǎng)景里，構(gòu)造反饋環(huán)路就比較難，比如自動(dòng)駕駛肯定也有仿真環(huán)境，但總有一些 corner case，仿真環(huán)境沒(méi)法覆蓋，那得到的反饋就不夠真實(shí)，訓(xùn)練出的 AI 就有缺陷。

所以有清晰規(guī)則的問(wèn)題，容易用強(qiáng)化學(xué)習(xí)；越不知道怎么描述勝負(fù)和評(píng)判對(duì)環(huán)境產(chǎn)生后果的場(chǎng)景，越難用強(qiáng)化學(xué)習(xí)�，F(xiàn)在相當(dāng)于是把清晰規(guī)則場(chǎng)景里已驗(yàn)證的一套方法，拿到了大語(yǔ)言模型里，還能解決看起來(lái)比 AlphaGo 更泛化的問(wèn)題，所以它是一個(gè)進(jìn)步。

《晚點(diǎn)聊》：思維鏈發(fā)揮什么作用？很多人把它形容為 “像人一樣思考”。

袁進(jìn)輝：其實(shí)也是解決數(shù)據(jù)問(wèn)題。原始自然數(shù)據(jù)里，語(yǔ)言也好，圖像也好，最充分的 pattern 是那些微觀、細(xì)粒度的東西，比如一個(gè)像素旁邊的另一個(gè)像素是什么，一個(gè)詞后面的一個(gè)詞是什么。但那些更宏觀、抽象層次更高的東西，更粗略的結(jié)構(gòu)，通常在自然數(shù)據(jù)里是不充分的。

所以之前的語(yǔ)言模型，已經(jīng)可以勝任局部生成或一個(gè)簡(jiǎn)單的邏輯推理；但中間包含較多步驟的、宏觀的、復(fù)雜的問(wèn)題就超出它的能力，因?yàn)樗娺^(guò)的這種數(shù)據(jù)太少。

Chain of Thought 其實(shí)就是給大語(yǔ)言模型一些提示，讓它把一個(gè)宏觀問(wèn)題分解成小步驟，每個(gè)小步驟之內(nèi)，是原來(lái)的模型妥妥能做好的。

但 o1 可能還多做了一些東西，就是強(qiáng)化學(xué)習(xí)的訓(xùn)練架構(gòu)下，也生成了一些宏觀的 chain of thought 策略數(shù)據(jù)，把他補(bǔ)充到語(yǔ)料里。所以強(qiáng)化學(xué)習(xí)和思維鏈，它們一定程度是正交的，強(qiáng)化學(xué)習(xí)可以幫助合成一些宏觀的、總結(jié)的數(shù)據(jù)。這是一種猜測(cè)，沒(méi)有確認(rèn)。

《晚點(diǎn)聊》：那么一開始怎么定下拆分步驟的策略呢？

袁進(jìn)輝：最早的思維鏈?zhǔn)侨送ㄟ^(guò) prompt 來(lái)提供問(wèn)題分解，AI 做不了�，F(xiàn)在應(yīng)該可以抽取一些通用的求解策略，也就是用規(guī)則方法，比如計(jì)算機(jī)里有一些基本算法可以把大問(wèn)題分解成小問(wèn)題，這些方法可能只有十幾個(gè)，已能解決絕大部分可用計(jì)算機(jī)解決的問(wèn)題，相當(dāng)于有套路。

當(dāng)然還有一種更優(yōu)雅、泛化能力更好的方法，就是在拆解步驟的層面也訓(xùn)練一個(gè)模型，用模型來(lái)篩選思維鏈。

現(xiàn)在都是猜測(cè)，我覺(jué)得 o1 訓(xùn)練時(shí)，應(yīng)該是加入了思維鏈層面的這種合成數(shù)據(jù)，但在 inference 時(shí)，有可能這個(gè)思維鏈還是規(guī)則系統(tǒng)，不是一個(gè)模型。

如果是一個(gè)稍微復(fù)雜一點(diǎn)的規(guī)則系統(tǒng)，沿著決策樹，會(huì)試探再回退如果往前想了一步不對(duì)，會(huì)回退到上一步再試探其它路徑，我懷疑 o1 在推理時(shí)還沒(méi)做到這個(gè)。

《晚點(diǎn)聊》：o1 發(fā)布時(shí)，OpenAI 沒(méi)有向用戶展示原始的思維鏈，并說(shuō)這是幾經(jīng)考慮的選擇。

袁進(jìn)輝：它如果展示了這個(gè)，就相當(dāng)于展示了技術(shù)秘密，其他人可以更好地去分析它到底怎么做的。

《晚點(diǎn)聊》：OpenAI 自己說(shuō)主要是出于安全原因，還有避免用戶被操縱。

袁進(jìn)輝：那也是，因?yàn)槿绻懦鏊季S鏈，外界就能更好地去 hack 它，或者做越獄嘗試。

《晚點(diǎn)聊》：我們可以繼續(xù)聊 test-time compute，強(qiáng)化學(xué)習(xí)彌補(bǔ)的是專業(yè)數(shù)據(jù)的稀缺，思維鏈彌補(bǔ)的是宏觀數(shù)據(jù)的稀缺，test-time compute，也有人把它叫 inference-time compute，它發(fā)揮什么作用？

袁進(jìn)輝：它其實(shí)是解決，模型只計(jì)算一次搞不定的事情。

過(guò)去搞不定，一部分原因在于模型缺乏解決綜合問(wèn)題或宏觀決策問(wèn)題的拆解步驟的數(shù)據(jù)。除了在訓(xùn)練階段下功夫，也可以通過(guò)在 inference 時(shí)把問(wèn)題分解成一個(gè)個(gè)步驟每個(gè)小步驟都是大模型擅長(zhǎng)解決的最終解決整個(gè)問(wèn)題。

它不像前兩個(gè)方法是直接補(bǔ)充訓(xùn)練數(shù)據(jù)，在訓(xùn)練階段發(fā)揮作用；它是在推理階段工作，在模型已經(jīng)定型后，仍可以通過(guò)分步解問(wèn)題，給用戶更好的體驗(yàn)。

這個(gè)思路其實(shí)在一些 RAG、workflow 里也有體現(xiàn)。比如上海人工智能實(shí)驗(yàn)室做了 MindSearch，人在搜索時(shí)，也會(huì)做反思，琢磨用什么更好的關(guān)鍵詞，怎么搜得更好，MindSearch 就做了類似的工作。

這次 o1 一個(gè)比較大的意義是，它通過(guò)在推理端多花一些算力，或者說(shuō)多花一些時(shí)間，最終表現(xiàn)出來(lái)的能力提高非常多。

所以綜合來(lái)說(shuō)，強(qiáng)化學(xué)習(xí)、chain of thought 還有 test-time compute 等等，每一個(gè)單獨(dú)的 idea 之前都有了，都不是石破天驚，但 OpenAI 把這幾個(gè) idea 組合在一起，有的在訓(xùn)練端，有的在推理端，都用來(lái)提升 reasoning 能力，取得了很好的效果。

《晚點(diǎn)聊》：o1 發(fā)布后，大家討論比較多的還有 “系統(tǒng) 2”。類比人類，“系統(tǒng) 1” 是快速反應(yīng)過(guò)程，比如我們學(xué)會(huì)開車后，不用全神貫注也能開車，而 “系統(tǒng) 2” 是深思熟慮下判斷，做決定或解決復(fù)雜問(wèn)題的過(guò)程。test-time compute，是否可以理解成在模型推理階段，強(qiáng)制按系統(tǒng) 2 的方法解答問(wèn)題？

袁進(jìn)輝：可以這么理解，原來(lái)大模型是來(lái)了一個(gè)輸入后，神經(jīng)網(wǎng)絡(luò)只 inference 一次就返回結(jié)果。

現(xiàn)在是，問(wèn)題過(guò)來(lái)后，先 inference 一次，再把這個(gè)結(jié)果結(jié)合 chain of thought 的提示喂給大模型，讓它有一個(gè)琢磨反思的過(guò)程，叫 reflection。經(jīng)過(guò)這樣幾次后，模型才把最終結(jié)果返回給用戶，這確實(shí)很像人的系統(tǒng) 2，或者叫 “慢思考” 過(guò)程。

新礦被發(fā)現(xiàn)，但不改變 “訓(xùn)基礎(chǔ)模型公司變少” 的趨勢(shì)

《晚點(diǎn)聊》：test-time compute 被關(guān)注，也因?yàn)樗@示出在推理階段放更多計(jì)算資源，模型性能還會(huì)提升。OpenAI 的 o1 官方博客里有這樣一張圖（如下），英偉達(dá) AI 科學(xué)家 Jim Fan 說(shuō)這是 2022 年以來(lái)，大語(yǔ)言模型研究領(lǐng)域最重要的一張圖。為什么證實(shí) “在推理上鋪更多資源能 work ” 這件事會(huì)這么重要？

袁進(jìn)輝：這相當(dāng)于證實(shí)了，原來(lái)還有一個(gè)這么大的礦，還沒(méi)挖。

之前的 scaling law，主要是在訓(xùn)練階段多放計(jì)算資源（模型性能會(huì)提升），這已經(jīng)是共識(shí)。但任何方法都不可能永無(wú)止境，繼續(xù)優(yōu)化訓(xùn)練的邊際收益已有衰減的跡象，相當(dāng)于再挖之前的礦，收益沒(méi)那么高了。

而在推理階段做 reflection，這是以前沒(méi)做過(guò)，或者沒(méi)人實(shí)現(xiàn)得這么好的，o1 展示了在原來(lái)沒(méi)怎么挖掘的地方，還有很大收益。當(dāng)然，它也會(huì)經(jīng)歷一開始收益很高，到一定階段后收益衰減的過(guò)程。

《晚點(diǎn)聊》：這會(huì)怎么影響英偉達(dá)的業(yè)績(jī)？o1 的方法如果被追逐、普及，是否意味算力需求會(huì)上升？

袁進(jìn)輝：總體上，o1 無(wú)論在訓(xùn)練和推理階段，都意味著更多算力。

首先通過(guò)強(qiáng)化學(xué)習(xí)合成一些新的數(shù)據(jù)，需要新的訓(xùn)練，訓(xùn)練模型的算力和可用數(shù)據(jù)量成正比。

更大的增量在推理端，原來(lái) inference 只計(jì)算一次，而現(xiàn)在是多次，假如平均要調(diào)十次單模型 inference ，那就是十倍的 inference 算力。

《晚點(diǎn)聊》：推理階段計(jì)算需求變大，這很好理解。訓(xùn)練階段的算力需求也和模型參數(shù)規(guī)模有關(guān)，這又和它的訓(xùn)練方法有關(guān)。

袁進(jìn)輝：關(guān)于 o1 的訓(xùn)練方法，我的猜測(cè)是，原來(lái)訓(xùn)練大模型，是從網(wǎng)上收集自然數(shù)據(jù)，先做 pre training（預(yù)訓(xùn)練），然后做 post training（后訓(xùn)練）、 fine tuning（精調(diào)）、alignment（對(duì)齊）等。

現(xiàn)在是收集了自然數(shù)據(jù)，同時(shí)還通過(guò)強(qiáng)化學(xué)習(xí)獲得一些合成數(shù)據(jù)，用這些數(shù)據(jù)一起做訓(xùn)練，簡(jiǎn)單理解是這樣。

這又有多種可能：一種是把合成的數(shù)據(jù)和自然數(shù)據(jù)放在一起 training from scratch（從頭訓(xùn)練），得到一個(gè)基座模型；也有可能用自然數(shù)據(jù)訓(xùn)了基座模型后，再把合成數(shù)據(jù)和一部分自然數(shù)據(jù)放在一起做所謂 continual training，甚至也可以在 fine tuning 階段放進(jìn)去。

也有可能會(huì)是一個(gè)復(fù)合模式：一個(gè)小一點(diǎn)的模型搭配一個(gè)更大的模型，比如做 reasoning 那部分模型可能不需要太大，AlphaGo 那種模型以前都是千萬(wàn)級(jí)或者億級(jí)參數(shù)，就能做得非常好。

《晚點(diǎn)聊》：Jim Fan 也在 X（twitter）上分享，說(shuō)未來(lái)的模型可能會(huì)分離成有一個(gè)小的推理核心 + 一個(gè)大的記憶很多知識(shí)的模型，后者回答一些常識(shí)性、瑣碎性問(wèn)題上。

袁進(jìn)輝：有這個(gè)可能�，F(xiàn)在各種可能都是猜測(cè)，有條件做實(shí)驗(yàn)的可以試一下。

《晚點(diǎn)聊》：推理端的算力用量變化已有一些數(shù)字可循，比如 OpenAI 現(xiàn)在給 Plus 會(huì)員的限制是 o1 preview 每周 30 次，o1 mini 每周 50 次，而 GPT-4o 是每 3 小時(shí) 80 次，差了大幾十倍。這可以反推它們的推理成本差異嗎？

袁進(jìn)輝：從限制看沒(méi)這么直接，限制的原因也可能是，技術(shù)還沒(méi)那么 ready，OpenAI 給大家試用機(jī)會(huì)，但并不希望完全放開。

從 API 定價(jià)看更直接，4o 現(xiàn)在百萬(wàn) tokens 差不多是 10 美元，而 o1 是大幾十美元到一百美元。

《晚點(diǎn)聊》：考慮到 o1 現(xiàn)在成本還比較高，它可能在最快在什么場(chǎng)景被用起來(lái)？

袁進(jìn)輝：最大的想象力還是這個(gè) agent。可以把 agent 理解為一個(gè) AI 員工，他能做 HR、程序員等等，當(dāng)然這是和數(shù)字世界打交道的工作，如果要進(jìn)入物理世界，還要結(jié)合具身智能。

Agent 之前一直受限于大模型 reasoning 能力不好，即使基于水平最高的 GPT-4 等模型，還是很多 agent 走不通，錯(cuò)誤率會(huì)在多個(gè)環(huán)節(jié)解中累積（agent 要完成一個(gè)具體工作任務(wù)，一般要多次使用大模型，走完一個(gè)工作流程，要求每一步都正確才能完成），那現(xiàn)在 reasoning 能力的提升就有望解鎖 agent 應(yīng)用。

《晚點(diǎn)聊》：按具體行業(yè)或工種分，什么類型的 Agent 會(huì)最先起來(lái)？OpenAI 自己專門針對(duì)編程、數(shù)學(xué)、科學(xué)等 STEM 領(lǐng)域優(yōu)化了 o1 mini，是否他們也認(rèn)為輔助或替代程序員和一些初級(jí)研究者是最快的方向？

袁進(jìn)輝：大模型輔助程序員，這在 o1 前就非常好了。之前 AlphaCode 就已經(jīng)能寫代碼，最近又出現(xiàn)了 Cursor 等編程工具和自動(dòng)編程方式。o1 的意義是在代碼之外，在更泛化的數(shù)理、工程領(lǐng)域都能有一些探索。

甚至我看網(wǎng)上有人想讓 o1 解決黎曼猜想，如果真能把這個(gè)問(wèn)題搞定，即使花一個(gè)月，價(jià)值也足夠高。

《晚點(diǎn)聊》：一個(gè)月很短。證明費(fèi)馬大定理，用了 350 多年。

袁進(jìn)輝：所以 o1 解的不是那種常見問(wèn)題，而是非常重要、高價(jià)值的問(wèn)題，在生活中可能頻度并不高。o1 代表了大模型往極限去探索的當(dāng)前天花板。

《晚點(diǎn)聊》：當(dāng)年 AlphaGo 在圍棋上可以擊敗世界冠軍，在數(shù)學(xué)問(wèn)題上，大模型也能做到人做不到的事嗎？

袁進(jìn)輝：有可能，不一定是 o1 這種模型，也可能是針對(duì)數(shù)學(xué)做更多優(yōu)化的模型。通過(guò)像 AlphaGo 那種搜索 + 反饋的方式，去空間里搜索解。這個(gè)空間會(huì)非常大，哪怕是下棋問(wèn)題，如果要遍歷空間中的每個(gè)點(diǎn)，可能今天所有算力加起來(lái)都不夠。

但下棋也好，數(shù)學(xué)也好，它的解在空間里的分布都是不均勻的。模型有可能捕捉住這個(gè)解空間里的一些規(guī)律，就是解在什么地方出現(xiàn)的可能性更大，所以它有可能用更少算力，找到可能性更高的解，甚至找到人找不到的那個(gè)解。

《晚點(diǎn)聊》：剛才說(shuō)了 o1 的有價(jià)值的應(yīng)用方向，同時(shí)它現(xiàn)在也有明顯應(yīng)用短板，比如它很慢。OpenAI 展示的一個(gè)例子是，讓大模型列舉 5 個(gè)第 3 個(gè)字母是 a 的國(guó)家的名字，GPT-4o 回答只用了 3 秒（答錯(cuò)了），O1 mini 是 9 秒，O1 preview 是 32 秒，超過(guò)一個(gè)廣告的時(shí)長(zhǎng)。你覺(jué)得這是一個(gè)可以突破的限制嗎？未來(lái)速度怎么優(yōu)化？

袁進(jìn)輝：我覺(jué)得可以優(yōu)化，從過(guò)去技術(shù)的發(fā)展規(guī)律看，首先是看效果能不能達(dá)到。如果效果能達(dá)到，效率或計(jì)算時(shí)間問(wèn)題是確定性會(huì)被解決的。

Inference 一次的時(shí)間只和 token 序列長(zhǎng)度有關(guān)。所以以后可能會(huì)是簡(jiǎn)單的問(wèn)題，它思考更少步驟，更快輸出結(jié)果；復(fù)雜的問(wèn)題，它才反復(fù)思索�，F(xiàn)在會(huì)出現(xiàn)一個(gè)簡(jiǎn)單的問(wèn)題，它思考了很長(zhǎng)時(shí)間的情況，那說(shuō)明 test-time compute 有優(yōu)化空間。

《晚點(diǎn)聊》：除了慢之外，目前 o1 API 也有一些使用限制：每分鐘只能 20 次請(qǐng)求，也不包括函數(shù)調(diào)用、流式傳輸，還有系統(tǒng)消息支持功能，這對(duì)開發(fā)者是個(gè)不便嗎？

袁進(jìn)輝：會(huì)有一些。我覺(jué)得這是因?yàn)?o1 的 reflection 機(jī)制是把多個(gè) inference 組合起來(lái)，但在更多場(chǎng)景里，這種方式到底怎么能發(fā)揮更好？以及這個(gè)組合中，到底什么部分允許用戶 DIY ？這些都還不那么清楚，所以要逐步釋放。

《晚點(diǎn)聊》：硅基流動(dòng)主要就是做 inference 優(yōu)化、加速，幫開發(fā)者把大模型用得更好，你們已開始針對(duì) o1 這類模型做什么準(zhǔn)備？

袁進(jìn)輝：我們依賴業(yè)內(nèi)開源模型，開源模型還沒(méi)有做 o1 這樣的事。但現(xiàn)在已經(jīng)可以為推理優(yōu)化做準(zhǔn)備了，Infra 層有很多機(jī)會(huì)：

比如一個(gè)復(fù)雜問(wèn)題可分解成多個(gè)步驟，中間有些步驟可以并行開展，相互不依賴，那就可以同時(shí)做 inference，這能減少用戶感知到的計(jì)算時(shí)間。

也有一些步驟可能相互依賴，要一步步多次嘗試，如果能提前得到這些嘗試間的依賴關(guān)系或者叫 graph（圖關(guān)系），就可以發(fā)現(xiàn)某些 inference 是冗余的，其實(shí)不用做。這不僅能減少用戶的體感時(shí)間，也能減少實(shí)際計(jì)算量。

還有個(gè)機(jī)會(huì)是，基于開源模型，用強(qiáng)化學(xué)習(xí)策略做各種垂類和領(lǐng)域模型。Infra 層怎么促進(jìn)這種訓(xùn)練，也有文章可做。

《晚點(diǎn)聊》：反過(guò)來(lái)說(shuō)，o1 又會(huì)消滅什么機(jī)會(huì)？比如之前 prompt 工程很火，現(xiàn)在是不是沒(méi)那么有必要了？

袁進(jìn)輝：o1 確實(shí)讓之前手寫的一些 prompt 沒(méi)那么必要了。o1 文檔里也提到了，有些東西模型已經(jīng)做了，不要在 prompt 里再提了，相當(dāng)于有部分 prompt 工作被自動(dòng)化了。

《晚點(diǎn)聊》：o1 會(huì)對(duì)其他公司，尤其是中國(guó)公司的投入帶來(lái)什么變化？據(jù)我們了解，今年年中開始，中國(guó)部分大公司和創(chuàng)業(yè)公司暫緩了訓(xùn)練基礎(chǔ)大模型。比如一些自己有云業(yè)務(wù)的公司，它的 GPU 更多是租出去，而不是給自己訓(xùn)練模型，因?yàn)榭床磺謇^續(xù)訓(xùn)練的回報(bào)。

袁進(jìn)輝：一方面 o1 確實(shí)開啟了一個(gè)范式，一定會(huì)被其它大模型公司跟進(jìn)，也包括開源模型。另一方面，你說(shuō)的這個(gè)情況做基座模型的人變少了，海外也有，不少創(chuàng)業(yè)公司也回歸大廠了。

現(xiàn)在開源模型確實(shí)能力很不錯(cuò)。如果自己重金搞一個(gè)模型，在市場(chǎng)上又沒(méi)競(jìng)爭(zhēng)優(yōu)勢(shì)，確實(shí)算不過(guò)賬。這就像大家都想摘樹上的蘋果，大模型就是一個(gè)梯子，原來(lái)認(rèn)為，沒(méi)多少人會(huì)造梯子，我造出梯子我自己去摘果實(shí)。

突然 Meta 說(shuō)，它造一個(gè)梯子（Llama)，你們可以隨便用，而且這個(gè)梯子還挺好，這樣很多人就基于它的梯子去摘水果了，而你還在自己造梯子，還不一定比 Meta 的好，等造出來(lái)，水果已經(jīng)被人摘了。

所以從理性角度，市場(chǎng)就會(huì)有這個(gè)調(diào)整。現(xiàn)在繼續(xù)訓(xùn)基礎(chǔ)模型的，要么是真特別有理想主義，一定要實(shí)現(xiàn) AGI；要么是沒(méi)有后顧之憂，資源非常充沛的公司。

《晚點(diǎn)聊》：o1 會(huì)改變這種氛圍嗎？是不是至少在接下來(lái)一個(gè)階段里，各公司可能重新加大投入？

袁進(jìn)輝：我不覺(jué)得不會(huì)。對(duì)想繼續(xù)追求技術(shù)極限的公司，o1 確實(shí)提供了方向。但它不改變做大模型的人越來(lái)越少的趨勢(shì)。

之前做基座模型時(shí)，大家沒(méi)想到技術(shù)擴(kuò)散這么快，以及邊際收益比較快就越來(lái)越校o1 出來(lái)后，也是一樣的：技術(shù)也會(huì)擴(kuò)散，邊際收益也會(huì)從開始比較大到變緩。所以 o1 的出現(xiàn)并不會(huì)改變一些公司的決策邏輯。

《晚點(diǎn)聊》：由此帶來(lái)的一個(gè)后果是，短期內(nèi)，中國(guó)的 GPU 算力是否會(huì)有冗余？

袁進(jìn)輝：原來(lái)很多公司想訓(xùn)練自己的基礎(chǔ)模型提前做了算力投資，現(xiàn)在開始轉(zhuǎn)型，確實(shí)可能把算力往外租，放到市場(chǎng)上流轉(zhuǎn)。相比半年前，算力價(jià)格確實(shí)有比較明顯的下降。

《晚點(diǎn)聊》：現(xiàn)在中國(guó)的 GPU 算力價(jià)格比國(guó)外還便宜，這說(shuō)明什么？

袁進(jìn)輝：一是訓(xùn)練模型的沒(méi)那么多了，另一方面是國(guó)內(nèi)電費(fèi)更便宜，第三是國(guó)內(nèi)算力的供給方比較分散，競(jìng)爭(zhēng)更激烈。

總體上看，國(guó)內(nèi)能訓(xùn)練超大型模型的算力集群還是稀缺的。但現(xiàn)在有決心繼續(xù)投入這種規(guī)模訓(xùn)練的公司也不多了。然后推理的算力需求還沒(méi)有這么快起來(lái)，有一個(gè)技術(shù)滲透，應(yīng)用成熟的過(guò)程。

AI 應(yīng)用開發(fā)未冷卻，只是更分散、小微、個(gè)人化

《晚點(diǎn)聊》：上次我們交流是今年 1 月，當(dāng)時(shí)大模型很熱。過(guò)去這幾個(gè)月，OpenAI 幾個(gè)重要升級(jí)跳票，市場(chǎng)上開始有質(zhì)疑大模型的聲音。硅基流動(dòng)每天服務(wù)開發(fā)者，你有看到熱情冷卻的跡象嗎？

袁進(jìn)輝：應(yīng)用探索這一塊，我沒(méi)有感到變冷。大家對(duì) AI 的價(jià)值判斷沒(méi)有變化，它遲早會(huì)無(wú)處不在，會(huì)非常有價(jià)值，我沒(méi)看到有什么懷疑。而且隨著開源模型出現(xiàn)，基于這些模型做應(yīng)用的人越來(lái)越多。

之前非常熱情做應(yīng)用探索的，是一些有 FOMO 心態(tài)的大公司。最近我們能看到非常強(qiáng)的趨勢(shì)是，個(gè)人開發(fā)者、產(chǎn)品經(jīng)理、中小企業(yè)越來(lái)越多，他們是各個(gè)領(lǐng)域的毛細(xì)血管，幾乎任何場(chǎng)景，任何工作環(huán)節(jié)，都有案例出現(xiàn)。

《晚點(diǎn)聊》：可以舉一些例子嗎？

袁進(jìn)輝：以人從小到大成長(zhǎng)過(guò)程為例。做小孩教育、小孩玩具的現(xiàn)在挺多，教小孩學(xué)語(yǔ)言、給小孩講故事、做繪本。大一些就是工作場(chǎng)景了，不管是 Coding、娛樂(lè)、寫作，還有陪伴都挺多。前一段時(shí)間，還有開發(fā)者做老人關(guān)懷應(yīng)用，幫人寫遺囑。

《晚點(diǎn)聊》：做這些應(yīng)用的開發(fā)者，都是什么背景？是不是越來(lái)越多也不是技術(shù)背景的？

袁進(jìn)輝：比如玩具，有的是從傳統(tǒng)玩具行業(yè)轉(zhuǎn)型的，也有一些是互聯(lián)網(wǎng)公司做產(chǎn)品經(jīng)理的。

最開始大家認(rèn)為只有像大公司或?qū)ｉT做大模型的公司一樣，有完善的 AI 能力和團(tuán)隊(duì)，才有機(jī)會(huì)做產(chǎn)品探索�，F(xiàn)在大家想用比較高水平的模型，基本都能拿到，而且還非常容易使用。所以只要在某個(gè)領(lǐng)域有產(chǎn)品和需求洞察，也可以做應(yīng)用，模型訓(xùn)練、調(diào)優(yōu)等都不太需要做了，這就使能參與 AI 應(yīng)用探索的人群擴(kuò)大了。

《晚點(diǎn)聊》：一方面你說(shuō)應(yīng)用熱情未冷卻，另一方面，創(chuàng)投市場(chǎng)去年預(yù)期的 AI 應(yīng)用爆發(fā)好像也沒(méi)到來(lái)，這是為什么？

袁進(jìn)輝：這也是一種真實(shí)的體感。我觀察到的是那種草根開發(fā)者，從非常小事情開始做起，他們有的也開始收錢了，每月收入幾萬(wàn)塊，但他們沒(méi)有到投資機(jī)構(gòu)投的門檻，特別是現(xiàn)在投資機(jī)構(gòu)資金也比較匱乏。很多主動(dòng)探索 AI 應(yīng)用商機(jī)或產(chǎn)品的開發(fā)者也是用自己的錢做的。

當(dāng)然也有快到投資門檻的。比如有一個(gè)產(chǎn)品叫捏 Ta，用戶可以在上面按自己想法塑造二次元人物，和它交朋友，這些被塑造的人物之間也可以 social。這個(gè)產(chǎn)品的增長(zhǎng)數(shù)據(jù)很好。

如果每天和開發(fā)者打交道，你不會(huì)感覺(jué)這個(gè)行業(yè)在停滯或變冷。

《晚點(diǎn)聊》：硅基流動(dòng)自己的客戶，調(diào)用最多的開源模型是哪些？

袁進(jìn)輝：國(guó)內(nèi)比較多的有通義千問(wèn)、DeepSeek。通義千問(wèn)從小到大，7B 到 70B 都有。DeepSeek 是 coding 能力很強(qiáng)，甚至有一些海外客戶來(lái)調(diào)國(guó)內(nèi)的 DeepSeek 模型，還有 GLM-4，能力也挺好的，不過(guò)我們沒(méi)有 GLM 更高級(jí)的模型，那個(gè)沒(méi)開源。Llama 國(guó)內(nèi)的調(diào)用量并不大，海外是有量的。

《晚點(diǎn)聊》：你們客戶的用戶規(guī)模怎么樣？

袁進(jìn)輝：我們不能看到客戶的用戶規(guī)模，但能觀察到 token 量。每天超幾億 tokens 或 10 億 tokens 的客戶是有一些的，這意味著每周活躍用戶數(shù)是幾十萬(wàn)。

這些應(yīng)用爆發(fā)也有節(jié)奏，有過(guò)程。我最近看了釘釘總裁葉軍的一個(gè)訪談，現(xiàn)在很多人在釘釘里面供應(yīng) AI 能力。他說(shuō)了一個(gè)蠻有意思的觀察：如果一開頭就想做一個(gè)基于 AI 的大應(yīng)用，希望特別多人來(lái)用，這種預(yù)期不一定對(duì)路。

相反，釘釘生態(tài)下存在大量看上去不大的 AI 功能，它們可以被用到釘釘?shù)墓ぷ髁髦�，下單使用的也是個(gè)人，付費(fèi)決策很快。

AI 應(yīng)用也可能是這種巷戰(zhàn)：它無(wú)處不在，但每一處又沒(méi)有我們期待的那么大。

還有一種可能是，這種小應(yīng)用或者能力足夠多之后，有些會(huì)逐漸成長(zhǎng)成為我們期待的 super app，它需要一個(gè)過(guò)程。

《晚點(diǎn)聊》：現(xiàn)在看，手機(jī)智能助手有可能會(huì)是這樣一個(gè)入口，蘋果的 siri 結(jié)合大模型后，可以嵌入很多 App 能力，用戶不用再在多個(gè) app 間跳來(lái)跳去。

袁進(jìn)輝：對(duì)，蘋果的 siri、騰訊的微信，今天的巨大入口級(jí)產(chǎn)品看上去也有希望成為新的 AI 入口。但還沒(méi)有看到一個(gè)全新的 AI player 出現(xiàn)，大家都在期待。

《晚點(diǎn)聊》：OpenAI 不算一個(gè)新的 player 嗎？

袁進(jìn)輝：以日活計(jì)算，OpenAI 和 Meta、TikTok、微信還有數(shù)量級(jí)差距。和蘋果比，OpenAI 還處在被蘋果整合的角色。一種猜測(cè)是，蘋果、騰訊、字節(jié)這類公司血條夠長(zhǎng)，它們可能會(huì)逐漸追上最好的模型。

《晚點(diǎn)聊》：之前我們和昆侖萬(wàn)維 CEO 方漢聊，他總結(jié)了一個(gè) “巨頭遞減” 規(guī)律互聯(lián)網(wǎng)浪潮誕生了一批新巨頭；移動(dòng)互聯(lián)網(wǎng)浪潮，美國(guó)其實(shí)沒(méi)有新巨頭，一批中等體量公司后來(lái)也被 Google、Meta 等公司整合，中國(guó)現(xiàn)在要出現(xiàn)新巨頭也越來(lái)越難了。當(dāng)然這只是一種基于歷史的歸納。

袁進(jìn)輝：我們可以回溯這幾個(gè)浪潮的技術(shù)本質(zhì)。PC 互聯(lián)網(wǎng)主要是做信息化，移動(dòng)互聯(lián)網(wǎng)還有線上、線下連通，新巨頭都是在這個(gè)過(guò)程中搶占了一些場(chǎng)景。

但現(xiàn)在很難再想象出什么新場(chǎng)景，AI 這一次更多不是創(chuàng)造新場(chǎng)景，而是提升各個(gè)場(chǎng)景的效率。

《晚點(diǎn)聊》：這可能是因?yàn)槲覀兩硖幤渲校吹降氖且粋€(gè)漸變過(guò)程。就像當(dāng)年鐵路替代馬車，最初也可以看做是同一個(gè)場(chǎng)景，出行和運(yùn)輸，但一旦圍繞鐵路的技術(shù)體系被構(gòu)建出來(lái)，又會(huì)長(zhǎng)出一些新場(chǎng)景，比如美國(guó)希爾斯百貨會(huì)用鐵路郵寄賣表，以前很難有這種零售場(chǎng)景。未來(lái)會(huì)有多大變化，可能取決于生成式 AI 技術(shù)與互聯(lián)網(wǎng)技術(shù)有多大差別，這也是逐漸發(fā)生的，現(xiàn)在很難在一個(gè)歷史的遠(yuǎn)距離去觀察這個(gè)過(guò)程。今天感謝袁老師提供了一個(gè)觀察應(yīng)用開發(fā)的視角，你提到大家開發(fā)應(yīng)用的熱情沒(méi)有消減。

袁進(jìn)輝：信心是足夠的。只是參與其中的主體可能有了一些新變化，新來(lái)的人更孝更分散，是草色遙看近卻無(wú)的那種感覺(jué)。只不過(guò)大家的注意力更多放在大公司身上。

題圖來(lái)源：OpenAI