展會(huì)信息港展會(huì)大全

OpenAI o1如何延續(xù)Scaling Law
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-22 07:28:46   瀏覽:897次  

導(dǎo)讀:如果每天和開發(fā)者打交道,你不會(huì)感覺(jué)這個(gè)行業(yè)停滯或變冷。 文丨程曼祺 賀乾明 《晚點(diǎn)聊 LateTalk》是《晚點(diǎn) LatePost》 推出的播客節(jié)目,在文字報(bào)道之外,用音頻訪談形式捕捉商業(yè)世界變化的潮流和不變的邏輯,與這其中的人和故事。 OpenAI 發(fā)布新模型 o1 后...

“如果每天和開發(fā)者打交道,你不會(huì)感覺(jué)這個(gè)行業(yè)停滯或變冷。”

文丨程曼祺 賀乾明

《晚點(diǎn)聊 LateTalk》是《晚點(diǎn) LatePost》 推出的播客節(jié)目,在文字報(bào)道之外,用音頻訪談形式捕捉商業(yè)世界變化的潮流和不變的邏輯,與這其中的人和故事。

OpenAI 發(fā)布新模型 o1 后的第二天,我們邀請(qǐng)了硅基流動(dòng)創(chuàng)始人袁進(jìn)輝與我們分享了 o1 的技術(shù)意義,也討論了今年 1 月至今,袁進(jìn)輝觀察到的 AI 開發(fā)者社區(qū)變化。

o1 的一個(gè)重要變化就是增加了分配給推理(inference,即大模型的使用)階段的算力,推理階段計(jì)算(test-time compute)重要性提升。

而袁進(jìn)輝今年初創(chuàng)立的硅基流動(dòng)(SiliconFlow)就是一家做推理加速優(yōu)化的 AI Infra(中間層軟件)公司。他是一位連續(xù)創(chuàng)業(yè)者,曾在 2017 年創(chuàng)立一流科技(OneFlow),在 2023 年加入王慧文組建的大模型創(chuàng)業(yè)公司光年之外,成為聯(lián)合創(chuàng)始人。(袁進(jìn)輝的上兩段創(chuàng)業(yè)故事,可聽《晚點(diǎn)聊 LateTalk》第 58 期。)

o1 打破了一個(gè)預(yù)期過(guò)去,在大語(yǔ)言模型范式下,模型在解決邏輯推理問(wèn)題時(shí)遇到了瓶頸。而 o1 通過(guò) 3 個(gè)技術(shù)方法,顯著提升了模型的邏輯推理能力,包括:

強(qiáng)化學(xué)習(xí),也就是 RL(Reinforcement Learning)

chain of thought,也就是思維鏈

還有 test-time compute 或者 inference-time compute,也就是在推理階段分配更多計(jì)算資源。

o1 在科學(xué)、數(shù)學(xué)和編程等需要更多邏輯能力的任務(wù)上都有很大提升。

袁進(jìn)輝在這期播客里比較通俗地解釋了上述技術(shù)方法是怎么發(fā)揮作用的;我們也討論了,o1 的這些新技術(shù)特性,對(duì)算力消耗量,行業(yè)應(yīng)用和其它 AI 公司動(dòng)作的影響。

硅基流動(dòng)直接服務(wù)大量開發(fā)者。與很多人的觀點(diǎn)不同,袁進(jìn)輝說(shuō),在應(yīng)用開發(fā)端,他沒(méi)有感到 AI 熱潮的冷卻,只是現(xiàn)在涌現(xiàn)出的很多開發(fā)者是小微企業(yè)甚至是個(gè)人開發(fā)者,他們不在傳統(tǒng) VC 的視野里:“如果每天和開發(fā)者打交道,你不會(huì)感覺(jué)這個(gè)行業(yè)停滯或變冷。”

所以一方面,創(chuàng)投市場(chǎng)覺(jué)得 AI 應(yīng)用的爆發(fā)不如預(yù)期,另一方面,實(shí)際調(diào)用量也在快速增長(zhǎng)。

袁進(jìn)輝還分享了一些一手?jǐn)?shù)據(jù),比如硅基流動(dòng)自己的客戶,調(diào)用最多的開源模型是阿里巴巴的通義千問(wèn)(Qwen 開源系列)、幻方的 DeepSeek,和 Meta 的 Lamma,Qwen 的優(yōu)勢(shì)是不同規(guī)模模型版本齊全,DeepSeek 則有突出的編程能力。

以下我們摘錄了播客中的部分內(nèi)容:

強(qiáng)化學(xué)習(xí)、思維鏈,每一個(gè) idea 都不是石破天驚,但 OpenAI 做了最好的組合

《晚點(diǎn)聊》:看到 o1 發(fā)布是什么感覺(jué),哪些部分超出預(yù)期?

袁進(jìn)輝:這個(gè)提前已有多次消息泄露,有一些預(yù)期已經(jīng)支出了。o1 兌現(xiàn)了之前的承諾,就是用合成數(shù)據(jù)、強(qiáng)化學(xué)習(xí)等方法在 reasoning (邏輯推理)能力上有突破,數(shù)理能力、編程能力都有較大提升。

《晚點(diǎn)聊》:你覺(jué)得這是個(gè)什么量級(jí)的變化?openAI 稱其為新階段(new level)。

袁進(jìn)輝:一般會(huì)認(rèn)為大模型有三層能力:一是對(duì)語(yǔ)言的掌握語(yǔ)言生成得流暢不流暢、地道不地道;二是對(duì)常識(shí)或世界知識(shí)的掌握比如知道一些交通規(guī)則。之前的大模型,不管 GPT 還是其他開源模型,這兩個(gè)能力都做得非常好了。

但還有一層,是考驗(yàn)智商的部分,我們叫邏輯推理或 reasoning,這一塊公認(rèn)做得不夠好,也有人說(shuō)這限制了 agent(智能體)的發(fā)展。

而這次 o1 用一套行之有效的方法論把 reasoning 能力提高了一大步,能解決相當(dāng)多問(wèn)題,確實(shí)讓大語(yǔ)言模型能力往上邁了一個(gè)臺(tái)階。

《晚點(diǎn)聊》:今年 7 月,Google DeepMind 發(fā)布了 AlphaGeometry 更新版,也使用了強(qiáng)化學(xué)習(xí),它差一分就可以拿到 IMO(國(guó)際數(shù)學(xué)奧賽)金牌。但相比 o1,好像沒(méi)那么多人討論,這是為什么?

袁進(jìn)輝:AlphaGeometry 等 Alpha 家族,就是 AlphaGo、AlphaProof、AlphaCode 等等,這些在大模型之前幾年已經(jīng)發(fā)生了就是用強(qiáng)化學(xué)習(xí),讓模型解決某一個(gè)規(guī)則非常清晰的領(lǐng)域的問(wèn)題,模型可以做得比人好,所以這個(gè) “wow” 時(shí)刻在 AlphaGo 時(shí)(2016 年)已經(jīng)有了。

然后下一個(gè) wow 時(shí)刻是 ChatGPT,也就是 GPT-3.5,大家發(fā)現(xiàn)模型能把語(yǔ)言問(wèn)題和世界知識(shí)也解得非常漂亮。

而現(xiàn)在這個(gè) wow,是在 GPT 上疊加了 Alpha 家族的方法論,打破了之前有一種預(yù)期,認(rèn)為在大語(yǔ)言模型范式下,專業(yè)問(wèn)題比通識(shí)問(wèn)題更難。

同時(shí)從應(yīng)用價(jià)值看,大模型在邏輯推理能力上的突破也可能明顯促進(jìn) agent 發(fā)展。之前 agent 跑不通,主要就是受限于模型的邏輯推理能力。

《晚點(diǎn)聊》:我們來(lái)拆解一下 o1 使用的技術(shù),這次 OpenAI 提到了強(qiáng)化學(xué)習(xí)、思維鏈(chain of thought,CoT)、test-time compute(測(cè)試時(shí)間計(jì)算)等新方法。它們是怎么發(fā)揮作用的?

袁進(jìn)輝:無(wú)論大語(yǔ)言模型還是強(qiáng)化學(xué)習(xí),都是 “統(tǒng)計(jì)學(xué)習(xí)”,也就是數(shù)據(jù)里有什么,模型才能學(xué)到什么,數(shù)據(jù)里沒(méi)有,或數(shù)據(jù)里不充分的比如某種規(guī)律或 pattern(模式)出現(xiàn)的頻率不夠高,模型就學(xué)不到或?qū)W不好。

你提到的這些方法都是基于這條原理衍生的。其中強(qiáng)化學(xué)習(xí)的重要作用是生成專業(yè)性數(shù)據(jù),因?yàn)樽匀徽Z(yǔ)言語(yǔ)料大多數(shù)是通識(shí)類、消費(fèi)向數(shù)據(jù),專業(yè)數(shù)據(jù)不夠。

強(qiáng)化學(xué)習(xí)怎么生成數(shù)據(jù)?以 AlphaGo 為例,它自己構(gòu)造了一個(gè)博弈環(huán)境,讓 AI 自己和自己下棋,中間會(huì)形成很多博弈軌跡(trace),這些數(shù)據(jù)可以補(bǔ)充到訓(xùn)練數(shù)據(jù)里。

同時(shí)強(qiáng)化學(xué)習(xí)有一個(gè)基本環(huán)節(jié)是反饋,AI 和環(huán)境交互后,環(huán)境會(huì)給反饋,正向后果要給激勵(lì)(reward)。如果是規(guī)則特別清晰的領(lǐng)域,構(gòu)造這個(gè)反饋環(huán)路更容易,比如 AlphaGeometry 解數(shù)學(xué)問(wèn)題,答案正確就給激勵(lì)。而另一些場(chǎng)景里,構(gòu)造反饋環(huán)路就比較難,比如自動(dòng)駕駛肯定也有仿真環(huán)境,但總有一些 corner case,仿真環(huán)境沒(méi)法覆蓋,那得到的反饋就不夠真實(shí),訓(xùn)練出的 AI 就有缺陷。

所以有清晰規(guī)則的問(wèn)題,容易用強(qiáng)化學(xué)習(xí);越不知道怎么描述勝負(fù)和評(píng)判對(duì)環(huán)境產(chǎn)生后果的場(chǎng)景,越難用強(qiáng)化學(xué)習(xí),F(xiàn)在相當(dāng)于是把清晰規(guī)則場(chǎng)景里已驗(yàn)證的一套方法,拿到了大語(yǔ)言模型里,還能解決看起來(lái)比 AlphaGo 更泛化的問(wèn)題,所以它是一個(gè)進(jìn)步。

《晚點(diǎn)聊》:思維鏈發(fā)揮什么作用?很多人把它形容為 “像人一樣思考”。

袁進(jìn)輝:其實(shí)也是解決數(shù)據(jù)問(wèn)題。原始自然數(shù)據(jù)里,語(yǔ)言也好,圖像也好,最充分的 pattern 是那些微觀、細(xì)粒度的東西,比如一個(gè)像素旁邊的另一個(gè)像素是什么,一個(gè)詞后面的一個(gè)詞是什么。但那些更宏觀、抽象層次更高的東西,更粗略的結(jié)構(gòu),通常在自然數(shù)據(jù)里是不充分的。

所以之前的語(yǔ)言模型,已經(jīng)可以勝任局部生成或一個(gè)簡(jiǎn)單的邏輯推理;但中間包含較多步驟的、宏觀的、復(fù)雜的問(wèn)題就超出它的能力,因?yàn)樗娺^(guò)的這種數(shù)據(jù)太少。

Chain of Thought 其實(shí)就是給大語(yǔ)言模型一些提示,讓它把一個(gè)宏觀問(wèn)題分解成小步驟,每個(gè)小步驟之內(nèi),是原來(lái)的模型妥妥能做好的。

但 o1 可能還多做了一些東西,就是強(qiáng)化學(xué)習(xí)的訓(xùn)練架構(gòu)下,也生成了一些宏觀的 chain of thought 策略數(shù)據(jù),把他補(bǔ)充到語(yǔ)料里。所以強(qiáng)化學(xué)習(xí)和思維鏈,它們一定程度是正交的,強(qiáng)化學(xué)習(xí)可以幫助合成一些宏觀的、總結(jié)的數(shù)據(jù)。這是一種猜測(cè),沒(méi)有確認(rèn)。

《晚點(diǎn)聊》:那么一開始怎么定下拆分步驟的策略呢?

袁進(jìn)輝:最早的思維鏈?zhǔn)侨送ㄟ^(guò) prompt 來(lái)提供問(wèn)題分解,AI 做不了,F(xiàn)在應(yīng)該可以抽取一些通用的求解策略,也就是用規(guī)則方法,比如計(jì)算機(jī)里有一些基本算法可以把大問(wèn)題分解成小問(wèn)題,這些方法可能只有十幾個(gè),已能解決絕大部分可用計(jì)算機(jī)解決的問(wèn)題,相當(dāng)于有套路。

當(dāng)然還有一種更優(yōu)雅、泛化能力更好的方法,就是在拆解步驟的層面也訓(xùn)練一個(gè)模型,用模型來(lái)篩選思維鏈。

現(xiàn)在都是猜測(cè),我覺(jué)得 o1 訓(xùn)練時(shí),應(yīng)該是加入了思維鏈層面的這種合成數(shù)據(jù),但在 inference 時(shí),有可能這個(gè)思維鏈還是規(guī)則系統(tǒng),不是一個(gè)模型。

如果是一個(gè)稍微復(fù)雜一點(diǎn)的規(guī)則系統(tǒng),沿著決策樹,會(huì)試探再回退如果往前想了一步不對(duì),會(huì)回退到上一步再試探其它路徑,我懷疑 o1 在推理時(shí)還沒(méi)做到這個(gè)。

《晚點(diǎn)聊》:o1 發(fā)布時(shí),OpenAI 沒(méi)有向用戶展示原始的思維鏈,并說(shuō)這是幾經(jīng)考慮的選擇。

袁進(jìn)輝:它如果展示了這個(gè),就相當(dāng)于展示了技術(shù)秘密,其他人可以更好地去分析它到底怎么做的。

《晚點(diǎn)聊》:OpenAI 自己說(shuō)主要是出于安全原因,還有避免用戶被操縱。

袁進(jìn)輝:那也是,因?yàn)槿绻懦鏊季S鏈,外界就能更好地去 hack 它,或者做越獄嘗試。

《晚點(diǎn)聊》:我們可以繼續(xù)聊 test-time compute,強(qiáng)化學(xué)習(xí)彌補(bǔ)的是專業(yè)數(shù)據(jù)的稀缺,思維鏈彌補(bǔ)的是宏觀數(shù)據(jù)的稀缺,test-time compute,也有人把它叫 inference-time compute,它發(fā)揮什么作用?

袁進(jìn)輝:它其實(shí)是解決,模型只計(jì)算一次搞不定的事情。

過(guò)去搞不定,一部分原因在于模型缺乏解決綜合問(wèn)題或宏觀決策問(wèn)題的拆解步驟的數(shù)據(jù)。除了在訓(xùn)練階段下功夫,也可以通過(guò)在 inference 時(shí)把問(wèn)題分解成一個(gè)個(gè)步驟每個(gè)小步驟都是大模型擅長(zhǎng)解決的最終解決整個(gè)問(wèn)題。

它不像前兩個(gè)方法是直接補(bǔ)充訓(xùn)練數(shù)據(jù),在訓(xùn)練階段發(fā)揮作用;它是在推理階段工作,在模型已經(jīng)定型后,仍可以通過(guò)分步解問(wèn)題,給用戶更好的體驗(yàn)。

這個(gè)思路其實(shí)在一些 RAG、workflow 里也有體現(xiàn)。比如上海人工智能實(shí)驗(yàn)室做了 MindSearch,人在搜索時(shí),也會(huì)做反思,琢磨用什么更好的關(guān)鍵詞,怎么搜得更好,MindSearch 就做了類似的工作。

這次 o1 一個(gè)比較大的意義是,它通過(guò)在推理端多花一些算力,或者說(shuō)多花一些時(shí)間,最終表現(xiàn)出來(lái)的能力提高非常多。

所以綜合來(lái)說(shuō),強(qiáng)化學(xué)習(xí)、chain of thought 還有 test-time compute 等等,每一個(gè)單獨(dú)的 idea 之前都有了,都不是石破天驚,但 OpenAI 把這幾個(gè) idea 組合在一起,有的在訓(xùn)練端,有的在推理端,都用來(lái)提升 reasoning 能力,取得了很好的效果。

《晚點(diǎn)聊》:o1 發(fā)布后,大家討論比較多的還有 “系統(tǒng) 2”。類比人類,“系統(tǒng) 1” 是快速反應(yīng)過(guò)程,比如我們學(xué)會(huì)開車后,不用全神貫注也能開車,而 “系統(tǒng) 2” 是深思熟慮下判斷,做決定或解決復(fù)雜問(wèn)題的過(guò)程。test-time compute,是否可以理解成在模型推理階段,強(qiáng)制按系統(tǒng) 2 的方法解答問(wèn)題?

袁進(jìn)輝:可以這么理解,原來(lái)大模型是來(lái)了一個(gè)輸入后,神經(jīng)網(wǎng)絡(luò)只 inference 一次就返回結(jié)果。

現(xiàn)在是,問(wèn)題過(guò)來(lái)后,先 inference 一次,再把這個(gè)結(jié)果結(jié)合 chain of thought 的提示喂給大模型,讓它有一個(gè)琢磨反思的過(guò)程,叫 reflection。經(jīng)過(guò)這樣幾次后,模型才把最終結(jié)果返回給用戶,這確實(shí)很像人的系統(tǒng) 2,或者叫 “慢思考” 過(guò)程。

新礦被發(fā)現(xiàn),但不改變 “訓(xùn)基礎(chǔ)模型公司變少” 的趨勢(shì)

《晚點(diǎn)聊》:test-time compute 被關(guān)注,也因?yàn)樗@示出在推理階段放更多計(jì)算資源,模型性能還會(huì)提升。OpenAI 的 o1 官方博客里有這樣一張圖(如下),英偉達(dá) AI 科學(xué)家 Jim Fan 說(shuō)這是 2022 年以來(lái),大語(yǔ)言模型研究領(lǐng)域最重要的一張圖。為什么證實(shí) “在推理上鋪更多資源能 work ” 這件事會(huì)這么重要?

袁進(jìn)輝:這相當(dāng)于證實(shí)了,原來(lái)還有一個(gè)這么大的礦,還沒(méi)挖。

之前的 scaling law,主要是在訓(xùn)練階段多放計(jì)算資源(模型性能會(huì)提升),這已經(jīng)是共識(shí)。但任何方法都不可能永無(wú)止境,繼續(xù)優(yōu)化訓(xùn)練的邊際收益已有衰減的跡象,相當(dāng)于再挖之前的礦,收益沒(méi)那么高了。

而在推理階段做 reflection,這是以前沒(méi)做過(guò),或者沒(méi)人實(shí)現(xiàn)得這么好的,o1 展示了在原來(lái)沒(méi)怎么挖掘的地方,還有很大收益。當(dāng)然,它也會(huì)經(jīng)歷一開始收益很高,到一定階段后收益衰減的過(guò)程。

《晚點(diǎn)聊》:這會(huì)怎么影響英偉達(dá)的業(yè)績(jī)?o1 的方法如果被追逐、普及,是否意味算力需求會(huì)上升?

袁進(jìn)輝:總體上,o1 無(wú)論在訓(xùn)練和推理階段,都意味著更多算力。

首先通過(guò)強(qiáng)化學(xué)習(xí)合成一些新的數(shù)據(jù),需要新的訓(xùn)練,訓(xùn)練模型的算力和可用數(shù)據(jù)量成正比。

更大的增量在推理端,原來(lái) inference 只計(jì)算一次,而現(xiàn)在是多次,假如平均要調(diào)十次單模型 inference ,那就是十倍的 inference 算力。

《晚點(diǎn)聊》:推理階段計(jì)算需求變大,這很好理解。訓(xùn)練階段的算力需求也和模型參數(shù)規(guī)模有關(guān),這又和它的訓(xùn)練方法有關(guān)。

袁進(jìn)輝:關(guān)于 o1 的訓(xùn)練方法,我的猜測(cè)是,原來(lái)訓(xùn)練大模型,是從網(wǎng)上收集自然數(shù)據(jù),先做 pre training(預(yù)訓(xùn)練),然后做 post training(后訓(xùn)練)、 fine tuning(精調(diào))、alignment(對(duì)齊)等。

現(xiàn)在是收集了自然數(shù)據(jù),同時(shí)還通過(guò)強(qiáng)化學(xué)習(xí)獲得一些合成數(shù)據(jù),用這些數(shù)據(jù)一起做訓(xùn)練,簡(jiǎn)單理解是這樣。

這又有多種可能:一種是把合成的數(shù)據(jù)和自然數(shù)據(jù)放在一起 training from scratch(從頭訓(xùn)練),得到一個(gè)基座模型;也有可能用自然數(shù)據(jù)訓(xùn)了基座模型后,再把合成數(shù)據(jù)和一部分自然數(shù)據(jù)放在一起做所謂 continual training,甚至也可以在 fine tuning 階段放進(jìn)去。

也有可能會(huì)是一個(gè)復(fù)合模式:一個(gè)小一點(diǎn)的模型搭配一個(gè)更大的模型,比如做 reasoning 那部分模型可能不需要太大,AlphaGo 那種模型以前都是千萬(wàn)級(jí)或者億級(jí)參數(shù),就能做得非常好。

《晚點(diǎn)聊》:Jim Fan 也在 X(twitter)上分享,說(shuō)未來(lái)的模型可能會(huì)分離成有一個(gè)小的推理核心 + 一個(gè)大的記憶很多知識(shí)的模型,后者回答一些常識(shí)性、瑣碎性問(wèn)題上。

袁進(jìn)輝:有這個(gè)可能,F(xiàn)在各種可能都是猜測(cè),有條件做實(shí)驗(yàn)的可以試一下。

《晚點(diǎn)聊》:推理端的算力用量變化已有一些數(shù)字可循,比如 OpenAI 現(xiàn)在給 Plus 會(huì)員的限制是 o1 preview 每周 30 次,o1 mini 每周 50 次,而 GPT-4o 是每 3 小時(shí) 80 次,差了大幾十倍。這可以反推它們的推理成本差異嗎?

袁進(jìn)輝:從限制看沒(méi)這么直接,限制的原因也可能是,技術(shù)還沒(méi)那么 ready,OpenAI 給大家試用機(jī)會(huì),但并不希望完全放開。

從 API 定價(jià)看更直接,4o 現(xiàn)在百萬(wàn) tokens 差不多是 10 美元,而 o1 是大幾十美元到一百美元。

《晚點(diǎn)聊》:考慮到 o1 現(xiàn)在成本還比較高,它可能在最快在什么場(chǎng)景被用起來(lái)?

袁進(jìn)輝:最大的想象力還是這個(gè) agent。可以把 agent 理解為一個(gè) AI 員工,他能做 HR、程序員等等,當(dāng)然這是和數(shù)字世界打交道的工作,如果要進(jìn)入物理世界,還要結(jié)合具身智能。

Agent 之前一直受限于大模型 reasoning 能力不好,即使基于水平最高的 GPT-4 等模型,還是很多 agent 走不通,錯(cuò)誤率會(huì)在多個(gè)環(huán)節(jié)解中累積(agent 要完成一個(gè)具體工作任務(wù),一般要多次使用大模型,走完一個(gè)工作流程,要求每一步都正確才能完成),那現(xiàn)在 reasoning 能力的提升就有望解鎖 agent 應(yīng)用。

《晚點(diǎn)聊》:按具體行業(yè)或工種分,什么類型的 Agent 會(huì)最先起來(lái)?OpenAI 自己專門針對(duì)編程、數(shù)學(xué)、科學(xué)等 STEM 領(lǐng)域優(yōu)化了 o1 mini,是否他們也認(rèn)為輔助或替代程序員和一些初級(jí)研究者是最快的方向?

袁進(jìn)輝:大模型輔助程序員,這在 o1 前就非常好了。之前 AlphaCode 就已經(jīng)能寫代碼,最近又出現(xiàn)了 Cursor 等編程工具和自動(dòng)編程方式。o1 的意義是在代碼之外,在更泛化的數(shù)理、工程領(lǐng)域都能有一些探索。

甚至我看網(wǎng)上有人想讓 o1 解決黎曼猜想,如果真能把這個(gè)問(wèn)題搞定,即使花一個(gè)月,價(jià)值也足夠高。

《晚點(diǎn)聊》:一個(gè)月很短。證明費(fèi)馬大定理,用了 350 多年。

袁進(jìn)輝:所以 o1 解的不是那種常見問(wèn)題,而是非常重要、高價(jià)值的問(wèn)題,在生活中可能頻度并不高。o1 代表了大模型往極限去探索的當(dāng)前天花板。

《晚點(diǎn)聊》:當(dāng)年 AlphaGo 在圍棋上可以擊敗世界冠軍,在數(shù)學(xué)問(wèn)題上,大模型也能做到人做不到的事嗎?

袁進(jìn)輝:有可能,不一定是 o1 這種模型,也可能是針對(duì)數(shù)學(xué)做更多優(yōu)化的模型。通過(guò)像 AlphaGo 那種搜索 + 反饋的方式,去空間里搜索解。這個(gè)空間會(huì)非常大,哪怕是下棋問(wèn)題,如果要遍歷空間中的每個(gè)點(diǎn),可能今天所有算力加起來(lái)都不夠。

但下棋也好,數(shù)學(xué)也好,它的解在空間里的分布都是不均勻的。模型有可能捕捉住這個(gè)解空間里的一些規(guī)律,就是解在什么地方出現(xiàn)的可能性更大,所以它有可能用更少算力,找到可能性更高的解,甚至找到人找不到的那個(gè)解。

《晚點(diǎn)聊》:剛才說(shuō)了 o1 的有價(jià)值的應(yīng)用方向,同時(shí)它現(xiàn)在也有明顯應(yīng)用短板,比如它很慢。OpenAI 展示的一個(gè)例子是,讓大模型列舉 5 個(gè)第 3 個(gè)字母是 a 的國(guó)家的名字,GPT-4o 回答只用了 3 秒(答錯(cuò)了),O1 mini 是 9 秒,O1 preview 是 32 秒,超過(guò)一個(gè)廣告的時(shí)長(zhǎng)。你覺(jué)得這是一個(gè)可以突破的限制嗎?未來(lái)速度怎么優(yōu)化?

袁進(jìn)輝:我覺(jué)得可以優(yōu)化,從過(guò)去技術(shù)的發(fā)展規(guī)律看,首先是看效果能不能達(dá)到。如果效果能達(dá)到,效率或計(jì)算時(shí)間問(wèn)題是確定性會(huì)被解決的。

Inference 一次的時(shí)間只和 token 序列長(zhǎng)度有關(guān)。所以以后可能會(huì)是簡(jiǎn)單的問(wèn)題,它思考更少步驟,更快輸出結(jié)果;復(fù)雜的問(wèn)題,它才反復(fù)思索,F(xiàn)在會(huì)出現(xiàn)一個(gè)簡(jiǎn)單的問(wèn)題,它思考了很長(zhǎng)時(shí)間的情況,那說(shuō)明 test-time compute 有優(yōu)化空間。

《晚點(diǎn)聊》:除了慢之外,目前 o1 API 也有一些使用限制:每分鐘只能 20 次請(qǐng)求,也不包括函數(shù)調(diào)用、流式傳輸,還有系統(tǒng)消息支持功能,這對(duì)開發(fā)者是個(gè)不便嗎?

袁進(jìn)輝:會(huì)有一些。我覺(jué)得這是因?yàn)?o1 的 reflection 機(jī)制是把多個(gè) inference 組合起來(lái),但在更多場(chǎng)景里,這種方式到底怎么能發(fā)揮更好?以及這個(gè)組合中,到底什么部分允許用戶 DIY ?這些都還不那么清楚,所以要逐步釋放。

《晚點(diǎn)聊》:硅基流動(dòng)主要就是做 inference 優(yōu)化、加速,幫開發(fā)者把大模型用得更好,你們已開始針對(duì) o1 這類模型做什么準(zhǔn)備?

袁進(jìn)輝:我們依賴業(yè)內(nèi)開源模型,開源模型還沒(méi)有做 o1 這樣的事。但現(xiàn)在已經(jīng)可以為推理優(yōu)化做準(zhǔn)備了,Infra 層有很多機(jī)會(huì):

比如一個(gè)復(fù)雜問(wèn)題可分解成多個(gè)步驟,中間有些步驟可以并行開展,相互不依賴,那就可以同時(shí)做 inference,這能減少用戶感知到的計(jì)算時(shí)間。

也有一些步驟可能相互依賴,要一步步多次嘗試,如果能提前得到這些嘗試間的依賴關(guān)系或者叫 graph(圖關(guān)系),就可以發(fā)現(xiàn)某些 inference 是冗余的,其實(shí)不用做。這不僅能減少用戶的體感時(shí)間,也能減少實(shí)際計(jì)算量。

還有個(gè)機(jī)會(huì)是,基于開源模型,用強(qiáng)化學(xué)習(xí)策略做各種垂類和領(lǐng)域模型。Infra 層怎么促進(jìn)這種訓(xùn)練,也有文章可做。

《晚點(diǎn)聊》:反過(guò)來(lái)說(shuō),o1 又會(huì)消滅什么機(jī)會(huì)?比如之前 prompt 工程很火,現(xiàn)在是不是沒(méi)那么有必要了?

袁進(jìn)輝:o1 確實(shí)讓之前手寫的一些 prompt 沒(méi)那么必要了。o1 文檔里也提到了,有些東西模型已經(jīng)做了,不要在 prompt 里再提了,相當(dāng)于有部分 prompt 工作被自動(dòng)化了。

《晚點(diǎn)聊》:o1 會(huì)對(duì)其他公司,尤其是中國(guó)公司的投入帶來(lái)什么變化?據(jù)我們了解,今年年中開始,中國(guó)部分大公司和創(chuàng)業(yè)公司暫緩了訓(xùn)練基礎(chǔ)大模型。比如一些自己有云業(yè)務(wù)的公司,它的 GPU 更多是租出去,而不是給自己訓(xùn)練模型,因?yàn)榭床磺謇^續(xù)訓(xùn)練的回報(bào)。

袁進(jìn)輝:一方面 o1 確實(shí)開啟了一個(gè)范式,一定會(huì)被其它大模型公司跟進(jìn),也包括開源模型。另一方面,你說(shuō)的這個(gè)情況做基座模型的人變少了,海外也有,不少創(chuàng)業(yè)公司也回歸大廠了。

現(xiàn)在開源模型確實(shí)能力很不錯(cuò)。如果自己重金搞一個(gè)模型,在市場(chǎng)上又沒(méi)競(jìng)爭(zhēng)優(yōu)勢(shì),確實(shí)算不過(guò)賬。這就像大家都想摘樹上的蘋果,大模型就是一個(gè)梯子,原來(lái)認(rèn)為,沒(méi)多少人會(huì)造梯子,我造出梯子我自己去摘果實(shí)。

突然 Meta 說(shuō),它造一個(gè)梯子(Llama),你們可以隨便用,而且這個(gè)梯子還挺好,這樣很多人就基于它的梯子去摘水果了,而你還在自己造梯子,還不一定比 Meta 的好,等造出來(lái),水果已經(jīng)被人摘了。

所以從理性角度,市場(chǎng)就會(huì)有這個(gè)調(diào)整。現(xiàn)在繼續(xù)訓(xùn)基礎(chǔ)模型的,要么是真特別有理想主義,一定要實(shí)現(xiàn) AGI;要么是沒(méi)有后顧之憂,資源非常充沛的公司。

《晚點(diǎn)聊》:o1 會(huì)改變這種氛圍嗎?是不是至少在接下來(lái)一個(gè)階段里,各公司可能重新加大投入?

袁進(jìn)輝:我不覺(jué)得不會(huì)。對(duì)想繼續(xù)追求技術(shù)極限的公司,o1 確實(shí)提供了方向。但它不改變做大模型的人越來(lái)越少的趨勢(shì)。

之前做基座模型時(shí),大家沒(méi)想到技術(shù)擴(kuò)散這么快,以及邊際收益比較快就越來(lái)越校o1 出來(lái)后,也是一樣的:技術(shù)也會(huì)擴(kuò)散,邊際收益也會(huì)從開始比較大到變緩。所以 o1 的出現(xiàn)并不會(huì)改變一些公司的決策邏輯。

《晚點(diǎn)聊》:由此帶來(lái)的一個(gè)后果是,短期內(nèi),中國(guó)的 GPU 算力是否會(huì)有冗余?

袁進(jìn)輝:原來(lái)很多公司想訓(xùn)練自己的基礎(chǔ)模型提前做了算力投資,現(xiàn)在開始轉(zhuǎn)型,確實(shí)可能把算力往外租,放到市場(chǎng)上流轉(zhuǎn)。相比半年前,算力價(jià)格確實(shí)有比較明顯的下降。

《晚點(diǎn)聊》:現(xiàn)在中國(guó)的 GPU 算力價(jià)格比國(guó)外還便宜,這說(shuō)明什么?

袁進(jìn)輝:一是訓(xùn)練模型的沒(méi)那么多了,另一方面是國(guó)內(nèi)電費(fèi)更便宜,第三是國(guó)內(nèi)算力的供給方比較分散,競(jìng)爭(zhēng)更激烈。

總體上看,國(guó)內(nèi)能訓(xùn)練超大型模型的算力集群還是稀缺的。但現(xiàn)在有決心繼續(xù)投入這種規(guī)模訓(xùn)練的公司也不多了。然后推理的算力需求還沒(méi)有這么快起來(lái),有一個(gè)技術(shù)滲透,應(yīng)用成熟的過(guò)程。

AI 應(yīng)用開發(fā)未冷卻,只是更分散、小微、個(gè)人化

《晚點(diǎn)聊》:上次我們交流是今年 1 月,當(dāng)時(shí)大模型很熱。過(guò)去這幾個(gè)月,OpenAI 幾個(gè)重要升級(jí)跳票,市場(chǎng)上開始有質(zhì)疑大模型的聲音。硅基流動(dòng)每天服務(wù)開發(fā)者,你有看到熱情冷卻的跡象嗎?

袁進(jìn)輝:應(yīng)用探索這一塊,我沒(méi)有感到變冷。大家對(duì) AI 的價(jià)值判斷沒(méi)有變化,它遲早會(huì)無(wú)處不在,會(huì)非常有價(jià)值,我沒(méi)看到有什么懷疑。而且隨著開源模型出現(xiàn),基于這些模型做應(yīng)用的人越來(lái)越多。

之前非常熱情做應(yīng)用探索的,是一些有 FOMO 心態(tài)的大公司。最近我們能看到非常強(qiáng)的趨勢(shì)是,個(gè)人開發(fā)者、產(chǎn)品經(jīng)理、中小企業(yè)越來(lái)越多,他們是各個(gè)領(lǐng)域的毛細(xì)血管,幾乎任何場(chǎng)景,任何工作環(huán)節(jié),都有案例出現(xiàn)。

《晚點(diǎn)聊》:可以舉一些例子嗎?

袁進(jìn)輝:以人從小到大成長(zhǎng)過(guò)程為例。做小孩教育、小孩玩具的現(xiàn)在挺多,教小孩學(xué)語(yǔ)言、給小孩講故事、做繪本。大一些就是工作場(chǎng)景了,不管是 Coding、娛樂(lè)、寫作,還有陪伴都挺多。前一段時(shí)間,還有開發(fā)者做老人關(guān)懷應(yīng)用,幫人寫遺囑。

《晚點(diǎn)聊》:做這些應(yīng)用的開發(fā)者,都是什么背景?是不是越來(lái)越多也不是技術(shù)背景的?

袁進(jìn)輝:比如玩具,有的是從傳統(tǒng)玩具行業(yè)轉(zhuǎn)型的,也有一些是互聯(lián)網(wǎng)公司做產(chǎn)品經(jīng)理的。

最開始大家認(rèn)為只有像大公司或?qū)iT做大模型的公司一樣,有完善的 AI 能力和團(tuán)隊(duì),才有機(jī)會(huì)做產(chǎn)品探索,F(xiàn)在大家想用比較高水平的模型,基本都能拿到,而且還非常容易使用。所以只要在某個(gè)領(lǐng)域有產(chǎn)品和需求洞察,也可以做應(yīng)用,模型訓(xùn)練、調(diào)優(yōu)等都不太需要做了,這就使能參與 AI 應(yīng)用探索的人群擴(kuò)大了。

《晚點(diǎn)聊》:一方面你說(shuō)應(yīng)用熱情未冷卻,另一方面,創(chuàng)投市場(chǎng)去年預(yù)期的 AI 應(yīng)用爆發(fā)好像也沒(méi)到來(lái),這是為什么?

袁進(jìn)輝:這也是一種真實(shí)的體感。我觀察到的是那種草根開發(fā)者,從非常小事情開始做起,他們有的也開始收錢了,每月收入幾萬(wàn)塊,但他們沒(méi)有到投資機(jī)構(gòu)投的門檻,特別是現(xiàn)在投資機(jī)構(gòu)資金也比較匱乏。很多主動(dòng)探索 AI 應(yīng)用商機(jī)或產(chǎn)品的開發(fā)者也是用自己的錢做的。

當(dāng)然也有快到投資門檻的。比如有一個(gè)產(chǎn)品叫捏 Ta,用戶可以在上面按自己想法塑造二次元人物,和它交朋友,這些被塑造的人物之間也可以 social。這個(gè)產(chǎn)品的增長(zhǎng)數(shù)據(jù)很好。

如果每天和開發(fā)者打交道,你不會(huì)感覺(jué)這個(gè)行業(yè)在停滯或變冷。

《晚點(diǎn)聊》:硅基流動(dòng)自己的客戶,調(diào)用最多的開源模型是哪些?

袁進(jìn)輝:國(guó)內(nèi)比較多的有通義千問(wèn)、DeepSeek。通義千問(wèn)從小到大,7B 到 70B 都有。DeepSeek 是 coding 能力很強(qiáng),甚至有一些海外客戶來(lái)調(diào)國(guó)內(nèi)的 DeepSeek 模型,還有 GLM-4,能力也挺好的,不過(guò)我們沒(méi)有 GLM 更高級(jí)的模型,那個(gè)沒(méi)開源。Llama 國(guó)內(nèi)的調(diào)用量并不大,海外是有量的。

《晚點(diǎn)聊》:你們客戶的用戶規(guī)模怎么樣?

袁進(jìn)輝:我們不能看到客戶的用戶規(guī)模,但能觀察到 token 量。每天超幾億 tokens 或 10 億 tokens 的客戶是有一些的,這意味著每周活躍用戶數(shù)是幾十萬(wàn)。

這些應(yīng)用爆發(fā)也有節(jié)奏,有過(guò)程。我最近看了釘釘總裁葉軍的一個(gè)訪談,現(xiàn)在很多人在釘釘里面供應(yīng) AI 能力。他說(shuō)了一個(gè)蠻有意思的觀察:如果一開頭就想做一個(gè)基于 AI 的大應(yīng)用,希望特別多人來(lái)用,這種預(yù)期不一定對(duì)路。

相反,釘釘生態(tài)下存在大量看上去不大的 AI 功能,它們可以被用到釘釘?shù)墓ぷ髁髦,下單使用的也是個(gè)人,付費(fèi)決策很快。

AI 應(yīng)用也可能是這種巷戰(zhàn):它無(wú)處不在,但每一處又沒(méi)有我們期待的那么大。

還有一種可能是,這種小應(yīng)用或者能力足夠多之后,有些會(huì)逐漸成長(zhǎng)成為我們期待的 super app,它需要一個(gè)過(guò)程。

《晚點(diǎn)聊》:現(xiàn)在看,手機(jī)智能助手有可能會(huì)是這樣一個(gè)入口,蘋果的 siri 結(jié)合大模型后,可以嵌入很多 App 能力,用戶不用再在多個(gè) app 間跳來(lái)跳去。

袁進(jìn)輝:對(duì),蘋果的 siri、騰訊的微信,今天的巨大入口級(jí)產(chǎn)品看上去也有希望成為新的 AI 入口。但還沒(méi)有看到一個(gè)全新的 AI player 出現(xiàn),大家都在期待。

《晚點(diǎn)聊》:OpenAI 不算一個(gè)新的 player 嗎?

袁進(jìn)輝:以日活計(jì)算,OpenAI 和 Meta、TikTok、微信還有數(shù)量級(jí)差距。和蘋果比,OpenAI 還處在被蘋果整合的角色。一種猜測(cè)是,蘋果、騰訊、字節(jié)這類公司血條夠長(zhǎng),它們可能會(huì)逐漸追上最好的模型。

《晚點(diǎn)聊》:之前我們和昆侖萬(wàn)維 CEO 方漢聊,他總結(jié)了一個(gè) “巨頭遞減” 規(guī)律互聯(lián)網(wǎng)浪潮誕生了一批新巨頭;移動(dòng)互聯(lián)網(wǎng)浪潮,美國(guó)其實(shí)沒(méi)有新巨頭,一批中等體量公司后來(lái)也被 Google、Meta 等公司整合,中國(guó)現(xiàn)在要出現(xiàn)新巨頭也越來(lái)越難了。當(dāng)然這只是一種基于歷史的歸納。

袁進(jìn)輝:我們可以回溯這幾個(gè)浪潮的技術(shù)本質(zhì)。PC 互聯(lián)網(wǎng)主要是做信息化,移動(dòng)互聯(lián)網(wǎng)還有線上、線下連通,新巨頭都是在這個(gè)過(guò)程中搶占了一些場(chǎng)景。

但現(xiàn)在很難再想象出什么新場(chǎng)景,AI 這一次更多不是創(chuàng)造新場(chǎng)景,而是提升各個(gè)場(chǎng)景的效率。

《晚點(diǎn)聊》:這可能是因?yàn)槲覀兩硖幤渲校吹降氖且粋(gè)漸變過(guò)程。就像當(dāng)年鐵路替代馬車,最初也可以看做是同一個(gè)場(chǎng)景,出行和運(yùn)輸,但一旦圍繞鐵路的技術(shù)體系被構(gòu)建出來(lái),又會(huì)長(zhǎng)出一些新場(chǎng)景,比如美國(guó)希爾斯百貨會(huì)用鐵路郵寄賣表,以前很難有這種零售場(chǎng)景。未來(lái)會(huì)有多大變化,可能取決于生成式 AI 技術(shù)與互聯(lián)網(wǎng)技術(shù)有多大差別,這也是逐漸發(fā)生的,現(xiàn)在很難在一個(gè)歷史的遠(yuǎn)距離去觀察這個(gè)過(guò)程。今天感謝袁老師提供了一個(gè)觀察應(yīng)用開發(fā)的視角,你提到大家開發(fā)應(yīng)用的熱情沒(méi)有消減。

袁進(jìn)輝:信心是足夠的。只是參與其中的主體可能有了一些新變化,新來(lái)的人更孝更分散,是草色遙看近卻無(wú)的那種感覺(jué)。只不過(guò)大家的注意力更多放在大公司身上。

題圖來(lái)源:OpenAI

贊助本站

人工智能實(shí)驗(yàn)室

相關(guān)熱詞: OpenAI amp #160 如何 延續(xù) Scaling

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港