展會(huì)信息港展會(huì)大全

王小川評(píng)OpenAI o1:國內(nèi)大模型達(dá)到相似水準(zhǔn),需要9個(gè)月
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-26 20:24:03   瀏覽:765次  

導(dǎo)讀:劃重點(diǎn) 01OpenAI發(fā)布的新模型o1以強(qiáng)化學(xué)習(xí)為基礎(chǔ),關(guān)注語言為核心的思維鏈,提高泛化性。 02王小川認(rèn)為,o1不代表范式轉(zhuǎn)彎,而是范式升級(jí),將原來的模型作為組件之一。 03除此之外,他還預(yù)測代碼將成為大模型下一步的核心能力,大模型通過寫代碼解決更多問題...

劃重點(diǎn)

01OpenAI發(fā)布的新模型o1以強(qiáng)化學(xué)習(xí)為基礎(chǔ),關(guān)注語言為核心的思維鏈,提高泛化性。

02王小川認(rèn)為,o1不代表范式轉(zhuǎn)彎,而是范式升級(jí),將原來的模型作為組件之一。

03除此之外,他還預(yù)測代碼將成為大模型下一步的核心能力,大模型通過寫代碼解決更多問題。

04目前,百川智能在醫(yī)療場景上取得突破,計(jì)劃繼續(xù)深化醫(yī)療領(lǐng)域的應(yīng)用。

05盡管大模型創(chuàng)業(yè)競爭激烈,王小川仍認(rèn)為至少有一家創(chuàng)業(yè)公司能在這個(gè)領(lǐng)域生存。

以上內(nèi)容由騰訊混元大模型生成,僅供參考

主筆:張小

編輯:石丁

出品:科技新聞《潛望》

2024年9月,OpenAI預(yù)熱已久的“Strawberry”(草莓)項(xiàng)目終于問世,它重置命名模式,沒有沿用原有的GPT命名,而是取名為o1模型業(yè)界認(rèn)為,o1代表了AGI范式的一次大轉(zhuǎn)移或者大升級(jí)。

在靠語言模型預(yù)訓(xùn)練的Scaling Law這個(gè)經(jīng)典物理規(guī)律遇到瓶頸后,包括OpenAI在內(nèi)的多家硅谷明星公司,已經(jīng)把它們的資源重心押寶在一條新路徑上:強(qiáng)化學(xué)習(xí)。o1的發(fā)布把以強(qiáng)化學(xué)習(xí)為基礎(chǔ)的后訓(xùn)練,推到了焦點(diǎn)中心。

百川智能創(chuàng)始人兼CEO王小川很早就開始在公開演講中談?wù)搹?qiáng)化學(xué)習(xí)。他曾說,大模型代表快思考,它叫“學(xué)”;強(qiáng)化學(xué)習(xí)是慢思考,叫“思”。“學(xué)”和“思”兩個(gè)系統(tǒng)最終會(huì)走向融合。

在o1發(fā)布后,王小川在第一時(shí)間接受了我們的訪談。關(guān)于o1和強(qiáng)化學(xué)習(xí),他有一些核心觀點(diǎn):

1、o1不代表范式轉(zhuǎn)彎,而是范式升級(jí),OpenAI摸到了一條從快思考走向慢思考的道路;

2、o1的關(guān)注重點(diǎn)在于兩點(diǎn):從以語言為核心走向思維鏈,更強(qiáng)調(diào)思維鏈(CoT,"Chain of Thought");把思考過程和給出結(jié)果,分兩階段運(yùn)行,能夠增加泛化性;

3、除了數(shù)學(xué)和代碼,AI醫(yī)生是可以用強(qiáng)化學(xué)習(xí)提升的領(lǐng)域;

4、另外,他做了一個(gè)預(yù)言:代碼會(huì)變成大模型下一步的核心能力,大模型通過寫代碼解決更多問題甚至是自身思考過程,未來幾年將從強(qiáng)化學(xué)習(xí)范式走向?qū)懘a來解決問題的新范式。

以下為王小川的訪談節(jié)眩(為了方便閱讀,作者做了一些文本優(yōu)化)

o1摸到了一條從快思考走向慢思考的道路

科技新聞《潛望》:關(guān)于OpenAI做強(qiáng)化學(xué)習(xí)的經(jīng)過,你了解哪些事實(shí)?

王小川:之前在Sam Altman被宮斗下課的時(shí)候,我理解并不是狗血的事。

它的董事會(huì)是又聰明、也挺正直的人,不會(huì)犯傻。有的人要么蠢,要么壞。但這些人既不蠢,也不壞。紛爭背后一定有某些大家沒發(fā)現(xiàn)的事。

在之前一周,我聽到當(dāng)時(shí)他們一個(gè)核心的人傳出來:NoamBrown,之前是DeepMind做強(qiáng)化的一個(gè)大神加入OpenAI,并且號(hào)稱跟其他朋友講,他們有一些突破性的事情了。一周后,Sam Altman又出了點(diǎn)事。

前后是兩個(gè)事。第一個(gè),被宮斗,一定是技術(shù)上大家沒看到的東西在內(nèi)部有質(zhì)疑,說Sam Altman比較激進(jìn),他對(duì)安全性(認(rèn)識(shí))不足,把安全重要性放在技術(shù)突破后面。有些突破性的技術(shù)可能不安全,但他有點(diǎn)無所謂,想盡快把技術(shù)突破做下去。恰巧Noam說他們有技術(shù)突破,而Noam代表強(qiáng)化學(xué)習(xí)。

兩個(gè)放一塊,去年底我們推論出,OpenAI強(qiáng)化學(xué)習(xí)有一些突破了。

科技新聞《潛望》:今年初OpenAI發(fā)Sora,你們技術(shù)同事想跟進(jìn),被你摁死了。這次o1呢?

王小川:這個(gè)技術(shù)范式核心是語言模型,然后走向強(qiáng)化學(xué)習(xí)這是智能提升的兩個(gè)階段。

當(dāng)做Sora時(shí),它既不是語言學(xué)習(xí),也不是強(qiáng)化學(xué)習(xí),就不在提升智力方向里,而是另一個(gè)獨(dú)立產(chǎn)品。因此做Sora,從技術(shù)上并不代表智能的提升,場景上也不是百川所追求的。我當(dāng)時(shí)認(rèn)為,有同學(xué)這么想,屬于“技術(shù)沒想明白,場景也沒想明白”。

去年4月百川下場的時(shí)候,就在強(qiáng)調(diào)強(qiáng)化學(xué)習(xí),以及強(qiáng)調(diào)多模態(tài)不是智能提升方向。

我們說大模型是“讀萬卷書”,強(qiáng)化學(xué)習(xí)是“行萬里路”。大模型本身叫“學(xué)而不思則罔”,它會(huì)讀很多書,但內(nèi)心偏混亂。單獨(dú)強(qiáng)化學(xué)習(xí)有一個(gè)典型作品,是AlphaGo。我相信AlphaGo是對(duì)人工智能的啟蒙,它是強(qiáng)化學(xué)習(xí)特別是自我博弈的一個(gè)典型代表。這個(gè)技術(shù),之前DeepMind一直沿著這個(gè)路子走,走到后來發(fā)現(xiàn)它叫“思而不學(xué)則殆”,停在一個(gè)問題里面走不出來了。

因此,這兩個(gè)技術(shù)都有自己的局限性。

在人工智能發(fā)展史上DeepMind有很多成果,像AlphaGo、AlphaZero,甚至一點(diǎn)數(shù)據(jù)都不用。只是很不幸,OpenAI從語言里面把通用智能往前走了一步,就是用學(xué)習(xí)的方法,用思考的方法。這種技術(shù)(學(xué)習(xí)和思考)早晚會(huì)合璧。

科技新聞《潛望》:有評(píng)論說“相比GPT-4o,o1模型向前邁了一步,卻又退了兩步”,你怎么看?

王小川:我不認(rèn)為它叫進(jìn)一步、退兩步,也不叫轉(zhuǎn)彎,就是范式升級(jí)了。

快思考是慢思考誕生的一個(gè)過程。先得有快思考,才能有慢思考,它不是轉(zhuǎn)彎的過程。而是,怎么用大模型的快思考,之后能夠讓它學(xué)會(huì)慢思考,是一個(gè)進(jìn)階。

我沿用DIKW的模型DIKW指的是從Data到Information到Knowledge最后到Wisdom,四步走。之前的搜索是Information這層,幫你獲得信息。到了大模型LLM之后就到了Knowledge這層,它有知識(shí)、有溝通、有快思考。而今天有了這么一個(gè)慢思考,它已經(jīng)從Knowledge進(jìn)化到了有Wisdom的雛形,真的開始有智能。

因此它是范式升級(jí),把原來的模型作為組件之一,不只是用今天這么一個(gè)強(qiáng)化學(xué)習(xí)服務(wù)于大模型。大模型是它的一個(gè)組件了,這是一個(gè)大的跨越。

總結(jié)來說,既不是轉(zhuǎn)彎,也不是進(jìn)退,而是摸到了一條走向慢思考的道路。

科技新聞《潛望》:為什么我們需要一個(gè)能慢思考的AI?它能幫我們解決哪些事?

王小川:智能本身一定是思考的過程。無人駕駛做端到端,在端到端里面也需要能一步、兩步、三步去想。就像我們做幾何定理證明題,求解一定得有思路。當(dāng)你有思考過程,就是一個(gè)慢思考。所以,智能本身需要有多步的思考。

大多數(shù)比較復(fù)雜一點(diǎn)的問題,不管是代碼問題,還是數(shù)據(jù)、邏輯問題,或者咱們?nèi)粘O虢鉀Q的事,都得分步驟解析,而不是一拍腦袋就有快思考結(jié)果。

除了文學(xué)寫作,可以用快思考寫詩,一鼓作氣做完了;大多數(shù)時(shí)候需要有多步,需要慢思考。

科技新聞《潛望》:o1隱藏了思維過程,甚至有人破解o1的思維鏈會(huì)被警告要封號(hào),OpenAI為什么這么做?

王小川:之前做大模型,各家用它的數(shù)據(jù)做蒸餾,能夠迅速接近它。OpenAI畢竟是一個(gè)商業(yè)公司,不是一個(gè)公益型公司。一旦公開,大家不僅仿效它的邏輯,更容易爭奪它的數(shù)據(jù);不僅破解它的算法,而且是它的數(shù)據(jù)獲齲

這會(huì)讓別人家進(jìn)步變得很快。也說明,這個(gè)技術(shù)本身獨(dú)有性是有限的。

因此,封鎖是一個(gè)競爭策略。

從以語言為核心走向思維鏈,

分兩階段運(yùn)行增加泛化性

這兩句把強(qiáng)化學(xué)習(xí)的精髓講完了

科技新聞《潛望》:我們應(yīng)該怎么看待o1,是一個(gè)過渡性的產(chǎn)品形態(tài)嗎?

王小川:o1有點(diǎn)像當(dāng)年GPT-3的發(fā)布,離最后3.5和4突破性有距離。但是3發(fā)布在業(yè)內(nèi)就已經(jīng)很震撼了。

科技新聞《潛望》:我前幾天和一個(gè)前OpenAI研究員(邊塞科技創(chuàng)始人、清華叉院信息研究院助理教授吳翼)聊,他的研究方向是強(qiáng)化學(xué)習(xí)。他說,現(xiàn)在相當(dāng)于從階段一進(jìn)入到階段二。之前pre-training(預(yù)訓(xùn)練)能挖的金礦越來越少,大家意識(shí)到以強(qiáng)化學(xué)習(xí)為基礎(chǔ)的post-training(后訓(xùn)練)是第二個(gè)大金礦,就讓邁向AGI的梯子多了幾節(jié)。

王小川:這個(gè)理解完全一樣。

科技新聞《潛望》:在你看來,OpenAI o1應(yīng)該關(guān)注哪些要點(diǎn)?

王小川:第一,它堅(jiān)持以語言為中心,又叫語言中軸。

之前大家多少覺得多模態(tài)是智力。但你看OpenAI上多模態(tài)幫助不大,現(xiàn)在還是語言為核心,甚至更進(jìn)一步,從語言為核心走向CoT("Chain of Thought",思維鏈),更強(qiáng)調(diào)思維鏈了。因此語言在中間承載思考的時(shí)候變成一個(gè)多步的思考。

第二,它把思考過程和給結(jié)果,分成了兩個(gè)步驟,這樣對(duì)思考過程能夠更好進(jìn)行一個(gè)泛化。

比如說解數(shù)學(xué)題的時(shí)候,你可能是學(xué)會(huì)一個(gè)思路,就能解好多題。因此并不是他在追求這個(gè)題解對(duì)了的一個(gè)結(jié)果,而追求解題過程是對(duì)的。分成兩個(gè)階段之后,能把CoT變成一個(gè)能泛化到從你解一個(gè)數(shù)學(xué)題,到解更多題,甚至到其他領(lǐng)域共性能力提升。

因此,核心關(guān)注語言為核心的CoT,以及分兩階段的運(yùn)行能增加泛化性這兩句話有很大信息量,已經(jīng)把強(qiáng)化學(xué)習(xí)的精髓講完了。

科技新聞《潛望》:能不能介紹一下“強(qiáng)化學(xué)習(xí)”這個(gè)概念?

王小川:“強(qiáng)化學(xué)習(xí)”跟之前“監(jiān)督學(xué)習(xí)”的區(qū)別是:監(jiān)督學(xué)習(xí)你要告訴它解題過程是什么,它依葫蘆畫瓢;強(qiáng)化學(xué)習(xí)是不告訴它過程,只是判斷你做得對(duì)不對(duì)。

就像教小孩,你說你要做個(gè)事,一二三怎么做,小孩可能學(xué)得快,但他并沒有“知其所以然”。但是如果他做對(duì)了,你說對(duì);他做錯(cuò)了,你說錯(cuò),這個(gè)小孩的學(xué)習(xí)要自己花心思找方法。這就是“強(qiáng)化學(xué)習(xí)”跟“監(jiān)督學(xué)習(xí)”的本質(zhì)區(qū)別。

大模型為什么特別強(qiáng)調(diào)強(qiáng)化學(xué)習(xí)呢?大模型本質(zhì)是把全天下最優(yōu)質(zhì)的語言來做訓(xùn)練,我們說是“一個(gè)壓縮的過程”。壓縮過程是一個(gè)在原有數(shù)據(jù)“分布內(nèi)”的一種智能,它的思考能力是不會(huì)超過你原始數(shù)據(jù)的。

但我們知道,單看智能是跳出原來的框架去想事。數(shù)學(xué)上叫“分布外”,大模型叫“分布內(nèi)”,就在探索以前未知的事。所以這個(gè)時(shí)候需要?jiǎng)?chuàng)造環(huán)境,讓你在這個(gè)環(huán)境互動(dòng)當(dāng)中,環(huán)境的反饋能給原來數(shù)據(jù)語言之外的內(nèi)容,能提升你的解題問題或者智力。

從“分布內(nèi)”走向“分布外”,這是智力必須的過程。所以用強(qiáng)化學(xué)習(xí)就變成了必須的事。

科技新聞《潛望》:這里面包含哪些關(guān)鍵技術(shù)原理,復(fù)刻它難嗎?

王小川:有很多數(shù)據(jù)和工程問題要做。復(fù)刻它本身,如果你蒸餾它會(huì)變得很簡單;但復(fù)刻起來的時(shí)候,對(duì)于你的算力,對(duì)于你的專家來標(biāo)注這個(gè)系統(tǒng),都還是有蠻多挑戰(zhàn)。

比復(fù)刻個(gè)GPT-4會(huì)變得更難一些。

科技新聞《潛望》:還是需要專家、需要人工?

王小川:我覺得需要的,也需要人教它。

科技新聞《潛望》:Self-play RL(自博弈強(qiáng)化學(xué)習(xí))能讓人工更少嗎?

王小川:肯定會(huì)。計(jì)算機(jī)領(lǐng)域有句話是這么說的:求解一個(gè)問題比驗(yàn)證一個(gè)問題更難。找問題答案比判斷答案對(duì)不對(duì)更難。

你走迷宮,找到那條出路是難的,但要驗(yàn)證這個(gè)迷宮走得對(duì)不對(duì)、是不是走通了、有沒有撞墻,是簡單的。或者做幾何定理證明題,你求解它難,但你找到求解過程后,讓另一個(gè)人驗(yàn)證求解過程有沒有bug是簡單的。

我們很愿意用強(qiáng)化學(xué)習(xí),其中重要的是,我并不知道怎么解這個(gè)題,但我能驗(yàn)證你解得對(duì)不對(duì)。這個(gè)情況下能使整個(gè)系統(tǒng)的能力得到很大提升,也降低標(biāo)注數(shù)據(jù)本身的難度,或者同等標(biāo)注數(shù)據(jù)的難度,它就能解更復(fù)雜的題目,這是中間的核心邏輯。

科技新聞《潛望》:強(qiáng)化學(xué)習(xí)能實(shí)現(xiàn)泛化性嗎?它能夠帶來通用智力水平的提升嗎?

王小川:強(qiáng)化學(xué)習(xí)之前的泛化性是不好的。AlphaGo之前就做得不好。

今天OpenAI基于這兩件事,我覺得把強(qiáng)化學(xué)習(xí)做得挺好。第一,它局限在數(shù)學(xué)、代碼,這個(gè)局部領(lǐng)域有足夠大的突破。也說明這兩個(gè)領(lǐng)域里有足夠好的數(shù)據(jù)來驗(yàn)證它。比如數(shù)學(xué)題做得對(duì)不對(duì)?一個(gè)程序是否能編譯通過?運(yùn)行完了跟你想要的結(jié)果一不一樣?所以,在沒有泛化性和絕對(duì)答案的情況下,它做得特別好。

第二,它的泛化性來自于之前把它分為兩階段,就是把CoT和后面的執(zhí)行過程分開了。因此,就像之前訓(xùn)練代碼訓(xùn)練了之后,整個(gè)系統(tǒng)邏輯能力提升了一樣。之前咱們也講了GPT-3.5這兩個(gè)版本合在一起之后,邏輯性提升來自于代碼的學(xué)習(xí),F(xiàn)在也是一樣,其他場景的泛化性來自于對(duì)于數(shù)學(xué)和代碼的CoT本身掌握得更好了,這個(gè)CoT能泛化到其他思考環(huán)節(jié)去。

科技新聞《潛望》:之前大家對(duì)GPT-4有一個(gè)詬病是數(shù)理能力比較差,o1變成了數(shù)學(xué)、編程方面的偏才,未來會(huì)出現(xiàn)更多專注于特定領(lǐng)域的模型嗎?

王小川:我不覺得它是偏才,現(xiàn)在就是一個(gè)“文科也不錯(cuò)、理科一下子變得特別強(qiáng)”的模型。

至少OpenAI代表的路線圖是通用的道路,會(huì)逐步把這樣一個(gè)領(lǐng)域拓展開。并不代表以O(shè)penAI自己積累的數(shù)據(jù)閉環(huán)就能做到全知全能。在各個(gè)領(lǐng)域使用的時(shí)候,專業(yè)領(lǐng)域的數(shù)據(jù)會(huì)扮演很重要的角色。

科技新聞《潛望》:做一個(gè)o1需要多少的算力、數(shù)據(jù),有沒有一個(gè)預(yù)估?

王小川:可能跟做個(gè)GPT-4差不多。

科技新聞《潛望》:o1 + GPT-4o會(huì)出現(xiàn)什么?

王小川:不需要合并。現(xiàn)在叫o1,已經(jīng)版本重置了。

合并本身不難,即便包含不了,分兩個(gè)調(diào)用也行。

科技新聞《潛望》:o1只是新范式的第一步,之后它會(huì)怎么演變?

王小川:它的算力繼續(xù)增加、訓(xùn)練效率提升,以及如何在領(lǐng)域數(shù)據(jù)中更好地能去使用,還有大量可挖掘的內(nèi)容。

往下有幾個(gè)事可能會(huì)發(fā)生:第一,領(lǐng)域的更好的泛化能力,就是找到范式把領(lǐng)域知識(shí)給做起來,是一個(gè)要突破的事。

第二個(gè),再往下,我可以做個(gè)預(yù)言:未來代碼會(huì)扮演更重要的角色。

以前代碼是幫助提高邏輯能力,或者幫助程序員輔助寫代碼。我認(rèn)為未來代碼會(huì)變成大模型下一步的核心能力。

也就是說,大模型通過寫代碼能夠去解決更多的問題,解決自身的思考過程,從強(qiáng)化學(xué)習(xí)范式還會(huì)走向?qū)懘a來解決問題這個(gè)新范式這在未來幾年內(nèi)會(huì)實(shí)現(xiàn)。

走出大廠射程,

大模型“六小龍”至少能活一家

科技新聞《潛望》:百川在強(qiáng)化學(xué)習(xí)這條路上是怎么做的?

王小川:百川一直挺重視強(qiáng)化學(xué)習(xí),去年就成立這樣一個(gè)團(tuán)隊(duì)。OpenAI是走在我們前面,這個(gè)得承認(rèn)。

我們?cè)贐aichuan3 發(fā)布做了一個(gè)實(shí)驗(yàn),用強(qiáng)化學(xué)習(xí)訓(xùn)練詩詞。做強(qiáng)化學(xué)習(xí)之前要靠金標(biāo)準(zhǔn),是在能絕對(duì)判斷對(duì)錯(cuò)的地方訓(xùn)練,所以通常要做理科任務(wù),數(shù)學(xué)、代碼是可以做的。文科上沒有對(duì)錯(cuò)判斷的標(biāo)準(zhǔn),寫得好不好挺難讓機(jī)器校對(duì)。所以,我們想在文科里是否也有一個(gè)Reward Model(獎(jiǎng)勵(lì)模型),于是想到用唐詩和宋詞。

尤其是宋詞,大家寫起來比較難,它的字?jǐn)?shù)、平仄、韻律、對(duì)仗有很多要求。但是要求反而是一種規(guī)則。當(dāng)時(shí)我們?cè)谟?xùn)練模型的時(shí)候,不是說讓機(jī)器仿照人這么寫詩詞,而是讓機(jī)器寫詩詞之后,我們用一個(gè)程序模型來判斷詩詞寫得是否符合字?jǐn)?shù)、平仄、韻律和對(duì)仗。預(yù)訓(xùn)練時(shí)就做了這樣一個(gè)實(shí)驗(yàn),取得了不錯(cuò)效果,代表我們?cè)谶@方面之前就有積累和思考。

再往下,除了數(shù)學(xué)和代碼以外,我們認(rèn)為醫(yī)生是蠻好的可以用強(qiáng)化學(xué)習(xí)提升的領(lǐng)域。醫(yī)療在很多問題上是有標(biāo)準(zhǔn)答案的。比如一個(gè)病人,綜合癥狀他到底有什么樣的病?或者該做什么檢驗(yàn)、檢查,該開什么藥?這些地方是有答案的。

如果仿照醫(yī)生的CoT再來驗(yàn)證答案對(duì)不對(duì),這樣能使模型的功力大漲。因?yàn)獒t(yī)生解釋,不是光看醫(yī)學(xué)院的書,讀完就會(huì)了。他在臨床中間一輩子可能看幾萬個(gè)病人,得到自己的提升。醫(yī)生是在病人的互動(dòng)中得到提升的,很多數(shù)據(jù)被記錄下來。

因此,強(qiáng)化學(xué)習(xí)用來做醫(yī)療是一個(gè)特別好的應(yīng)用方法,使醫(yī)療的可行性和質(zhì)量得到很大提升。

科技新聞《潛望》:為什么你們當(dāng)時(shí)做實(shí)驗(yàn)選擇在詩詞領(lǐng)域,是一個(gè)文科領(lǐng)域,而沒有選擇像數(shù)學(xué)、編程這種理科領(lǐng)域?

王小川:容易上手。

你在做任何突破的時(shí)候都有挑戰(zhàn),因?yàn)樗旧砦目凭秃,只是文科上的不足是詩詞,因此用它來做驗(yàn)證,比在當(dāng)時(shí)做數(shù)學(xué)和代碼更容易上手做實(shí)驗(yàn)。

科技新聞《潛望》:Reward Model怎么設(shè)計(jì)?

王小川:我們首先是會(huì)有程序能夠判定,比如說這樣一首詩詞,這種字?jǐn)?shù)。比如通過詞牌名大概100多首,每個(gè)詞牌名的格式我們有數(shù)據(jù)分析。并且平仄,一聲、二聲、三聲、四聲,還有韻律、押韻,都可以用程序校驗(yàn),我們當(dāng)時(shí)就已經(jīng)寫了Reward Model。先是有一個(gè)規(guī)則的判定,再把它泛化成一個(gè)模型這個(gè)路線圖比較接近o1的做法。

但沒有它做得更完整。o1特別好,有CoT的過程,我們當(dāng)時(shí)不帶CoT。

科技新聞《潛望》:今天看到o1以后,你能復(fù)現(xiàn)出哪些技術(shù)路徑,從中改進(jìn)你們的做法?

王小川:我們更強(qiáng)調(diào)CoT了,原來中間沒有CoT這一步,直接從輸入到答案。

有CoT之后第一,我們做醫(yī)療的時(shí)候會(huì)找醫(yī)生的思考路徑,這樣更快提升它的能力,就是有CoT的過程,而不只是完整的端到端;第二,有CoT之后泛化能力也會(huì)得到很大提升,只要思路對(duì),答案就對(duì)。

科技新聞《潛望》:做了一年多強(qiáng)化學(xué)習(xí),有沒有積累更多關(guān)于強(qiáng)化學(xué)習(xí)的know-how?

王小川:強(qiáng)化學(xué)習(xí)一部分是從環(huán)境中學(xué)到新東西,一部分我發(fā)現(xiàn)它會(huì)激活原有一些能力。比如在寫詩詞,我們讓它學(xué)會(huì)了字?jǐn)?shù)、平仄和韻律,結(jié)果大模型自己就把對(duì)仗輸出了本來還沒教它學(xué)對(duì)仗呢。

這就說明,它潛藏著記憶和能力,可以激活出來。所以在強(qiáng)化里,一方面是面向未來的范式,一方面它跟以前的強(qiáng)化學(xué)習(xí)邏輯也不完全一樣。

科技新聞《潛望》:但這幾個(gè)月AI有點(diǎn)變冷,o1能夠重振大家對(duì)于AI的信心嗎?

王小川:我不太關(guān)心外界環(huán)境,確實(shí)也聽說外界在變冷,大家覺得比較迷茫,技術(shù)突破變慢,或者沒找到應(yīng)用場景。

然而對(duì)于百川,一開始就明確了我們的應(yīng)用場景是在知識(shí)領(lǐng)域里造顧問,尤其是造醫(yī)生。場景很清晰,離結(jié)果更近了,而不是開辟新大陸。

科技新聞《潛望》:國內(nèi)的公司現(xiàn)在達(dá)到GPT-4水平了嗎?

王小川:在接近吧。

科技新聞《潛望》:復(fù)刻o1的時(shí)間周期相比GPT-4怎樣?

王小川:會(huì)比做GPT-4快一些,難歸難,但畢竟隨著國內(nèi)也好、美國也好這么多開源項(xiàng)目產(chǎn)生,不管大廠還是創(chuàng)業(yè)公司進(jìn)入,資本的充裕度和人才的集中度已經(jīng)比剛開始發(fā)布GPT-3.5或GPT-4之后市場的人才儲(chǔ)備、資金儲(chǔ)備多了很多。

在一兩個(gè)月時(shí)間里,有一些接近他們的模型就開始會(huì)出現(xiàn)了,會(huì)很快。

科技新聞《潛望》:你說國內(nèi)還是國外?

王小川:都有可能。GPT-4比如用18個(gè)月,o1可能做到它那樣也許9個(gè)月。起步有一個(gè)樣子出來,可能1-2個(gè)月就有了。要達(dá)到一樣的高度需要花力氣。

科技新聞《潛望》:關(guān)于o1你有哪些想要知道但不知道的事?

王小川:挺多不知道,比如它擁有多少算力,有多少領(lǐng)域?qū)<摇?/p>

科技新聞《潛望》:o1可見上限是什么?

王小川:我認(rèn)為可能在未來兩三年內(nèi),這個(gè)范式會(huì)跑出它的結(jié)果,跟GPT-3.5到4是一樣的。

剩下的就是代碼可能會(huì)扮演更重要的角色機(jī)器自己寫代碼,代碼運(yùn)行完了,生成一個(gè)神經(jīng)元網(wǎng)絡(luò),甚至把神經(jīng)元網(wǎng)絡(luò)和它的模型再融合到一塊去。

我認(rèn)為未來還有新的范式會(huì)產(chǎn)生。

但是那一步做完了,我覺得AGI就接近了。

科技新聞《潛望》:你們接下來準(zhǔn)備怎么做?

王小川:一方面美國領(lǐng)先的地方要跟進(jìn),另一方面堅(jiān)定在醫(yī)療場景上突破。

科技新聞《潛望》:你說去年是為了趕上這個(gè)時(shí)代火車,一個(gè)快速rush的狀態(tài),今年呢?

王小川:我們?nèi)ツ瓴桓掖舐曁後t(yī)療,我講“醫(yī)療是大模型皇冠上的明珠”,大家不太理解這個(gè)場景的可行性。大家會(huì)問商業(yè)模式、倫理問題。

去年只造一個(gè)輪子,模型趕快入常今年開始,我們開始真正的雙輪驅(qū)動(dòng),“超級(jí)模型”+“超級(jí)應(yīng)用”。而且是一個(gè)“水漲船高的應(yīng)用”,不只是“沿途下蛋的模式”。

水漲船高的應(yīng)用,什么意思?就是模型越大,我這個(gè)領(lǐng)域能做得更好;而不是模型大到一個(gè)階段就跟我領(lǐng)域沒關(guān)系了。“沿途下蛋”的意思就是我下了個(gè)蛋,就放那,模型再好,你就下個(gè)新的蛋。這種情況下,你的蛋越來越多,你自己就會(huì)被拖累了。

因此,先做個(gè)廣告模型放那兒,再做個(gè)客服模型放到那兒這種情況不叫水漲船高,隨著模型大就被淹掉的狀態(tài)。而說到醫(yī)療,模型越大,這個(gè)行業(yè)可能存活率越大,這叫水漲船高。

科技新聞《潛望》:也就是說,假設(shè)模型能力特別強(qiáng)以后什么場景可以應(yīng)用。

王小川:對(duì)。但是,模型在一般場景下,我也能進(jìn)入。模型越大,這個(gè)場景就越受益,可以找這樣一個(gè)場景。

科技新聞《潛望》:進(jìn)去以后等著唄。

王小川:當(dāng)然得努力工作了。

等著也對(duì),模型越好,這個(gè)場景就越受益。

科技新聞《潛望》:模型和應(yīng)用兩條腿,你現(xiàn)在對(duì)哪一條腿更滿意?

王小川:都在初始狀態(tài)。

未來這兩個(gè)也有關(guān)系,你的場景越清楚,對(duì)模型要求越細(xì)化。

科技新聞《潛望》:在醫(yī)療場景最終我們能看見的形態(tài)是什么?它好像不會(huì)是一個(gè)Super App,挺難想象的。

王小川:以前是App,就是叫PMF(產(chǎn)品市場契合點(diǎn)),我去發(fā)現(xiàn)需求,去滿足需求,去創(chuàng)造需求。這是以前的邏輯。我去年提了TPF(技術(shù)產(chǎn)品契合度),我們從需求驅(qū)動(dòng)開始變成供給驅(qū)動(dòng),供給驅(qū)動(dòng)就是這個(gè)需求已經(jīng)現(xiàn)實(shí)存在,只是供給不足,我把它造出來,就有市常我更多地強(qiáng)調(diào)技術(shù)和產(chǎn)品匹配度。

大模型一個(gè)很大的邏輯是在“造人”,在造數(shù)字員工,因?yàn)樗鼤?huì)語言,會(huì)思考,會(huì)溝通,而且學(xué)的是人類之前遺留下來的知識(shí)和經(jīng)驗(yàn),所以它不是在造計(jì)算器、造車這種邏輯它是在造人。我們把造醫(yī)生當(dāng)成重點(diǎn)突破。

如果從產(chǎn)品形態(tài)看,你就是造了一個(gè)能夠用的醫(yī)生,前期是從全科、兒科入手,未來會(huì)走向?qū)?频尼t(yī)生,到最后走向生命的數(shù)學(xué)模型。這是下一個(gè)階段,從智能模型走向生命模型,這是遠(yuǎn)期目標(biāo)。在機(jī)器智能模型里,它像智能人一樣,就是個(gè)醫(yī)生。

科技新聞《潛望》:人類跟它的交互界面會(huì)是什么?

王小川:靠自然語言的交互。

有可能你是個(gè)App,有可能是醫(yī)院里一個(gè)終端設(shè)備,但最后它的交互是靠語言進(jìn)行。語言或者視覺,跟人一樣。

科技新聞《潛望》:在產(chǎn)品上什么時(shí)候百川讓大家看到一個(gè)大的突破?

王小川:今年內(nèi)吧。今年開始可能能接觸到一點(diǎn)了,算是與人對(duì)話的。

科技新聞《潛望》:你上次說會(huì)造三個(gè)人,除了醫(yī)生,另兩個(gè)人你現(xiàn)在怎么想?

王小川:更通用的顧問我們也會(huì)做。

娛樂我們降低了。娛樂的目的是造虛擬世界,時(shí)間還沒有到。所以我們現(xiàn)在可以等一等,先把通用的顧問和醫(yī)生造出來。

我們想的娛樂不是跟你聊天的一個(gè)東西,而是造一個(gè)能夠去創(chuàng)造世界、一個(gè)敘事的故事。這里缺少足夠多的數(shù)據(jù)和資源訓(xùn)練它。

科技新聞《潛望》:聊天機(jī)器人這個(gè)市場現(xiàn)在是一個(gè)紅海,終局會(huì)是什么樣?

王小川:它是不是個(gè)市場都不知道,就別說叫紅海市場了。

科技新聞《潛望》:大模型創(chuàng)業(yè)“六小龍”能活幾家?

王小川:至少活一家吧。

科技新聞《潛望》:怎么看字節(jié)和大模型創(chuàng)業(yè)公司的競爭?

王小川:字節(jié)就飽和式攻擊嘛,在一種共識(shí)里,字節(jié)是會(huì)發(fā)展非?。但一定有比他們更高的認(rèn)知,他們看不到的東西,或者他們組織能力做不到的事,才會(huì)有創(chuàng)業(yè)公司生存的機(jī)會(huì)。

走出大廠的射程,在這個(gè)射程內(nèi)你是沒什么好活的。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港