當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > 王小川評(píng)OpenAI o1：國內(nèi)大模型達(dá)到相似水準(zhǔn)，需要9個(gè)月

王小川評(píng)OpenAI o1：國內(nèi)大模型達(dá)到相似水準(zhǔn)，需要9個(gè)月
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-26 20:24:03 瀏覽：765次

導(dǎo)讀：劃重點(diǎn) 01OpenAI發(fā)布的新模型o1以強(qiáng)化學(xué)習(xí)為基礎(chǔ)，關(guān)注語言為核心的思維鏈，提高泛化性。 02王小川認(rèn)為，o1不代表范式轉(zhuǎn)彎，而是范式升級(jí)，將原來的模型作為組件之一。 03除此之外，他還預(yù)測代碼將成為大模型下一步的核心能力，大模型通過寫代碼解決更多問題...

劃重點(diǎn)

01OpenAI發(fā)布的新模型o1以強(qiáng)化學(xué)習(xí)為基礎(chǔ)，關(guān)注語言為核心的思維鏈，提高泛化性。

02王小川認(rèn)為，o1不代表范式轉(zhuǎn)彎，而是范式升級(jí)，將原來的模型作為組件之一。

03除此之外，他還預(yù)測代碼將成為大模型下一步的核心能力，大模型通過寫代碼解決更多問題。

04目前，百川智能在醫(yī)療場景上取得突破，計(jì)劃繼續(xù)深化醫(yī)療領(lǐng)域的應(yīng)用。

05盡管大模型創(chuàng)業(yè)競爭激烈，王小川仍認(rèn)為至少有一家創(chuàng)業(yè)公司能在這個(gè)領(lǐng)域生存。

以上內(nèi)容由騰訊混元大模型生成，僅供參考

主筆：張小

編輯：石丁

出品：科技新聞《潛望》

2024年9月，OpenAI預(yù)熱已久的“Strawberry”（草莓）項(xiàng)目終于問世，它重置命名模式，沒有沿用原有的GPT命名，而是取名為o1模型業(yè)界認(rèn)為，o1代表了AGI范式的一次大轉(zhuǎn)移或者大升級(jí)。

在靠語言模型預(yù)訓(xùn)練的Scaling Law這個(gè)經(jīng)典物理規(guī)律遇到瓶頸后，包括OpenAI在內(nèi)的多家硅谷明星公司，已經(jīng)把它們的資源重心押寶在一條新路徑上：強(qiáng)化學(xué)習(xí)。o1的發(fā)布把以強(qiáng)化學(xué)習(xí)為基礎(chǔ)的后訓(xùn)練，推到了焦點(diǎn)中心。

百川智能創(chuàng)始人兼CEO王小川很早就開始在公開演講中談?wù)搹?qiáng)化學(xué)習(xí)。他曾說，大模型代表快思考，它叫“學(xué)”；強(qiáng)化學(xué)習(xí)是慢思考，叫“思”。“學(xué)”和“思”兩個(gè)系統(tǒng)最終會(huì)走向融合。

在o1發(fā)布后，王小川在第一時(shí)間接受了我們的訪談。關(guān)于o1和強(qiáng)化學(xué)習(xí)，他有一些核心觀點(diǎn)：

1、o1不代表范式轉(zhuǎn)彎，而是范式升級(jí)，OpenAI摸到了一條從快思考走向慢思考的道路；

2、o1的關(guān)注重點(diǎn)在于兩點(diǎn)：從以語言為核心走向思維鏈，更強(qiáng)調(diào)思維鏈（CoT，"Chain of Thought"）；把思考過程和給出結(jié)果，分兩階段運(yùn)行，能夠增加泛化性；

3、除了數(shù)學(xué)和代碼，AI醫(yī)生是可以用強(qiáng)化學(xué)習(xí)提升的領(lǐng)域；

4、另外，他做了一個(gè)預(yù)言：代碼會(huì)變成大模型下一步的核心能力，大模型通過寫代碼解決更多問題甚至是自身思考過程，未來幾年將從強(qiáng)化學(xué)習(xí)范式走向?qū)懘a來解決問題的新范式。

以下為王小川的訪談節(jié)眩（為了方便閱讀，作者做了一些文本優(yōu)化）

o1摸到了一條從快思考走向慢思考的道路

科技新聞《潛望》：關(guān)于OpenAI做強(qiáng)化學(xué)習(xí)的經(jīng)過，你了解哪些事實(shí)？

王小川：之前在Sam Altman被宮斗下課的時(shí)候，我理解并不是狗血的事。

它的董事會(huì)是又聰明、也挺正直的人，不會(huì)犯傻。有的人要么蠢，要么壞。但這些人既不蠢，也不壞。紛爭背后一定有某些大家沒發(fā)現(xiàn)的事。

在之前一周，我聽到當(dāng)時(shí)他們一個(gè)核心的人傳出來：NoamBrown，之前是DeepMind做強(qiáng)化的一個(gè)大神加入OpenAI，并且號(hào)稱跟其他朋友講，他們有一些突破性的事情了。一周后，Sam Altman又出了點(diǎn)事。

前后是兩個(gè)事。第一個(gè)，被宮斗，一定是技術(shù)上大家沒看到的東西在內(nèi)部有質(zhì)疑，說Sam Altman比較激進(jìn)，他對(duì)安全性（認(rèn)識(shí)）不足，把安全重要性放在技術(shù)突破后面。有些突破性的技術(shù)可能不安全，但他有點(diǎn)無所謂，想盡快把技術(shù)突破做下去。恰巧Noam說他們有技術(shù)突破，而Noam代表強(qiáng)化學(xué)習(xí)。

兩個(gè)放一塊，去年底我們推論出，OpenAI強(qiáng)化學(xué)習(xí)有一些突破了。

科技新聞《潛望》：今年初OpenAI發(fā)Sora，你們技術(shù)同事想跟進(jìn)，被你摁死了。這次o1呢？

王小川：這個(gè)技術(shù)范式核心是語言模型，然后走向強(qiáng)化學(xué)習(xí)這是智能提升的兩個(gè)階段。

當(dāng)做Sora時(shí)，它既不是語言學(xué)習(xí)，也不是強(qiáng)化學(xué)習(xí)，就不在提升智力方向里，而是另一個(gè)獨(dú)立產(chǎn)品。因此做Sora，從技術(shù)上并不代表智能的提升，場景上也不是百川所追求的。我當(dāng)時(shí)認(rèn)為，有同學(xué)這么想，屬于“技術(shù)沒想明白，場景也沒想明白”。

去年4月百川下場的時(shí)候，就在強(qiáng)調(diào)強(qiáng)化學(xué)習(xí)，以及強(qiáng)調(diào)多模態(tài)不是智能提升方向。

我們說大模型是“讀萬卷書”，強(qiáng)化學(xué)習(xí)是“行萬里路”。大模型本身叫“學(xué)而不思則罔”，它會(huì)讀很多書，但內(nèi)心偏混亂。單獨(dú)強(qiáng)化學(xué)習(xí)有一個(gè)典型作品，是AlphaGo。我相信AlphaGo是對(duì)人工智能的啟蒙，它是強(qiáng)化學(xué)習(xí)特別是自我博弈的一個(gè)典型代表。這個(gè)技術(shù)，之前DeepMind一直沿著這個(gè)路子走，走到后來發(fā)現(xiàn)它叫“思而不學(xué)則殆”，停在一個(gè)問題里面走不出來了。

因此，這兩個(gè)技術(shù)都有自己的局限性。

在人工智能發(fā)展史上DeepMind有很多成果，像AlphaGo、AlphaZero，甚至一點(diǎn)數(shù)據(jù)都不用。只是很不幸，OpenAI從語言里面把通用智能往前走了一步，就是用學(xué)習(xí)的方法，用思考的方法。這種技術(shù)（學(xué)習(xí)和思考）早晚會(huì)合璧。

科技新聞《潛望》：有評(píng)論說“相比GPT-4o，o1模型向前邁了一步，卻又退了兩步”，你怎么看？

王小川：我不認(rèn)為它叫進(jìn)一步、退兩步，也不叫轉(zhuǎn)彎，就是范式升級(jí)了。

快思考是慢思考誕生的一個(gè)過程。先得有快思考，才能有慢思考，它不是轉(zhuǎn)彎的過程。而是，怎么用大模型的快思考，之后能夠讓它學(xué)會(huì)慢思考，是一個(gè)進(jìn)階。

我沿用DIKW的模型DIKW指的是從Data到Information到Knowledge最后到Wisdom，四步走。之前的搜索是Information這層，幫你獲得信息。到了大模型LLM之后就到了Knowledge這層，它有知識(shí)、有溝通、有快思考。而今天有了這么一個(gè)慢思考，它已經(jīng)從Knowledge進(jìn)化到了有Wisdom的雛形，真的開始有智能。

因此它是范式升級(jí)，把原來的模型作為組件之一，不只是用今天這么一個(gè)強(qiáng)化學(xué)習(xí)服務(wù)于大模型。大模型是它的一個(gè)組件了，這是一個(gè)大的跨越。

總結(jié)來說，既不是轉(zhuǎn)彎，也不是進(jìn)退，而是摸到了一條走向慢思考的道路。

科技新聞《潛望》：為什么我們需要一個(gè)能慢思考的AI？它能幫我們解決哪些事？

王小川：智能本身一定是思考的過程。無人駕駛做端到端，在端到端里面也需要能一步、兩步、三步去想。就像我們做幾何定理證明題，求解一定得有思路。當(dāng)你有思考過程，就是一個(gè)慢思考。所以，智能本身需要有多步的思考。

大多數(shù)比較復(fù)雜一點(diǎn)的問題，不管是代碼問題，還是數(shù)據(jù)、邏輯問題，或者咱們?nèi)粘Ｏ虢鉀Q的事，都得分步驟解析，而不是一拍腦袋就有快思考結(jié)果。

除了文學(xué)寫作，可以用快思考寫詩，一鼓作氣做完了；大多數(shù)時(shí)候需要有多步，需要慢思考。

科技新聞《潛望》：o1隱藏了思維過程，甚至有人破解o1的思維鏈會(huì)被警告要封號(hào)，OpenAI為什么這么做？

王小川：之前做大模型，各家用它的數(shù)據(jù)做蒸餾，能夠迅速接近它。OpenAI畢竟是一個(gè)商業(yè)公司，不是一個(gè)公益型公司。一旦公開，大家不僅仿效它的邏輯，更容易爭奪它的數(shù)據(jù)；不僅破解它的算法，而且是它的數(shù)據(jù)獲齲

這會(huì)讓別人家進(jìn)步變得很快。也說明，這個(gè)技術(shù)本身獨(dú)有性是有限的。

因此，封鎖是一個(gè)競爭策略。

從以語言為核心走向思維鏈，

分兩階段運(yùn)行增加泛化性

這兩句把強(qiáng)化學(xué)習(xí)的精髓講完了

科技新聞《潛望》：我們應(yīng)該怎么看待o1，是一個(gè)過渡性的產(chǎn)品形態(tài)嗎？

王小川：o1有點(diǎn)像當(dāng)年GPT-3的發(fā)布，離最后3.5和4突破性有距離。但是3發(fā)布在業(yè)內(nèi)就已經(jīng)很震撼了。

科技新聞《潛望》：我前幾天和一個(gè)前OpenAI研究員（邊塞科技創(chuàng)始人、清華叉院信息研究院助理教授吳翼）聊，他的研究方向是強(qiáng)化學(xué)習(xí)。他說，現(xiàn)在相當(dāng)于從階段一進(jìn)入到階段二。之前pre-training（預(yù)訓(xùn)練）能挖的金礦越來越少，大家意識(shí)到以強(qiáng)化學(xué)習(xí)為基礎(chǔ)的post-training（后訓(xùn)練）是第二個(gè)大金礦，就讓邁向AGI的梯子多了幾節(jié)。

王小川：這個(gè)理解完全一樣。

科技新聞《潛望》：在你看來，OpenAI o1應(yīng)該關(guān)注哪些要點(diǎn)？

王小川：第一，它堅(jiān)持以語言為中心，又叫語言中軸。

之前大家多少覺得多模態(tài)是智力。但你看OpenAI上多模態(tài)幫助不大，現(xiàn)在還是語言為核心，甚至更進(jìn)一步，從語言為核心走向CoT（"Chain of Thought"，思維鏈），更強(qiáng)調(diào)思維鏈了。因此語言在中間承載思考的時(shí)候變成一個(gè)多步的思考。

第二，它把思考過程和給結(jié)果，分成了兩個(gè)步驟，這樣對(duì)思考過程能夠更好進(jìn)行一個(gè)泛化。

比如說解數(shù)學(xué)題的時(shí)候，你可能是學(xué)會(huì)一個(gè)思路，就能解好多題。因此并不是他在追求這個(gè)題解對(duì)了的一個(gè)結(jié)果，而追求解題過程是對(duì)的。分成兩個(gè)階段之后，能把CoT變成一個(gè)能泛化到從你解一個(gè)數(shù)學(xué)題，到解更多題，甚至到其他領(lǐng)域共性能力提升。

因此，核心關(guān)注語言為核心的CoT，以及分兩階段的運(yùn)行能增加泛化性這兩句話有很大信息量，已經(jīng)把強(qiáng)化學(xué)習(xí)的精髓講完了。

科技新聞《潛望》：能不能介紹一下“強(qiáng)化學(xué)習(xí)”這個(gè)概念？

王小川：“強(qiáng)化學(xué)習(xí)”跟之前“監(jiān)督學(xué)習(xí)”的區(qū)別是：監(jiān)督學(xué)習(xí)你要告訴它解題過程是什么，它依葫蘆畫瓢；強(qiáng)化學(xué)習(xí)是不告訴它過程，只是判斷你做得對(duì)不對(duì)。

就像教小孩，你說你要做個(gè)事，一二三怎么做，小孩可能學(xué)得快，但他并沒有“知其所以然”。但是如果他做對(duì)了，你說對(duì)；他做錯(cuò)了，你說錯(cuò)，這個(gè)小孩的學(xué)習(xí)要自己花心思找方法。這就是“強(qiáng)化學(xué)習(xí)”跟“監(jiān)督學(xué)習(xí)”的本質(zhì)區(qū)別。

大模型為什么特別強(qiáng)調(diào)強(qiáng)化學(xué)習(xí)呢？大模型本質(zhì)是把全天下最優(yōu)質(zhì)的語言來做訓(xùn)練，我們說是“一個(gè)壓縮的過程”。壓縮過程是一個(gè)在原有數(shù)據(jù)“分布內(nèi)”的一種智能，它的思考能力是不會(huì)超過你原始數(shù)據(jù)的。

但我們知道，單看智能是跳出原來的框架去想事。數(shù)學(xué)上叫“分布外”，大模型叫“分布內(nèi)”，就在探索以前未知的事。所以這個(gè)時(shí)候需要?jiǎng)?chuàng)造環(huán)境，讓你在這個(gè)環(huán)境互動(dòng)當(dāng)中，環(huán)境的反饋能給原來數(shù)據(jù)語言之外的內(nèi)容，能提升你的解題問題或者智力。

從“分布內(nèi)”走向“分布外”，這是智力必須的過程。所以用強(qiáng)化學(xué)習(xí)就變成了必須的事。

科技新聞《潛望》：這里面包含哪些關(guān)鍵技術(shù)原理，復(fù)刻它難嗎？

王小川：有很多數(shù)據(jù)和工程問題要做。復(fù)刻它本身，如果你蒸餾它會(huì)變得很簡單；但復(fù)刻起來的時(shí)候，對(duì)于你的算力，對(duì)于你的專家來標(biāo)注這個(gè)系統(tǒng)，都還是有蠻多挑戰(zhàn)。

比復(fù)刻個(gè)GPT-4會(huì)變得更難一些。

科技新聞《潛望》：還是需要專家、需要人工？

王小川：我覺得需要的，也需要人教它。

科技新聞《潛望》：Self-play RL（自博弈強(qiáng)化學(xué)習(xí)）能讓人工更少嗎？

王小川：肯定會(huì)。計(jì)算機(jī)領(lǐng)域有句話是這么說的：求解一個(gè)問題比驗(yàn)證一個(gè)問題更難。找問題答案比判斷答案對(duì)不對(duì)更難。

你走迷宮，找到那條出路是難的，但要驗(yàn)證這個(gè)迷宮走得對(duì)不對(duì)、是不是走通了、有沒有撞墻，是簡單的。或者做幾何定理證明題，你求解它難，但你找到求解過程后，讓另一個(gè)人驗(yàn)證求解過程有沒有bug是簡單的。

我們很愿意用強(qiáng)化學(xué)習(xí)，其中重要的是，我并不知道怎么解這個(gè)題，但我能驗(yàn)證你解得對(duì)不對(duì)。這個(gè)情況下能使整個(gè)系統(tǒng)的能力得到很大提升，也降低標(biāo)注數(shù)據(jù)本身的難度，或者同等標(biāo)注數(shù)據(jù)的難度，它就能解更復(fù)雜的題目，這是中間的核心邏輯。

科技新聞《潛望》：強(qiáng)化學(xué)習(xí)能實(shí)現(xiàn)泛化性嗎？它能夠帶來通用智力水平的提升嗎？

王小川：強(qiáng)化學(xué)習(xí)之前的泛化性是不好的。AlphaGo之前就做得不好。

今天OpenAI基于這兩件事，我覺得把強(qiáng)化學(xué)習(xí)做得挺好。第一，它局限在數(shù)學(xué)、代碼，這個(gè)局部領(lǐng)域有足夠大的突破。也說明這兩個(gè)領(lǐng)域里有足夠好的數(shù)據(jù)來驗(yàn)證它。比如數(shù)學(xué)題做得對(duì)不對(duì)？一個(gè)程序是否能編譯通過？運(yùn)行完了跟你想要的結(jié)果一不一樣？所以，在沒有泛化性和絕對(duì)答案的情況下，它做得特別好。

第二，它的泛化性來自于之前把它分為兩階段，就是把CoT和后面的執(zhí)行過程分開了。因此，就像之前訓(xùn)練代碼訓(xùn)練了之后，整個(gè)系統(tǒng)邏輯能力提升了一樣。之前咱們也講了GPT-3.5這兩個(gè)版本合在一起之后，邏輯性提升來自于代碼的學(xué)習(xí)�，F(xiàn)在也是一樣，其他場景的泛化性來自于對(duì)于數(shù)學(xué)和代碼的CoT本身掌握得更好了，這個(gè)CoT能泛化到其他思考環(huán)節(jié)去。

科技新聞《潛望》：之前大家對(duì)GPT-4有一個(gè)詬病是數(shù)理能力比較差，o1變成了數(shù)學(xué)、編程方面的偏才，未來會(huì)出現(xiàn)更多專注于特定領(lǐng)域的模型嗎？

王小川：我不覺得它是偏才，現(xiàn)在就是一個(gè)“文科也不錯(cuò)、理科一下子變得特別強(qiáng)”的模型。

至少OpenAI代表的路線圖是通用的道路，會(huì)逐步把這樣一個(gè)領(lǐng)域拓展開。并不代表以O(shè)penAI自己積累的數(shù)據(jù)閉環(huán)就能做到全知全能。在各個(gè)領(lǐng)域使用的時(shí)候，專業(yè)領(lǐng)域的數(shù)據(jù)會(huì)扮演很重要的角色。

科技新聞《潛望》：做一個(gè)o1需要多少的算力、數(shù)據(jù)，有沒有一個(gè)預(yù)估？

王小川：可能跟做個(gè)GPT-4差不多。

科技新聞《潛望》：o1 + GPT-4o會(huì)出現(xiàn)什么？

王小川：不需要合并。現(xiàn)在叫o1，已經(jīng)版本重置了。

合并本身不難，即便包含不了，分兩個(gè)調(diào)用也行。

科技新聞《潛望》：o1只是新范式的第一步，之后它會(huì)怎么演變？

王小川：它的算力繼續(xù)增加、訓(xùn)練效率提升，以及如何在領(lǐng)域數(shù)據(jù)中更好地能去使用，還有大量可挖掘的內(nèi)容。

往下有幾個(gè)事可能會(huì)發(fā)生：第一，領(lǐng)域的更好的泛化能力，就是找到范式把領(lǐng)域知識(shí)給做起來，是一個(gè)要突破的事。

第二個(gè)，再往下，我可以做個(gè)預(yù)言：未來代碼會(huì)扮演更重要的角色。

以前代碼是幫助提高邏輯能力，或者幫助程序員輔助寫代碼。我認(rèn)為未來代碼會(huì)變成大模型下一步的核心能力。

也就是說，大模型通過寫代碼能夠去解決更多的問題，解決自身的思考過程，從強(qiáng)化學(xué)習(xí)范式還會(huì)走向?qū)懘a來解決問題這個(gè)新范式這在未來幾年內(nèi)會(huì)實(shí)現(xiàn)。

走出大廠射程，

大模型“六小龍”至少能活一家

科技新聞《潛望》：百川在強(qiáng)化學(xué)習(xí)這條路上是怎么做的？

王小川：百川一直挺重視強(qiáng)化學(xué)習(xí)，去年就成立這樣一個(gè)團(tuán)隊(duì)。OpenAI是走在我們前面，這個(gè)得承認(rèn)。

我們?cè)贐aichuan3 發(fā)布做了一個(gè)實(shí)驗(yàn)，用強(qiáng)化學(xué)習(xí)訓(xùn)練詩詞。做強(qiáng)化學(xué)習(xí)之前要靠金標(biāo)準(zhǔn)，是在能絕對(duì)判斷對(duì)錯(cuò)的地方訓(xùn)練，所以通常要做理科任務(wù)，數(shù)學(xué)、代碼是可以做的。文科上沒有對(duì)錯(cuò)判斷的標(biāo)準(zhǔn)，寫得好不好挺難讓機(jī)器校對(duì)。所以，我們想在文科里是否也有一個(gè)Reward Model（獎(jiǎng)勵(lì)模型），于是想到用唐詩和宋詞。

尤其是宋詞，大家寫起來比較難，它的字?jǐn)?shù)、平仄、韻律、對(duì)仗有很多要求。但是要求反而是一種規(guī)則。當(dāng)時(shí)我們?cè)谟?xùn)練模型的時(shí)候，不是說讓機(jī)器仿照人這么寫詩詞，而是讓機(jī)器寫詩詞之后，我們用一個(gè)程序模型來判斷詩詞寫得是否符合字?jǐn)?shù)、平仄、韻律和對(duì)仗。預(yù)訓(xùn)練時(shí)就做了這樣一個(gè)實(shí)驗(yàn)，取得了不錯(cuò)效果，代表我們?cè)谶@方面之前就有積累和思考。

再往下，除了數(shù)學(xué)和代碼以外，我們認(rèn)為醫(yī)生是蠻好的可以用強(qiáng)化學(xué)習(xí)提升的領(lǐng)域。醫(yī)療在很多問題上是有標(biāo)準(zhǔn)答案的。比如一個(gè)病人，綜合癥狀他到底有什么樣的病？或者該做什么檢驗(yàn)、檢查，該開什么藥？這些地方是有答案的。

如果仿照醫(yī)生的CoT再來驗(yàn)證答案對(duì)不對(duì)，這樣能使模型的功力大漲。因?yàn)獒t(yī)生解釋，不是光看醫(yī)學(xué)院的書，讀完就會(huì)了。他在臨床中間一輩子可能看幾萬個(gè)病人，得到自己的提升。醫(yī)生是在病人的互動(dòng)中得到提升的，很多數(shù)據(jù)被記錄下來。

因此，強(qiáng)化學(xué)習(xí)用來做醫(yī)療是一個(gè)特別好的應(yīng)用方法，使醫(yī)療的可行性和質(zhì)量得到很大提升。

科技新聞《潛望》：為什么你們當(dāng)時(shí)做實(shí)驗(yàn)選擇在詩詞領(lǐng)域，是一個(gè)文科領(lǐng)域，而沒有選擇像數(shù)學(xué)、編程這種理科領(lǐng)域？

王小川：容易上手。

你在做任何突破的時(shí)候都有挑戰(zhàn)，因?yàn)樗旧砦目凭秃�，只是文科上的不足是詩詞，因此用它來做驗(yàn)證，比在當(dāng)時(shí)做數(shù)學(xué)和代碼更容易上手做實(shí)驗(yàn)。

科技新聞《潛望》：Reward Model怎么設(shè)計(jì)？

王小川：我們首先是會(huì)有程序能夠判定，比如說這樣一首詩詞，這種字?jǐn)?shù)。比如通過詞牌名大概100多首，每個(gè)詞牌名的格式我們有數(shù)據(jù)分析。并且平仄，一聲、二聲、三聲、四聲，還有韻律、押韻，都可以用程序校驗(yàn)，我們當(dāng)時(shí)就已經(jīng)寫了Reward Model。先是有一個(gè)規(guī)則的判定，再把它泛化成一個(gè)模型這個(gè)路線圖比較接近o1的做法。

但沒有它做得更完整。o1特別好，有CoT的過程，我們當(dāng)時(shí)不帶CoT。

科技新聞《潛望》：今天看到o1以后，你能復(fù)現(xiàn)出哪些技術(shù)路徑，從中改進(jìn)你們的做法？

王小川：我們更強(qiáng)調(diào)CoT了，原來中間沒有CoT這一步，直接從輸入到答案。

有CoT之后第一，我們做醫(yī)療的時(shí)候會(huì)找醫(yī)生的思考路徑，這樣更快提升它的能力，就是有CoT的過程，而不只是完整的端到端；第二，有CoT之后泛化能力也會(huì)得到很大提升，只要思路對(duì)，答案就對(duì)。

科技新聞《潛望》：做了一年多強(qiáng)化學(xué)習(xí)，有沒有積累更多關(guān)于強(qiáng)化學(xué)習(xí)的know-how？

王小川：強(qiáng)化學(xué)習(xí)一部分是從環(huán)境中學(xué)到新東西，一部分我發(fā)現(xiàn)它會(huì)激活原有一些能力。比如在寫詩詞，我們讓它學(xué)會(huì)了字?jǐn)?shù)、平仄和韻律，結(jié)果大模型自己就把對(duì)仗輸出了本來還沒教它學(xué)對(duì)仗呢。

這就說明，它潛藏著記憶和能力，可以激活出來。所以在強(qiáng)化里，一方面是面向未來的范式，一方面它跟以前的強(qiáng)化學(xué)習(xí)邏輯也不完全一樣。

科技新聞《潛望》：但這幾個(gè)月AI有點(diǎn)變冷，o1能夠重振大家對(duì)于AI的信心嗎？

王小川：我不太關(guān)心外界環(huán)境，確實(shí)也聽說外界在變冷，大家覺得比較迷茫，技術(shù)突破變慢，或者沒找到應(yīng)用場景。

然而對(duì)于百川，一開始就明確了我們的應(yīng)用場景是在知識(shí)領(lǐng)域里造顧問，尤其是造醫(yī)生。場景很清晰，離結(jié)果更近了，而不是開辟新大陸。

科技新聞《潛望》：國內(nèi)的公司現(xiàn)在達(dá)到GPT-4水平了嗎？

王小川：在接近吧。

科技新聞《潛望》：復(fù)刻o1的時(shí)間周期相比GPT-4怎樣？

王小川：會(huì)比做GPT-4快一些，難歸難，但畢竟隨著國內(nèi)也好、美國也好這么多開源項(xiàng)目產(chǎn)生，不管大廠還是創(chuàng)業(yè)公司進(jìn)入，資本的充裕度和人才的集中度已經(jīng)比剛開始發(fā)布GPT-3.5或GPT-4之后市場的人才儲(chǔ)備、資金儲(chǔ)備多了很多。

在一兩個(gè)月時(shí)間里，有一些接近他們的模型就開始會(huì)出現(xiàn)了，會(huì)很快。

科技新聞《潛望》：你說國內(nèi)還是國外？

王小川：都有可能。GPT-4比如用18個(gè)月，o1可能做到它那樣也許9個(gè)月。起步有一個(gè)樣子出來，可能1-2個(gè)月就有了。要達(dá)到一樣的高度需要花力氣。

科技新聞《潛望》：關(guān)于o1你有哪些想要知道但不知道的事？

王小川：挺多不知道，比如它擁有多少算力，有多少領(lǐng)域?qū)＜摇?/p>

科技新聞《潛望》：o1可見上限是什么？

王小川：我認(rèn)為可能在未來兩三年內(nèi)，這個(gè)范式會(huì)跑出它的結(jié)果，跟GPT-3.5到4是一樣的。

剩下的就是代碼可能會(huì)扮演更重要的角色機(jī)器自己寫代碼，代碼運(yùn)行完了，生成一個(gè)神經(jīng)元網(wǎng)絡(luò)，甚至把神經(jīng)元網(wǎng)絡(luò)和它的模型再融合到一塊去。

我認(rèn)為未來還有新的范式會(huì)產(chǎn)生。

但是那一步做完了，我覺得AGI就接近了。

科技新聞《潛望》：你們接下來準(zhǔn)備怎么做？

王小川：一方面美國領(lǐng)先的地方要跟進(jìn)，另一方面堅(jiān)定在醫(yī)療場景上突破。

科技新聞《潛望》：你說去年是為了趕上這個(gè)時(shí)代火車，一個(gè)快速rush的狀態(tài)，今年呢？

王小川：我們?nèi)ツ瓴桓掖舐曁後t(yī)療，我講“醫(yī)療是大模型皇冠上的明珠”，大家不太理解這個(gè)場景的可行性。大家會(huì)問商業(yè)模式、倫理問題。

去年只造一個(gè)輪子，模型趕快入常今年開始，我們開始真正的雙輪驅(qū)動(dòng)，“超級(jí)模型”+“超級(jí)應(yīng)用”。而且是一個(gè)“水漲船高的應(yīng)用”，不只是“沿途下蛋的模式”。

水漲船高的應(yīng)用，什么意思？就是模型越大，我這個(gè)領(lǐng)域能做得更好；而不是模型大到一個(gè)階段就跟我領(lǐng)域沒關(guān)系了。“沿途下蛋”的意思就是我下了個(gè)蛋，就放那，模型再好，你就下個(gè)新的蛋。這種情況下，你的蛋越來越多，你自己就會(huì)被拖累了。

因此，先做個(gè)廣告模型放那兒，再做個(gè)客服模型放到那兒這種情況不叫水漲船高，隨著模型大就被淹掉的狀態(tài)。而說到醫(yī)療，模型越大，這個(gè)行業(yè)可能存活率越大，這叫水漲船高。

科技新聞《潛望》：也就是說，假設(shè)模型能力特別強(qiáng)以后什么場景可以應(yīng)用。

王小川：對(duì)。但是，模型在一般場景下，我也能進(jìn)入。模型越大，這個(gè)場景就越受益，可以找這樣一個(gè)場景。

科技新聞《潛望》：進(jìn)去以后等著唄。

王小川：當(dāng)然得努力工作了。

等著也對(duì)，模型越好，這個(gè)場景就越受益。

科技新聞《潛望》：模型和應(yīng)用兩條腿，你現(xiàn)在對(duì)哪一條腿更滿意？

王小川：都在初始狀態(tài)。

未來這兩個(gè)也有關(guān)系，你的場景越清楚，對(duì)模型要求越細(xì)化。

科技新聞《潛望》：在醫(yī)療場景最終我們能看見的形態(tài)是什么？它好像不會(huì)是一個(gè)Super App，挺難想象的。

王小川：以前是App，就是叫PMF（產(chǎn)品市場契合點(diǎn)），我去發(fā)現(xiàn)需求，去滿足需求，去創(chuàng)造需求。這是以前的邏輯。我去年提了TPF（技術(shù)產(chǎn)品契合度），我們從需求驅(qū)動(dòng)開始變成供給驅(qū)動(dòng)，供給驅(qū)動(dòng)就是這個(gè)需求已經(jīng)現(xiàn)實(shí)存在，只是供給不足，我把它造出來，就有市常我更多地強(qiáng)調(diào)技術(shù)和產(chǎn)品匹配度。

大模型一個(gè)很大的邏輯是在“造人”，在造數(shù)字員工，因?yàn)樗鼤?huì)語言，會(huì)思考，會(huì)溝通，而且學(xué)的是人類之前遺留下來的知識(shí)和經(jīng)驗(yàn)，所以它不是在造計(jì)算器、造車這種邏輯它是在造人。我們把造醫(yī)生當(dāng)成重點(diǎn)突破。

如果從產(chǎn)品形態(tài)看，你就是造了一個(gè)能夠用的醫(yī)生，前期是從全科、兒科入手，未來會(huì)走向?qū)？频尼t(yī)生，到最后走向生命的數(shù)學(xué)模型。這是下一個(gè)階段，從智能模型走向生命模型，這是遠(yuǎn)期目標(biāo)。在機(jī)器智能模型里，它像智能人一樣，就是個(gè)醫(yī)生。

科技新聞《潛望》：人類跟它的交互界面會(huì)是什么？

王小川：靠自然語言的交互。

有可能你是個(gè)App，有可能是醫(yī)院里一個(gè)終端設(shè)備，但最后它的交互是靠語言進(jìn)行。語言或者視覺，跟人一樣。

科技新聞《潛望》：在產(chǎn)品上什么時(shí)候百川讓大家看到一個(gè)大的突破？

王小川：今年內(nèi)吧。今年開始可能能接觸到一點(diǎn)了，算是與人對(duì)話的。

科技新聞《潛望》：你上次說會(huì)造三個(gè)人，除了醫(yī)生，另兩個(gè)人你現(xiàn)在怎么想？

王小川：更通用的顧問我們也會(huì)做。

娛樂我們降低了。娛樂的目的是造虛擬世界，時(shí)間還沒有到。所以我們現(xiàn)在可以等一等，先把通用的顧問和醫(yī)生造出來。

我們想的娛樂不是跟你聊天的一個(gè)東西，而是造一個(gè)能夠去創(chuàng)造世界、一個(gè)敘事的故事。這里缺少足夠多的數(shù)據(jù)和資源訓(xùn)練它。

科技新聞《潛望》：聊天機(jī)器人這個(gè)市場現(xiàn)在是一個(gè)紅海，終局會(huì)是什么樣？

王小川：它是不是個(gè)市場都不知道，就別說叫紅海市場了。

科技新聞《潛望》：大模型創(chuàng)業(yè)“六小龍”能活幾家？

王小川：至少活一家吧。

科技新聞《潛望》：怎么看字節(jié)和大模型創(chuàng)業(yè)公司的競爭？

王小川：字節(jié)就飽和式攻擊嘛，在一種共識(shí)里，字節(jié)是會(huì)發(fā)展非�？�。但一定有比他們更高的認(rèn)知，他們看不到的東西，或者他們組織能力做不到的事，才會(huì)有創(chuàng)業(yè)公司生存的機(jī)會(huì)。

走出大廠的射程，在這個(gè)射程內(nèi)你是沒什么好活的。

上一篇：AI技術(shù)下沉行業(yè) 泛能網(wǎng)程路：能源也能實(shí)現(xiàn)“自動(dòng)駕駛”

下一篇：騰訊新機(jī)器人，請(qǐng)叫我「小五」

AiLab云推薦

王小川評(píng)OpenAI o1：國內(nèi)大模型達(dá)到相似水準(zhǔn)，需要9個(gè)月
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-26 20:24:03 瀏覽：765次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

王小川評(píng)OpenAI o1：國內(nèi)大模型達(dá)到相似水準(zhǔn)，需要9個(gè)月 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-26 20:24:03 瀏覽：765次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

王小川評(píng)OpenAI o1：國內(nèi)大模型達(dá)到相似水準(zhǔn)，需要9個(gè)月
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-26 20:24:03 瀏覽：765次