當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > OpenAI o1：大進(jìn)步？小技巧？新思路？

OpenAI o1：大進(jìn)步？小技巧？新思路？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-19 18:59:05 瀏覽：784次

導(dǎo)讀：王鵬騰訊研究院資深專家經(jīng)過漫長的等待，OpenAI終于在9月12日發(fā)布了新模型O1，用戶可以直接訪問預(yù)覽版o1-preview，或者小尺寸版o1-mini。其醞釀了快一年的大招，一會兒Q*、一會兒草莓、一會兒AGI、一會兒GPT5，耗得核心技術(shù)團(tuán)隊(duì)都快走光了，才終于拿出來讓...

王鵬騰訊研究院資深專家

經(jīng)過漫長的等待，OpenAI終于在9月12日發(fā)布了新模型O1，用戶可以直接訪問預(yù)覽版o1-preview，或者小尺寸版o1-mini。其醞釀了快一年的大招，一會兒Q*、一會兒草莓、一會兒AGI、一會兒GPT5，耗得核心技術(shù)團(tuán)隊(duì)都快走光了，才終于拿出來讓所有人檢驗(yàn)和評論。這樣一個(gè)備受矚目的產(chǎn)品，勢必對行業(yè)甚至社會產(chǎn)生深遠(yuǎn)的影響。而且它不像平時(shí)那些版本更新一樣，只是簡單的技術(shù)能力提升，而需要從多個(gè)視角和維度去觀察和預(yù)測其影響。

一、大進(jìn)步

與GPT-4o相比，o1-preview在解決數(shù)學(xué)和編程問題上的能力提升了5倍以上，而還未放出的o1則超過8倍！在解決博士級別科學(xué)題目的時(shí)的成功率，都已經(jīng)超過了人類專家的水平。理化競賽能力都超過了人類博士的水平；在國際數(shù)學(xué)奧林匹克（IMO）資格考試中，GPT-4o 只正確解決了 13% 的問題，而推理模型的得分為 83%；編程能力在Codeforces 競賽中超過了 89%的人類選手。o1看起來在包括科學(xué)在內(nèi)的各個(gè)領(lǐng)域都超過人類的最強(qiáng)能力，不難理解奧特曼之前對實(shí)現(xiàn)AGI的滿滿自信。

在實(shí)際操作中，可以看出新模型的推理過程與之前有很大區(qū)別。我們可以看到多了一個(gè)可以打開和關(guān)閉的Show chain of thought（顯示思路）框，顯示了整個(gè)思維過程。類似于人類在回答難題之前的長時(shí)間思考，o1 在嘗試解決問題時(shí)會通過思考將問題分解，并步步為營，反復(fù)思考每個(gè)小任務(wù)，認(rèn)識并糾正錯(cuò)誤。當(dāng)一個(gè)方法不起作用時(shí)，它會嘗試另一種方法，從而極大提高了模型的推理能力。

在這些激動(dòng)人心的能力進(jìn)展背后，一系列被大家長期猜測的技術(shù)進(jìn)展也一一被驗(yàn)證。

1、思維鏈

CoT（Chain of thought，思維鏈），是學(xué)者們發(fā)現(xiàn)的能夠激發(fā)大模型通過“思考”來回答困難問題的技術(shù)，可以顯著提高其在推理等任務(wù)上的正確率。這個(gè)思路在兩年前的幾篇經(jīng)典論文中已經(jīng)得到不斷完善。

《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models，NeurIPS2022》這篇文章提出，在問LLM問題前，手工在prompt里面加入一些包含思維過程（Chain of thought）的問答示例（Manual CoT），就可以讓LLM在推理任務(wù)上大幅提升。

《Large language models are zero-shot reasoners. NeurIPS2022》提出先使用 “Let's think step by step.” 讓模型自己給出推理過程（Zero-shot CoT ），也衍生出諸如“一步一步慢慢來“這些著名的咒語。

《Automatic Chain of Thought Prompting in Large Language Models，ICLR2023》這篇文章可以理解為二者的結(jié)合，先用 “Let's think step by step.” 咒語產(chǎn)生推理過程，再把這些過程加到prompt里面去引導(dǎo)大模型推理。這樣不需要自己寫，又能相對靠譜。

在這些之后，CoT還經(jīng)歷了千變?nèi)f化的演進(jìn)，但大都還是通過prompt來誘導(dǎo)大模型分步思維，人們就在想，能不能讓大模型自己學(xué)會這種方法呢？

2、強(qiáng)化學(xué)習(xí)和自學(xué)推理

類似當(dāng)年的Alpha-Zero，強(qiáng)化學(xué)習(xí)是讓機(jī)器自己通過與環(huán)境交互并觀察結(jié)果的方式調(diào)整行為策略的機(jī)器學(xué)習(xí)方法，但之前很難用于語言模型。直到斯坦福大學(xué) 2022 年提出一種「自學(xué)推理」（Self-Taught Reasoner，STaR）方法：先給模型一些例題詳細(xì)解法，再讓模型學(xué)著去解更多的題，如果做對就把方法再補(bǔ)充到例題里，形成數(shù)據(jù)集，對原模型微調(diào)，讓模型學(xué)會這些方法，這也是一種經(jīng)典的自動(dòng)生成數(shù)據(jù)的方法。

后來基于此又演進(jìn)出了名為"Quiet-STaR"的新技術(shù)，也就是傳說中的Q*，翻譯過來大概為"安靜的自學(xué)推理"。核心為在每個(gè)輸入 token 之后插入一個(gè)"思考"步驟，讓大模型生成內(nèi)部推理。然后，系統(tǒng)會評估這些推理是否有助于預(yù)測后續(xù)文本，并相應(yīng)地調(diào)整模型參數(shù)。這種方法允許模型在處理各種文本時(shí)都能進(jìn)行隱含的推理，而不僅僅是在回答問題時(shí)。

用人話說呢，加入強(qiáng)化學(xué)習(xí)就是在大模型訓(xùn)練時(shí)就教他一些套路（當(dāng)然應(yīng)該也是模型自己生成并優(yōu)選的），思考時(shí)直接就按題型選套路分解問題、按步驟執(zhí)行、反復(fù)審核，不行就換個(gè)套路，跟通常教小學(xué)生普奧的套路類似。但這種自學(xué)習(xí)機(jī)制，由于獎(jiǎng)勵(lì)模型的復(fù)雜，所以通常僅在數(shù)學(xué)和代碼領(lǐng)域表現(xiàn)較好。

3、Scaling Law的延伸

以上技術(shù)手段結(jié)合的后果就是，預(yù)訓(xùn)練階段并沒有什么變化，但在推理階段的計(jì)算量大大增加，原來追求的快思考變成了故意放慢速度，以追求更加準(zhǔn)確的結(jié)果。

OpenAI 提及了自己訓(xùn)練中發(fā)現(xiàn)的一個(gè)現(xiàn)象：隨著更多的強(qiáng)化學(xué)習(xí)（訓(xùn)練時(shí)計(jì)算）和更多的思考時(shí)間（推理時(shí)計(jì)算），o1 的性能能持續(xù)提高。

英偉達(dá)AI領(lǐng)導(dǎo)者 Jim Fan 在 X 上點(diǎn)評了這一事件的歷史意義模型不僅僅擁有訓(xùn)練時(shí)的 scaling law，還擁有推理層面的 scaling law，雙曲線的共同增長，將突破之前大模型能力的提升瓶頸。“之前，沒人能將 AlphaGo 的成功復(fù)制到大模型上，使用更多的計(jì)算讓模型走向超人的能力。目前，我們已經(jīng)翻過這一頁了。”

可以預(yù)見，在預(yù)訓(xùn)練邊際成本遞減的背景下，基于強(qiáng)化學(xué)習(xí)的推理增強(qiáng)會越來越受到重視并發(fā)揮作用，也會有更多的算力被投入到推理階段，全球人工智能芯片和算力的需求也還會繼續(xù)增加。

二、小技巧不可否認(rèn)，o1代表了人工智能領(lǐng)域的一次重要進(jìn)步。但細(xì)細(xì)回顧過去一年奧特曼的言行，以及OpenAI的組織架構(gòu)和核心團(tuán)隊(duì)的變化，不免讓人產(chǎn)生一些疑慮：這個(gè)故事會不會有些許夸大其詞之處？會不會是借助一系列小技巧，來維持公司估值的增長和資源的獲取呢？

1、技術(shù)壁壘

無論是Sora還是o1，其實(shí)都是基于已有科研成果的工程創(chuàng)新，并沒有多高的技術(shù)壁壘。OpenAI最大的貢獻(xiàn)還是堅(jiān)定而不計(jì)成本地率先實(shí)踐。跟Sora一樣，一旦OAI明確了技術(shù)方向，工程復(fù)現(xiàn)大概率只是時(shí)間問題，而OAI在所有方向上卷贏全球簡直是不可能完成的任務(wù)。況且以這幾天全網(wǎng)的測試情況，模型效果只能說差強(qiáng)人意，很多場景下還不如其他工程手段下思維鏈方法的結(jié)果（如Claude3.5），甚至可以說經(jīng)常只是概率稍大的抽卡，實(shí)用價(jià)值還很難確定。另外，也許是為了避免友商的窺探和抄襲，或者是因?yàn)殚_放的思維過程存在安全性問題，OpenAI并未向用戶開放整個(gè)思維鏈細(xì)節(jié)，但仍有研究者在很短時(shí)間內(nèi)宣稱復(fù)現(xiàn)了與之類似的推理能力。

可以想象，后面各大廠商都會開始卷推理，陸續(xù)推出“深思熟慮”版的模型，快速拉齊水平，而如果OpenAI后面再?zèng)]有拿得出手的底牌，仍然難以扭轉(zhuǎn)本輪模型競賽到頂?shù)睦Ь场?/strong>

2、成本

去年已經(jīng)基本完成的模型拖延了這么久才面世，除了眾所周知的安全原因外，可能是因?yàn)?strong>o1和Sora一樣，算力消耗過于巨大而并不具備大規(guī)模商用的可行性。面對這一挑戰(zhàn)，奧特曼團(tuán)隊(duì)一直在嘗試尋找解決方案。他們等待了很長時(shí)間，希望算力成本能夠隨著技術(shù)進(jìn)步而下降。同時(shí)，他們也在全球范圍內(nèi)四處融資，籌集資金來購買或租賃更多的計(jì)算資源。然而，即使經(jīng)過了這些努力，推出的產(chǎn)品仍然單次推理動(dòng)輒需要數(shù)分鐘甚至數(shù)十分鐘，單價(jià)高出4o數(shù)倍，token消耗也經(jīng)常會提升數(shù)倍。

這些因素導(dǎo)致了一個(gè)尷尬的局面：科研貢獻(xiàn)暫時(shí)遠(yuǎn)大于商業(yè)價(jià)值。在這樣的背景下，OpenAI的行業(yè)地位和估值能否維持，變得相當(dāng)不確定。高昂的研發(fā)和運(yùn)營成本，加上商業(yè)化受阻，可能會影響投資者的信心和市場預(yù)期。

3、方法論

如果說前面兩點(diǎn)商業(yè)視角的質(zhì)疑對一路引領(lǐng)的OAI有一些不公平，那么這個(gè)方法論是不是真的如其所說，能達(dá)到甚至超過各STEM領(lǐng)域的“博士水平”，其實(shí)也是值得進(jìn)一步討論和驗(yàn)證的。從原理上說，這種思路還是在“大力出奇跡”的Scaling Law基礎(chǔ)上繼續(xù)疊加buff，引入類似蒙特卡洛樹搜索等暴力方法多路徑嘗試推理，某種意義上是在用文科方法解決理科問題。類似之前的AutoGPT類應(yīng)用，面向復(fù)雜問題，如果不對思維鏈的搜索空間進(jìn)行嚴(yán)格限制和引導(dǎo)，可能會陷入漫無邊際的發(fā)散，消耗大量算力仍然無法得到需要的結(jié)果。

如前文提到，這種方法有些類似面向普通學(xué)生的“普奧”中常用的套路式教學(xué)，更多依賴記憶和模式匹配，而并非對問題本質(zhì)的深刻理解和創(chuàng)造性思維。就連9.11和9.8誰大都還要琢磨半天，還有相當(dāng)大概率答錯(cuò)。這種方法培養(yǎng)出的AI，恐怕更像是一個(gè)只會刷題刷分的"小鎮(zhèn)做題家"，而非真正具有洞見和創(chuàng)新能力的"博士"，畢竟只有“做題”過程的訓(xùn)練數(shù)據(jù)好找。

誠然，在現(xiàn)實(shí)中，大量的科研工作確實(shí)涉及重復(fù)性、機(jī)械性的任務(wù)，這部分工作如果能夠由AI來承擔(dān)，無疑會極大地提高科研效率。但科研的核心仍然在于創(chuàng)新，在于對未知問題的探索和對新知識的發(fā)現(xiàn)。這需要的是靈感、創(chuàng)造力和邏輯推理能力，而非單純的計(jì)算能力。

正如《Large Language Monkeys: Scaling Inference Compute》一文所指出的，僅僅通過增加生成樣本的數(shù)量來擴(kuò)展推理計(jì)算，本質(zhì)上并沒有改變大型語言模型的基本屬性，它仍然是一個(gè)基于統(tǒng)計(jì)概率進(jìn)行"打字"的"猴子"。要真正實(shí)現(xiàn)通用人工智能，實(shí)現(xiàn)在科學(xué)領(lǐng)域的突破性進(jìn)展，我們可能需要在算法和架構(gòu)上尋求更加本質(zhì)的創(chuàng)新，而不是簡單地堆砌算力。

三、新思路前面是夸也夸了，踩也踩了，但歸根到底，筆者認(rèn)為這些都并非o1的最重要價(jià)值。雖然看起來并非OAI眼中的重點(diǎn)，但在材料中多次提到了一個(gè)很重要的點(diǎn)，就是o1更適用于科學(xué)、編碼、數(shù)學(xué)和類似領(lǐng)域的復(fù)雜問題，或者更確切說，是復(fù)雜問題中的繁瑣工作，尤其是多步歸納或者演繹推理。例如，“醫(yī)療保健研究人員可以使用 o1 來注釋細(xì)胞測序數(shù)據(jù)，物理學(xué)家可以使用 o1 生成量子光學(xué)所需的復(fù)雜數(shù)學(xué)公式，所有領(lǐng)域的開發(fā)人員可以使用 o1 來構(gòu)建和執(zhí)行多步驟工作流程。”

以前我們對人工智能的期待，往往是一個(gè)模型既有知識，又有智力，甚至還要有情感和創(chuàng)意，以至于模型的參數(shù)量和算力消耗不斷攀升。但也許這些目標(biāo)是要用各種不同的方法去解決，有些還可能是非技術(shù)方法。o1的未來也許確實(shí)會以某種方式提升原來多模態(tài)模型的世界理解能力，但其本身的核心價(jià)值，恰恰是一個(gè)與世界知識大幅解耦的推理模型。這一點(diǎn)在o1-mini上體現(xiàn)得更加徹底，作為一個(gè)低成本的小模型，尤其擅長編程這種不需要太多世界知識的多步嚴(yán)謹(jǐn)推理場景。

人類學(xué)習(xí)的過程，是先大量學(xué)習(xí)知識，通過神經(jīng)元的大量激活和連接形成智力，而具體的知識則往往會被忘記，類似張無忌學(xué)太極拳的過程。在解決不同問題過程中，除了以語言理解和邏輯推理能力為基礎(chǔ)，還要靠可信知識的查閱和引用，靠靈感創(chuàng)意的涌現(xiàn)，靠情感的人際連接和感應(yīng)……人工智能也不會僅僅是一個(gè)深度學(xué)習(xí)大模型，而會成為一個(gè)越來越“稀疏“而靈活的能力組合，甚至是一套人機(jī)協(xié)同的新機(jī)制。“做題”能力肯定是必要的，但學(xué)會了做題，離解決實(shí)際問題，還有相當(dāng)長的距離。

o1的出現(xiàn)，或許預(yù)示著這樣一個(gè)"能力稀疏化"的趨勢。未來的人工智能，會從單一的大模型，逐漸演化為知識、推理、創(chuàng)意、情感等不同能力模塊的靈活組合，并與人類形成更加緊密和高效的協(xié)作。o1只是一個(gè)開始，期待百花齊放的未來。