展會信息港展會大全

OpenAI o1:大進(jìn)步?小技巧?新思路?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-19 18:59:05   瀏覽:784次  

導(dǎo)讀:王鵬 騰訊研究院資深專家 經(jīng)過漫長的等待,OpenAI終于在9月12日發(fā)布了新模型O1,用戶可以直接訪問預(yù)覽版o1-preview,或者小尺寸版o1-mini。其醞釀了快一年的大招,一會兒Q*、一會兒草莓、一會兒AGI、一會兒GPT5,耗得核心技術(shù)團(tuán)隊(duì)都快走光了,才終于拿出來讓...

王鵬騰訊研究院資深專家

經(jīng)過漫長的等待,OpenAI終于在9月12日發(fā)布了新模型O1,用戶可以直接訪問預(yù)覽版o1-preview,或者小尺寸版o1-mini。其醞釀了快一年的大招,一會兒Q*、一會兒草莓、一會兒AGI、一會兒GPT5,耗得核心技術(shù)團(tuán)隊(duì)都快走光了,才終于拿出來讓所有人檢驗(yàn)和評論。這樣一個(gè)備受矚目的產(chǎn)品,勢必對行業(yè)甚至社會產(chǎn)生深遠(yuǎn)的影響。而且它不像平時(shí)那些版本更新一樣,只是簡單的技術(shù)能力提升,而需要從多個(gè)視角和維度去觀察和預(yù)測其影響。

一、大進(jìn)步

與GPT-4o相比,o1-preview在解決數(shù)學(xué)和編程問題上的能力提升了5倍以上,而還未放出的o1則超過8倍!在解決博士級別科學(xué)題目的時(shí)的成功率,都已經(jīng)超過了人類專家的水平。理化競賽能力都超過了人類博士的水平;在國際數(shù)學(xué)奧林匹克(IMO)資格考試中,GPT-4o 只正確解決了 13% 的問題,而推理模型的得分為 83%;編程能力在Codeforces 競賽中超過了 89%的人類選手 。o1看起來在包括科學(xué)在內(nèi)的各個(gè)領(lǐng)域都超過人類的最強(qiáng)能力,不難理解奧特曼之前對實(shí)現(xiàn)AGI的滿滿自信。

在實(shí)際操作中,可以看出新模型的推理過程與之前有很大區(qū)別。我們可以看到多了一個(gè)可以打開和關(guān)閉的Show chain of thought(顯示思路)框,顯示了整個(gè)思維過程。類似于人類在回答難題之前的長時(shí)間思考,o1 在嘗試解決問題時(shí)會通過思考將問題分解,并步步為營,反復(fù)思考每個(gè)小任務(wù),認(rèn)識并糾正錯(cuò)誤。當(dāng)一個(gè)方法不起作用時(shí),它會嘗試另一種方法,從而極大提高了模型的推理能力。

在這些激動(dòng)人心的能力進(jìn)展背后,一系列被大家長期猜測的技術(shù)進(jìn)展也一一被驗(yàn)證。

1、思維鏈

CoT(Chain of thought,思維鏈),是學(xué)者們發(fā)現(xiàn)的能夠激發(fā)大模型通過“思考”來回答困難問題的技術(shù),可以顯著提高其在推理等任務(wù)上的正確率。這個(gè)思路在兩年前的幾篇經(jīng)典論文中已經(jīng)得到不斷完善。

《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,NeurIPS2022》這篇文章提出,在問LLM問題前,手工在prompt里面加入一些包含思維過程(Chain of thought)的問答示例(Manual CoT),就可以讓LLM在推理任務(wù)上大幅提升。

《Large language models are zero-shot reasoners. NeurIPS2022》提出先使用 “Let's think step by step.” 讓模型自己給出推理過程(Zero-shot CoT ),也衍生出諸如“一步一步慢慢來“這些著名的咒語。

《Automatic Chain of Thought Prompting in Large Language Models,ICLR2023》這篇文章可以理解為二者的結(jié)合,先用 “Let's think step by step.” 咒語產(chǎn)生推理過程,再把這些過程加到prompt里面去引導(dǎo)大模型推理。這樣不需要自己寫,又能相對靠譜。

在這些之后,CoT還經(jīng)歷了千變?nèi)f化的演進(jìn),但大都還是通過prompt來誘導(dǎo)大模型分步思維,人們就在想,能不能讓大模型自己學(xué)會這種方法呢?

2、強(qiáng)化學(xué)習(xí)和自學(xué)推理

類似當(dāng)年的Alpha-Zero,強(qiáng)化學(xué)習(xí)是讓機(jī)器自己通過與環(huán)境交互并觀察結(jié)果的方式調(diào)整行為策略的機(jī)器學(xué)習(xí)方法,但之前很難用于語言模型。直到斯坦福大學(xué) 2022 年提出一種「自學(xué)推理」(Self-Taught Reasoner,STaR)方法:先給模型一些例題詳細(xì)解法,再讓模型學(xué)著去解更多的題,如果做對就把方法再補(bǔ)充到例題里,形成數(shù)據(jù)集,對原模型微調(diào),讓模型學(xué)會這些方法,這也是一種經(jīng)典的自動(dòng)生成數(shù)據(jù)的方法。

后來基于此又演進(jìn)出了名為"Quiet-STaR"的新技術(shù),也就是傳說中的Q*,翻譯過來大概為"安靜的自學(xué)推理"。核心為在每個(gè)輸入 token 之后插入一個(gè)"思考"步驟,讓大模型生成內(nèi)部推理。然后,系統(tǒng)會評估這些推理是否有助于預(yù)測后續(xù)文本,并相應(yīng)地調(diào)整模型參數(shù)。這種方法允許模型在處理各種文本時(shí)都能進(jìn)行隱含的推理,而不僅僅是在回答問題時(shí)。

用人話說呢,加入強(qiáng)化學(xué)習(xí)就是在大模型訓(xùn)練時(shí)就教他一些套路(當(dāng)然應(yīng)該也是模型自己生成并優(yōu)選的),思考時(shí)直接就按題型選套路分解問題、按步驟執(zhí)行、反復(fù)審核,不行就換個(gè)套路,跟通常教小學(xué)生普奧的套路類似。但這種自學(xué)習(xí)機(jī)制,由于獎(jiǎng)勵(lì)模型的復(fù)雜,所以通常僅在數(shù)學(xué)和代碼領(lǐng)域表現(xiàn)較好。

3、Scaling Law的延伸

以上技術(shù)手段結(jié)合的后果就是,預(yù)訓(xùn)練階段并沒有什么變化,但在推理階段的計(jì)算量大大增加,原來追求的快思考變成了故意放慢速度,以追求更加準(zhǔn)確的結(jié)果。

OpenAI 提及了自己訓(xùn)練中發(fā)現(xiàn)的一個(gè)現(xiàn)象:隨著更多的強(qiáng)化學(xué)習(xí)(訓(xùn)練時(shí)計(jì)算)和更多的思考時(shí)間(推理時(shí)計(jì)算),o1 的性能能持續(xù)提高。

英偉達(dá)AI領(lǐng)導(dǎo)者 Jim Fan 在 X 上點(diǎn)評了這一事件的歷史意義模型不僅僅擁有訓(xùn)練時(shí)的 scaling law,還擁有推理層面的 scaling law,雙曲線的共同增長,將突破之前大模型能力的提升瓶頸。“之前,沒人能將 AlphaGo 的成功復(fù)制到大模型上,使用更多的計(jì)算讓模型走向超人的能力。目前,我們已經(jīng)翻過這一頁了。”

可以預(yù)見,在預(yù)訓(xùn)練邊際成本遞減的背景下,基于強(qiáng)化學(xué)習(xí)的推理增強(qiáng)會越來越受到重視并發(fā)揮作用,也會有更多的算力被投入到推理階段,全球人工智能芯片和算力的需求也還會繼續(xù)增加。

二、小技巧不可否認(rèn),o1代表了人工智能領(lǐng)域的一次重要進(jìn)步。但細(xì)細(xì)回顧過去一年奧特曼的言行,以及OpenAI的組織架構(gòu)和核心團(tuán)隊(duì)的變化,不免讓人產(chǎn)生一些疑慮:這個(gè)故事會不會有些許夸大其詞之處?會不會是借助一系列小技巧,來維持公司估值的增長和資源的獲取呢?

1、技術(shù)壁壘

無論是Sora還是o1,其實(shí)都是基于已有科研成果的工程創(chuàng)新,并沒有多高的技術(shù)壁壘。OpenAI最大的貢獻(xiàn)還是堅(jiān)定而不計(jì)成本地率先實(shí)踐。跟Sora一樣,一旦OAI明確了技術(shù)方向,工程復(fù)現(xiàn)大概率只是時(shí)間問題,而OAI在所有方向上卷贏全球簡直是不可能完成的任務(wù)。況且以這幾天全網(wǎng)的測試情況,模型效果只能說差強(qiáng)人意,很多場景下還不如其他工程手段下思維鏈方法的結(jié)果(如Claude3.5),甚至可以說經(jīng)常只是概率稍大的抽卡,實(shí)用價(jià)值還很難確定。另外,也許是為了避免友商的窺探和抄襲,或者是因?yàn)殚_放的思維過程存在安全性問題,OpenAI并未向用戶開放整個(gè)思維鏈細(xì)節(jié),但仍有研究者在很短時(shí)間內(nèi)宣稱復(fù)現(xiàn)了與之類似的推理能力。

可以想象,后面各大廠商都會開始卷推理,陸續(xù)推出“深思熟慮”版的模型,快速拉齊水平,而如果OpenAI后面再?zèng)]有拿得出手的底牌,仍然難以扭轉(zhuǎn)本輪模型競賽到頂?shù)睦Ь场?/strong>

2、成本

去年已經(jīng)基本完成的模型拖延了這么久才面世,除了眾所周知的安全原因外,可能是因?yàn)?strong>o1和Sora一樣,算力消耗過于巨大而并不具備大規(guī)模商用的可行性。面對這一挑戰(zhàn),奧特曼團(tuán)隊(duì)一直在嘗試尋找解決方案。他們等待了很長時(shí)間,希望算力成本能夠隨著技術(shù)進(jìn)步而下降。同時(shí),他們也在全球范圍內(nèi)四處融資,籌集資金來購買或租賃更多的計(jì)算資源。然而,即使經(jīng)過了這些努力,推出的產(chǎn)品仍然單次推理動(dòng)輒需要數(shù)分鐘甚至數(shù)十分鐘,單價(jià)高出4o數(shù)倍,token消耗也經(jīng)常會提升數(shù)倍。

這些因素導(dǎo)致了一個(gè)尷尬的局面:科研貢獻(xiàn)暫時(shí)遠(yuǎn)大于商業(yè)價(jià)值。在這樣的背景下,OpenAI的行業(yè)地位和估值能否維持,變得相當(dāng)不確定。高昂的研發(fā)和運(yùn)營成本,加上商業(yè)化受阻,可能會影響投資者的信心和市場預(yù)期。

3、方法論

如果說前面兩點(diǎn)商業(yè)視角的質(zhì)疑對一路引領(lǐng)的OAI有一些不公平,那么這個(gè)方法論是不是真的如其所說,能達(dá)到甚至超過各STEM領(lǐng)域的“博士水平”,其實(shí)也是值得進(jìn)一步討論和驗(yàn)證的。從原理上說,這種思路還是在“大力出奇跡”的Scaling Law基礎(chǔ)上繼續(xù)疊加buff,引入類似蒙特卡洛樹搜索等暴力方法多路徑嘗試推理,某種意義上是在用文科方法解決理科問題。類似之前的AutoGPT類應(yīng)用,面向復(fù)雜問題,如果不對思維鏈的搜索空間進(jìn)行嚴(yán)格限制和引導(dǎo),可能會陷入漫無邊際的發(fā)散,消耗大量算力仍然無法得到需要的結(jié)果。

如前文提到,這種方法有些類似面向普通學(xué)生的“普奧”中常用的套路式教學(xué),更多依賴記憶和模式匹配,而并非對問題本質(zhì)的深刻理解和創(chuàng)造性思維。就連9.11和9.8誰大都還要琢磨半天,還有相當(dāng)大概率答錯(cuò)。這種方法培養(yǎng)出的AI,恐怕更像是一個(gè)只會刷題刷分的"小鎮(zhèn)做題家",而非真正具有洞見和創(chuàng)新能力的"博士",畢竟只有“做題”過程的訓(xùn)練數(shù)據(jù)好找。

誠然,在現(xiàn)實(shí)中,大量的科研工作確實(shí)涉及重復(fù)性、機(jī)械性的任務(wù),這部分工作如果能夠由AI來承擔(dān),無疑會極大地提高科研效率。但科研的核心仍然在于創(chuàng)新,在于對未知問題的探索和對新知識的發(fā)現(xiàn)。這需要的是靈感、創(chuàng)造力和邏輯推理能力,而非單純的計(jì)算能力。

正如《Large Language Monkeys: Scaling Inference Compute》一文所指出的,僅僅通過增加生成樣本的數(shù)量來擴(kuò)展推理計(jì)算,本質(zhì)上并沒有改變大型語言模型的基本屬性,它仍然是一個(gè)基于統(tǒng)計(jì)概率進(jìn)行"打字"的"猴子"。要真正實(shí)現(xiàn)通用人工智能,實(shí)現(xiàn)在科學(xué)領(lǐng)域的突破性進(jìn)展,我們可能需要在算法和架構(gòu)上尋求更加本質(zhì)的創(chuàng)新,而不是簡單地堆砌算力。

三、新思路前面是夸也夸了,踩也踩了,但歸根到底,筆者認(rèn)為這些都并非o1的最重要價(jià)值。雖然看起來并非OAI眼中的重點(diǎn),但在材料中多次提到了一個(gè)很重要的點(diǎn),就是o1更適用于科學(xué)、編碼、數(shù)學(xué)和類似領(lǐng)域的復(fù)雜問題,或者更確切說,是復(fù)雜問題中的繁瑣工作,尤其是多步歸納或者演繹推理。例如,“醫(yī)療保健研究人員可以使用 o1 來注釋細(xì)胞測序數(shù)據(jù),物理學(xué)家可以使用 o1 生成量子光學(xué)所需的復(fù)雜數(shù)學(xué)公式,所有領(lǐng)域的開發(fā)人員可以使用 o1 來構(gòu)建和執(zhí)行多步驟工作流程。”

以前我們對人工智能的期待,往往是一個(gè)模型既有知識,又有智力,甚至還要有情感和創(chuàng)意,以至于模型的參數(shù)量和算力消耗不斷攀升。但也許這些目標(biāo)是要用各種不同的方法去解決,有些還可能是非技術(shù)方法。o1的未來也許確實(shí)會以某種方式提升原來多模態(tài)模型的世界理解能力,但其本身的核心價(jià)值,恰恰是一個(gè)與世界知識大幅解耦的推理模型。這一點(diǎn)在o1-mini上體現(xiàn)得更加徹底,作為一個(gè)低成本的小模型,尤其擅長編程這種不需要太多世界知識的多步嚴(yán)謹(jǐn)推理場景。

人類學(xué)習(xí)的過程,是先大量學(xué)習(xí)知識,通過神經(jīng)元的大量激活和連接形成智力,而具體的知識則往往會被忘記,類似張無忌學(xué)太極拳的過程。在解決不同問題過程中,除了以語言理解和邏輯推理能力為基礎(chǔ),還要靠可信知識的查閱和引用,靠靈感創(chuàng)意的涌現(xiàn),靠情感的人際連接和感應(yīng)……人工智能也不會僅僅是一個(gè)深度學(xué)習(xí)大模型,而會成為一個(gè)越來越“稀疏“而靈活的能力組合,甚至是一套人機(jī)協(xié)同的新機(jī)制。“做題”能力肯定是必要的,但學(xué)會了做題,離解決實(shí)際問題,還有相當(dāng)長的距離。

o1的出現(xiàn),或許預(yù)示著這樣一個(gè)"能力稀疏化"的趨勢。未來的人工智能,會從單一的大模型,逐漸演化為知識、推理、創(chuàng)意、情感等不同能力模塊的靈活組合,并與人類形成更加緊密和高效的協(xié)作。o1只是一個(gè)開始,期待百花齊放的未來。

<strong class="js_darkmode__6" data-style="caret-color: rgba(0, 0, 0, 0); color: rgb(0, 0, 0); font-family: -apple-system, BlinkMacSystemFont, " helvetica="" neue",="" "pingfang="" sc",="" "hiragino="" sans="" gb",="" "microsoft="" yahei="" ui",="" yahei",="" arial,="" sans-serif;="" letter-spacing:="" 0.544px;="" background-color:="" rgb(255,="" 255,="" 255);"="" style="color: rgb(0, 0, 0); letter-spacing: 0.544px">

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港