當前位置：人工智能實驗室> 人工智能動態(tài) > 全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團隊

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團隊
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-24 18:57:41 瀏覽：1069次

導讀：前段時間 OpenAI 發(fā)布了針對復雜推理問題的大模型o1，也就是草莓模型。這款大模型一經(jīng)發(fā)布就引起巨大的關(guān)注，但基本上都是關(guān)于使用和測評的。這篇文章，我們就來看看，o1模型的背后，其創(chuàng)新、原理分別是什么。 60s速讀簡介：o1是OpenAI 9月12日發(fā)布的針對復...

前段時間 OpenAI 發(fā)布了針對復雜推理問題的大模型o1，也就是草莓模型。這款大模型一經(jīng)發(fā)布就引起巨大的關(guān)注，但基本上都是關(guān)于使用和測評的。這篇文章，我們就來看看，o1模型的背后，其創(chuàng)新、原理分別是什么。

60s速讀

簡介：o1是OpenAI 9月12日發(fā)布的針對復雜推理問題的全新大模型，也就是Sam一直說的“草莓”。該模型在回答問題之前能夠進行更長時間的“思考”，且思考時間越長，推理質(zhì)量越高。

原理：基于強化學習的內(nèi)化思維鏈學習，通過思維鏈式的問題拆解，模型可以不斷驗證和糾錯。

表現(xiàn)：o1模型在編程、數(shù)學、物理和化學博士級問題等任務上提升顯著，但在寫作等任務上表現(xiàn)不如GPT4o。

構(gòu)成：o1系列包括o1、o1-preview和o1-mini。o1暫未公開，o1-preiview 付費用戶和API用戶已經(jīng)可以使用。o1-mini 速度更快、性價比更高。

影響：新的Scaling Laws已經(jīng)出現(xiàn)。

Ilya 一句話概括強化學習：讓 AI 用隨機的路徑嘗試新的任務，如果效果超預期，那就更新神經(jīng)網(wǎng)絡的權(quán)重，使得 AI 記住多使用這個成功的事件，再開始下一次的嘗試。

Self-play：本質(zhì)是利用 AI 無限的計算能力來補足它數(shù)據(jù)利用效率不夠的短板。

Critic Model：通過將推理過程進行過程分解，并且利用額外的更強更專項的Critic Model，可以將推理過程的監(jiān)督擴展到更復雜的問題上。

技術(shù)路線猜想：1. MCTS搜索；2. PRM僅在答案不可接受時進行MCTS搜索，或者用的是更節(jié)約的Beam Search；3. 迭代式的Bootstrap模型產(chǎn)生合理推理的能力，并將 Rationales 融入到訓練過程內(nèi)，讓模型學會進行推理，類似于STaR的擴展版本。

逆向工程：由合成數(shù)據(jù)生成器、獎勵函數(shù)、策略優(yōu)化器等模塊構(gòu)成。

相關(guān)論文：Let’s Verify Step by Step、STaR、rStar、Quiet-STaR。

團隊：o1 的21個 Foundational 貢獻者呈現(xiàn)出了高學歷、高包容性、多元化的特點：華人占比6/21，博士為主，但也有人有�？平�(jīng)歷。

Github o1相關(guān)資料匯總：https://github.com/hijkzzz/Awesome-LLM-Strawberry

一、背景：OpenAI為什么現(xiàn)在發(fā)布新模型o1？

雖然OpenAI 2024年年化營收預計將從前一年的20億美元大幅增長至約35億美元，但仍無法覆蓋其90億的推理、訓練成本。

目前來說，OpenAI訂閱的商業(yè)模式很難稱得上是一個好的變現(xiàn)手段，更無法與廣告這一互聯(lián)網(wǎng)時代最佳商業(yè)模式相提并論。

（OpenAI營收變化趨勢，來源：tooltester）

在營收構(gòu)成上，C端用戶訂閱、企業(yè)用戶、API和ChatGPT Team業(yè)務分別占營收的55%、21%、15%和8%。

（OpenAI營收構(gòu)成，來源：tooltester）

據(jù)The Information測算，在一年虧損50億美元的情況下，OpenAI的現(xiàn)金流可能在未來一年內(nèi)耗荊因此，繼續(xù)融資成為了OpenAI必然的選擇。據(jù)彭博社消息，OpenAI目前正在商談以1500億美元的估值融資65億，這一估值遠高于去年10月時的860億美元。

除此之外，首席科學家Ilya等核心人才出走，流量增長放緩，Sora“期貨”遲遲未兌現(xiàn)，GPT-5不停跳票，大語言模型預訓練Scaling Law的邊際效益遞減，增長空間被質(zhì)疑……在OpenAI發(fā)布o1模型之前，由ChatGPT發(fā)布引領(lǐng)的大模型革命陷入了前所未有的低谷。

與此同時，OpenAI的主要競爭對手之一Anthropic ，從落后于 OpenAI 18 個月，在o1發(fā)布前已經(jīng)在模型層面追平，甚至有微弱的領(lǐng)先優(yōu)勢了。Anthropic 6月發(fā)布的 Claude-3.5-Sonnet ，支持寫200行可靠的代碼，遠超4o的20 行。

如下圖所示，OpenAI自2022年11月ChatGPT發(fā)布以來的流量增長已經(jīng)幾乎停滯。

（ChatGPT訪問量變化趨勢，來源：tooltester）

與此相對應的，一二級市場的AI熱潮正在持續(xù)降溫。

一級市場方面，VC資金對AI初創(chuàng)公司投資占比在持續(xù)上升，占比接近30%，但是在金額上已經(jīng)回落到2020年的水平，降幅明顯。

（VC對AI初創(chuàng)公司的投資金額和占比，來源：硅谷科技評論）

二級市場上，投資者的AI抱團追漲行情開始有了瓦解的跡象，以英偉達等公司為代表的美股AGIX指數(shù)從高點開始回落，幾乎回到了半年前的水平。

（AGI指數(shù)，來源：海外獨角獸）

在這樣的背景下，通過全新的大模型o1給投資人“畫餅”成為了OpenAI絕佳的選擇。

二、現(xiàn)象：o1模型的超強推理能力1. OpenAI的模型迭代史

作為OpenAI在2023年GPT4發(fā)布以來最重要的模型更新，o1在數(shù)學、代碼等方面推理能力顯著提升。

（OpenAI的主要大模型及其發(fā)布時間，來源：tooltester）

2. 數(shù)據(jù)：o1在STEM領(lǐng)域表現(xiàn)出色，特別是在數(shù)學和編程方面

2.1 數(shù)學方面，在2024年的AIME（一個旨在挑戰(zhàn)美國最聰明高中生的考試）測評中，GPT-4o只解決了13%的問題，o1的得分是83%。

2.2 編碼方面，GPT-4o在競爭性編程問題(Codeforces)上的得分是11%，o1 是89%。

2.3 在博士級別的科學問題(GPQA Diamond)，GPT4o是56.1%，o1則超越人類博士69.7%，達到了恐怖的78%。

（o1與gpt4o的對比，來源：OpenAI官網(wǎng)）

2.4 在啟用視覺感知功能時，多模態(tài)o1在MMMU上得分為78.2%，成為第一個與人類專家競爭的模型。在博士級別的科學問題上，特別是物理和化學領(lǐng)域，o1更是大幅領(lǐng)先人類博士。

2.5 在IOI（國際信息學奧林匹克競賽）中在每題 50 次提交的條件下取得了第 49%/213分。在每題10,000次提交的情況下，該模型的得分達到了362，超過了金牌門檻。

（o1與gpt4o的對比，來源：OpenAI官網(wǎng)）

2.6 安全性

衡量安全性的一種方法是測試模型在用戶試圖繞過安全規(guī)則時（稱為“越獄”）是否繼續(xù)遵守這些規(guī)則。在最困難的越獄測試中，GPT-4o 得分為 22/100，而o1-preview 模型得分為 84/100。

2.7 不足

通用人工智能的核心是通用和泛化性，但o1在寫作、文字編輯等一些簡單的自然語言處理任務上并沒有顯著提升，這意味著o1的適用范圍有一定的局限性。

3. 創(chuàng)新：self-play RL+內(nèi)化COT

作為首個通過大規(guī)模強化學習算法訓練的模型，o1能夠在回答之前深入思考問題。o1不再需要由用戶輸入復雜的COT提示詞，而是通過強化學習的方式，將思維鏈內(nèi)化之后進行持續(xù)訓練。

通過思維鏈式的問題拆解，模型可以不斷驗證、糾錯，嘗試新的方法，這一過程顯著提升了模型的推理能力。

o1的性能隨著更多的強化學習（訓練時間計算）和更多的思考時間（測試時間計算）而持續(xù)提高。

（o1 性能隨著訓練時間和測試時間計算而平穩(wěn)提升，來源：OpenAI官網(wǎng)）

通過強化學習+內(nèi)化思維鏈的方式，o1不僅在量化的推理指標上有了顯著提升，在定性的推理可解釋性上也有了明顯的改善。可信的思維鏈使模型變得可解釋，讓用戶可以用簡單的英語“讀懂模型的思維。

內(nèi)化的思維鏈為監(jiān)控模型提供了獨特的機會。假設它是忠實且清晰的，內(nèi)化的思維鏈允許OpenAI“讀取”模型的思考過程。未來OpenAI可能希望監(jiān)控思維鏈是否有操控用戶的跡象。為了實現(xiàn)這一目標，模型必須能夠以未經(jīng)修改的形式表達其思想，因此OpenAI不能在思維鏈上訓練任何政策合規(guī)性或用戶偏好。

4. 通俗的理解：系統(tǒng)1與系統(tǒng)2

可以這樣理解，模型進行的是系統(tǒng)1思維，而思維鏈則解鎖了系統(tǒng)2思維。

眾所周知，通過提示模型“逐步思考”可以提升大模型的性能。而通過強化學習訓練，逐步拆解問題并從頭到尾持續(xù)試錯，將會進一步大幅提升大模型的性能。正如我們之前在圍棋方面的AlphGo以及其它游戲方面的算法模型上所看到的。

系統(tǒng)1與系統(tǒng)2來自諾貝爾經(jīng)濟學獎得主丹尼爾卡尼曼的《思考，快與慢》，其核心觀點包括：

系統(tǒng) 1：快速、直觀、自動的思維方式。

這種思維模式通常是無意識的，依賴于直覺和經(jīng)驗，能迅速做出反應。例如，看到一個熟悉的面孔時，我們幾乎無需思考便能認出它。

系統(tǒng) 2：慢速、深思熟慮、邏輯性的思維方式。

這種思維模式需要有意識的努力和思考，用于解決復雜問題或做出深思熟慮的決策。例如，解決數(shù)學題或計劃長期目標時，我們會調(diào)動系統(tǒng) 2 的思維。

（系統(tǒng)1與系統(tǒng)2的對比，來源：簡書）

5. 案例

案例網(wǎng)上很多，這里只簡單提下“草莓”這個最經(jīng)典的案例。

草莓的梗最初是因為人們測試GPT系列的時候，發(fā)現(xiàn)了模型無法數(shù)對草莓這個單詞里面的r的數(shù)量。而OpenAI的新模型可以通過self-play的方式提升模型Reasoning的能力，從而數(shù)對r的數(shù)量。于是這個名叫草莓的模型就開始在網(wǎng)上不斷發(fā)酵，并在Sam各種有意無意的暗示中升溫。

6. 業(yè)界關(guān)于o1模型的正負面觀點

6.1 正面觀點

Jason Wei，OpenAI研究員，COT作者：

“通過將復雜步驟分解為更簡單的步驟、識別和糾正錯誤，以及嘗試不同的方法，o1 的表現(xiàn)完全令人驚嘆，游戲規(guī)則已經(jīng)被徹底重新定義。”

楊植麟，Kimi創(chuàng)始人：

“規(guī)模定律之后，大模型發(fā)展的下一個范式是強化學習。對于通用智能AGI來講，可能會有三個層面：最底層是規(guī)�；桑@是第一個層次的創(chuàng)新機會，它被OpenAI發(fā)現(xiàn)，并且做到極致。第二個層次的創(chuàng)新機會，就是Scaling law框架下有一些問題沒有解決，比如怎么把所有的模態(tài)用統(tǒng)一的表示放到同一個模型里面去？這是第二個層次的挑戰(zhàn)。第三層次的問題，比如能夠去做更長的上下文，能夠有更強的 reasoning 或者 instruction-following 。

決定這一代AI技術(shù)的上限，核心是文本模型能力的上限，如果文本模型能持續(xù)提升智商，就能做越來越復雜的任務。AI產(chǎn)品的能力由模型能力的決定，這和互聯(lián)網(wǎng)時代有本質(zhì)不同，模型能力不強，產(chǎn)品體驗就不會好。AI時代的超級應用，大概率會是一個AI助理。這一代AI最大的變量，還是在生產(chǎn)力端�，F(xiàn)在社會里面每一單位的生產(chǎn)力可能都會有十倍提升的機會。”

肖仰華，復旦計算機科學技術(shù)學院教授、博導：

“o1模型的出現(xiàn)意味著大模型的推理能力完全能夠達到專家級水平，算得上是人工智能里程碑式的進展，將給模型在企業(yè)端的應用帶來極大的提升。但隨著模型在知性、感性和理性三方面的能力均不斷提升后，其將超越人類的能力，未來人工智能將對人類產(chǎn)生何種影響還很難預測，人工智能的發(fā)展速度現(xiàn)在超過了人類對其認知的速度，人工智能治理將是一個巨大挑戰(zhàn)。

大規(guī)模強化學習算法教會模型如何在訓練過程中有效使用其思維鏈進行思考，o1模型可以在回應用戶之前產(chǎn)生一個很長的內(nèi)部思維鏈。以前的大語言模型更像一個文科生，距離理科生的水平仍然較遠。但人類智能的核心能力是思考和思維，OpenAI新推理模型o1系列將人的思維過程展現(xiàn)出來。

我們發(fā)現(xiàn)o1的表現(xiàn)超過了一些人類專家，成為第一個在這個基準上做到這一點的模型。這些結(jié)果并不意味著o1在所有方面都比博士更有能力，只是模型在解決博士需要解決的一些問題方面更熟練。人類目前對人工智能基本認知框架都有所欠缺，這是一個巨大的治理挑戰(zhàn)，就業(yè)、經(jīng)濟、倫理、社會關(guān)系等話題將引起廣泛討論。”

6.2 負面觀點

復旦NLP實驗室：

“博士級”模型GPT-o1折戟中學數(shù)學“陷阱”問題，準確率僅為24.3%

我們的最新研究結(jié)果卻給這個”AI天才”潑了一盆冷水在面對中學數(shù)學水平的”陷阱”問題時，GPT-o1慘遭滑鐵盧：在我們最新的中學陷阱問題測試集MathTrap_Public上，調(diào)用GPT-o1-preview官方API后生成的回答準確率僅為24.3% 。

我們在 GSM8K 和 MATH 數(shù)據(jù)集問題的基礎上，加入了一些“陷阱”，構(gòu)造了 MathTrap 數(shù)據(jù)集。這些改編后的題目很多時候沒有定義明確的答案或者無解，只有能夠同時理解原題和“陷阱”所涉及知識的模型，才能找出其中的矛盾點，發(fā)現(xiàn)“陷阱”所在。

因此，單靠“刷榜”來提高在 GSM8K 和 MATH 上的成績，是沒辦法在 MathTrap 上取得好成績的，因為這些模型缺乏質(zhì)疑題目條件的能力。

相關(guān)研究：Exploring the Compositional Deficiency of Large Language Models in Mathematical Reasoning Through Trap Problems

7. 如何使用

7.1 ChatGPT付費用戶

ChatGPT Plus和Team用戶從9月12日可以開始在ChatGPT中訪問o1模型。o1-preview和o1-mini可以在模型選擇器中手動選擇，o1-preview的每周消息限制為50條，o1-mini 為每天50條。ChatGPT Enterprise 和 Edu 用戶將在下周開始訪問這兩個模型。

符合 API 使用等級 5 的開發(fā)者可以立即開始在 API 中使用這兩個模型，限制為每分鐘 20 次請求。OpenAI還計劃將 o1-mini 的訪問權(quán)限擴展到所有 ChatGPT 免費用戶。

7.2 非ChatGPT付費用戶

Cursor已經(jīng)支持了最新的o1模型，沒有ChatGPT會員權(quán)限的可以通過這個產(chǎn)品進行體驗。

8. 影響和意義

8.1 對大模型行業(yè)的影響

新的Scaling Laws Post-Training Scaling Laws（后訓練擴展定律）已經(jīng)出現(xiàn)，并可能引發(fā)行業(yè)對于算力分配、后訓練能力的重新思考。

o1 模型的發(fā)布，意味著 AI 能力的提升不再局限于預訓練階段，還可以通過在 Post-Training 階段中提升 RL 訓練的探索時間和增加模型推理思考時間來實現(xiàn)性能提升，即 Post-Training Scaling Laws。

數(shù)據(jù)飛輪 + Bootstrap -> SuperIntelligence : 基于自我反思的模型將能夠?qū)崿F(xiàn)自舉 Bootstrap，并提升大大提升模型對于未見過的復雜問題的解決能力，模型的推理過程形成大量高質(zhì)量數(shù)據(jù)的飛輪，并最終有可能向 SuperIntelligence 更進一步。

8.2 AI能力的等級躍遷

AI開始具備推理能力，且復雜問題的解決能力可以與人類相媲美，這意味著AI從僅能利用工具和規(guī)則的 Level 1 水平開始進化到了 Level 2 的階段，并向第3階段開始探索。

（5 Levels Of AI Agents，來源：cobusgreyling）

8.3 對從業(yè)人員的影響

1）AI產(chǎn)品經(jīng)理的危與機

危：一方面，隨著o1將思維鏈內(nèi)化進模型，大幅降低了提示詞工程的難度。這意味著AI產(chǎn)品經(jīng)理未來大概率不再需要設計復雜的提示詞，剛剛興起1年多的“提示詞工程師”崗位風雨飄搖，AI產(chǎn)品經(jīng)理也同樣將因此受到很大的沖擊。

之前解決復雜問題，需要人寫非常復雜的Prompt，而o1本質(zhì)上是COT等復雜Prompt的自動化，所以之后是不需要用戶自己構(gòu)造復雜Prompt的。

機：另一方面，隨著o1代碼能力的大幅提升，代碼編寫的門檻得到了一定程度的降低，AI產(chǎn)品經(jīng)理有機會設計、開發(fā)、上線一條龍完成，大大提升AI產(chǎn)品MVP迭代的效率。

2）工程

雖然AI取代工程開發(fā)還言之尚早，但大模型在短時間內(nèi)的進步之大還是讓人震驚，初級開發(fā)的門檻與AI越來越模糊。也許在不遠的將來，英文就將成為最流行的編程語言。

而短期來說，工程開發(fā)的效率有望借助o1模型和Cursor等工具產(chǎn)品進一步提升。

3）算法

雖然強化學習算法在InstructGPT的論文中就已經(jīng)被提及，但之前更多是作為RLHF基于人類反饋的強化學習的視角進行切入，很少作為單獨的方向被重點提出。

o1模型發(fā)布后，強化學習的重要性大大提高，其在大模型領(lǐng)域的應用有望成為接下來一段時間國內(nèi)大模型公司混戰(zhàn)的新焦點。

三、背后：技術(shù)原理與相關(guān)論文1. 基礎知識

1.1 強化學習

機器學習算法主要分為監(jiān)督學習、無監(jiān)督學習和強化學習三類。無監(jiān)督學習相當于學生自學，沒有任何老師指導，完全依靠學生自己琢磨；監(jiān)督學習相當于有老師指導，有明確對錯的學習；強化學習則是做對題目有獎勵，做錯題目有懲罰的學習。

強化學習（Reinforcement Learning，RL）是一種基于反饋的學習方法，對算法執(zhí)行的正確和不正確行為分別進行獎勵和懲罰的制度，目的是使算法獲得最大的累積獎勵，從而學會在特定環(huán)境下做出最佳決策。“強化”一詞來自于心理學，心理學中的“強化”就是通過提供一種刺激手段來建立或者鼓勵一種行為模式。這種“強化”具體分為兩種：

積極強化，是指在預期行為呈現(xiàn)后，通過給予激勵刺激以增加進一步導致積極反應。

負面強化，通過提供適當?shù)拇碳頊p少出現(xiàn)負面(不希望的)反應的可能性，從而糾正不希望出現(xiàn)的行為。

想象一下，當你第一次自己玩超級馬里奧，你需要在游戲中不斷探索環(huán)境和重要的NPC，一個錯誤的舉動會導致失去一條“命”，一個正確的跳躍可以把我們帶到一個更安全的地方獲得金幣獎勵！在n次獎勵和懲罰的探索之后，你對于馬里奧游戲的熟練程度越來越高，操作的正確性大大提升，最終成為一個該游戲的高手。

1.2 Self-play

Self-play 是 AlphaZero 等強化學習算法的合成數(shù)據(jù)方法，最早可以追溯到 1992 年的 TD-Gammon 算法，其本質(zhì)是利用 AI 無限的計算能力來補足它數(shù)據(jù)利用效率不夠的短板。

以 AlphaZero 為例，在每一局對弈中，模型使用蒙特卡洛樹搜索（Monte Carlo Tree Search，MCTS）來選擇動作。MCTS 結(jié)合了當前神經(jīng)網(wǎng)絡提供的策略（policy）和價值（value），從而在每個游戲狀態(tài)下評估出最優(yōu)的行動。其具體步驟如下：

1) 隨機初始化：模型從完全隨機初始化的狀態(tài)開始，沒有任何人類先驗知識。

2) self-play：模型自己與自己進行對弈，生成大量的游戲數(shù)據(jù)。其中好的結(jié)果用于更新模型的參數(shù)。

3) MCTS：在每一次對弈中，AlphaZero 會使用 MCTS 來搜索最佳動作。MCTS 使用策略網(wǎng)絡（policy network）提供的動作概率分布和價值網(wǎng)絡提供的局面評估結(jié)果來引導搜索。

4) 策略更新：根據(jù)自我對弈的結(jié)果，使用強化學習的方式來更新神經(jīng)網(wǎng)絡的參數(shù)，使得模型逐步學習到更優(yōu)的策略

1.3 Self-play強化學習、RLHF

早在2018 年，Ilya Sutskever就認為強化學習與 self-play 是通往 AGI 路上最關(guān)鍵的方法之一。Ilya 用一句話概括了強化學習：讓 AI 用隨機的路徑嘗試新的任務，如果效果超預期，那就更新神經(jīng)網(wǎng)絡的權(quán)重，使得 AI 記住多使用這個成功的事件，再開始下一次的嘗試。

1）傳統(tǒng)強化學習與self-play的區(qū)別：傳統(tǒng)強化學習與今天的 self-play 強化學習相比，最大的區(qū)別是強化學習算法模型（如AlphaZero）是一個千萬參數(shù)的神經(jīng)網(wǎng)絡，和今天的語言模型相差 3-4 個數(shù)量級。

2）Self-play 強化學習與RLHF 的區(qū)別：RLHF 的目的不是獲取機器智能，而是人機對齊，使得 AI 能夠更像人，但不能超越人成為超級智能。簡單來說：RLHF 像人類一樣，更喜歡好理解的東西，而不是喜歡邏輯更嚴密的內(nèi)容。而 self-play 強化學習的目標是如何提升邏輯能力，絕對強度更高，甚至超越最強人類、專家。

3）RLHF 的核心是通過強化學習訓練語言模型，但由于缺乏獎勵函數(shù)這一必要因素，因此需要通過收集人類的反饋來學習一個獎勵函數(shù)。

4）強化學習不是一個模型，而是一整套的系統(tǒng)，其中包含了很多因素，第一，強化學習包括了智能體，其中的 agent 就是模型。第二，包括了環(huán)境，環(huán)境可能是狗主人的家，也可能是編程環(huán)境，也可能是垂直領(lǐng)域。第三，包括了動作，是狗坐下，還是一些其他模態(tài)的輸出。第四，包括了獎勵模型，這也很重要。最重要的兩個因素是環(huán)境和智能體。智能體的目標是得到更多獎勵。

（強化學習構(gòu)成，來源：海外獨角獸）

強化學習在語言模型中的思路，本質(zhì)上是 inference time 換 training time 。

1.4 為什么 RLHF 的效果優(yōu)于 SFT？

PPO 算法的提出者是Berkeley PhD，OpenAI前研究員 John Schulman，他針對 RLHF PPO 提出了兩個觀點：

第一，SFT 會導致 hallucination ：

John Schulman 認為，大型模型之所以會產(chǎn)生幻覺，是因為它們在 SFT 階段學到了一些不正確的認知。SFT 過強的監(jiān)督信號導致人類實際上在引導 ChatGPT 說它不知道的東西。還有一種可能性，即 GPT 實際上知道答案，但標注人員不知道。

第二，RLHF 讓大模型“知道”自己“確實不知道”。

RLHF 的過程不僅幫助模型意識到不確定性，更重要的事情是 RLHF 幫助模型提高了 reasoning 能力。

只有通過正向和反向的雙重實驗，我們才可以判斷這種藥物對頭痛有效。如果只有正向的例子，例如說患者吃了感冒藥，感冒變好了，并不能證明感冒藥能治好感冒。只能說明，感冒藥與患者感冒的好轉(zhuǎn)有一定相關(guān)性。而 RLHF 正是成功利用了負向數(shù)據(jù)，使得模型有機會真正掌握因果性。

總結(jié)來說，RLHF 有以下優(yōu)勢：

使用 negative signal 進行對比學習，通過對比的過程可以幫助模型降低 halluciation。

強化學習不是一個固定的過程。它允許模型隨著能力的不斷提升，通過不斷地問問題、給出答案、評判，從而讓模型不停地從當前能力的邊界進行主動探索，并不斷拓寬自己的能力邊界。

這兩個因素共同作用能夠形成 counter-factual reasoning 的作用，有可能解鎖因果學習（casual learning）的巨大潛力，讓模型具備更強的 reasoning 能力。

1.5 PRM與ORM

PRM（Process reward model）是獎勵好的推理步驟，而不僅僅是正確的結(jié)果。這更接近人類的學習和推理方式，實現(xiàn)方式常常是用 COT 來表示推理過程，對每一步進行打分。這是因為 LLM 的語義理解能力才成為可能的。在傳統(tǒng) RL 中，我們按照最終結(jié)果評分，其評分模型稱為 ORM（outcome reward model）；而通過專門訓練 LLM 成為 process verifier ，新的評分模型叫做 PRM，往往是使較小 LLM fine-tune 得到。

OpenAI 的 verify step-by-step 也是最近最重要的 paper 之一。他們訓練的 PRM 在解決 MATH 數(shù)據(jù)集測試集中 78.2%的問題時表現(xiàn)優(yōu)于 ORM。在今年 Google Research 的一篇 paper 中提到，PRM 在過程中一旦成功發(fā)現(xiàn)第一個錯誤，就能使 RL 訓練效果顯著提升。

1.6 Critic Model

隨著任務復雜度的提高，僅僅依靠模型的自身推理能力可能無法提供有效的獎勵信號。這使得對于模型內(nèi)部的復雜推理過程的監(jiān)督變成了一個可擴展監(jiān)督問題。

具體來說，o1的隱式思維鏈的訓練過程中應當也引入了Critic的方法。通過將推理過程進行過程分解，并且利用額外的更強更專項的Critic Model，可以將推理過程的監(jiān)督擴展到更復雜的問題上。這也一定程度緩解了僅僅是通過推理過程能否導出正確結(jié)果的來確定獎勵信號的稀疏問題。

OpenAI的CriticGPT通過RLHF方法訓練模型能夠為真實世界中的代碼任務書寫自然語言反饋，并成功泛化到OOD（模型在訓練過程中沒有遇到過的數(shù)據(jù)）的分布上。這種反饋可以用來幫助人類進行更準確的評價，從而實現(xiàn)對于復雜輸出的有效獎勵反潰

2. 關(guān)于技術(shù)原理的猜想

2.1 OpenAI官方的“提示”

通過強化學習，o1 學會了精煉其思維鏈并優(yōu)化所用的策略。它學會了識別并糾正錯誤，將復雜的步驟分解為更簡單的部分，并在當前方法無效時嘗試不同的途徑。這一過程顯著提升了模型的推理能力。

o1 模型引入了推理標記。模型使用這些推理標記進行“思考”，分解對提示的理解并考慮多種生成響應的方法。生成推理標記后，模型會將答案生成為可見的完成標記，并從其上下文中丟棄推理標記。

以下是用戶與助手之間多步驟對話的示例。每個步驟的輸入和輸出標記都會被保留，而推理標記則會被丟棄。

（推理是如何進行的，OpenAI官網(wǎng)）

2.2 猜想1

張俊林：MCTS搜索技術(shù)路線

OpenAI o1提到了關(guān)于RL在訓練和推理時候的Scaling law，并指出這與預訓練時候的Scaling law具有不同特性。很明顯，如果o1走的是MCTS搜索技術(shù)路線，那么把COT拆分的越細（增加搜索樹的深度），或提出更多的可能選擇（節(jié)點的分支增多，就是說樹的寬度越寬），則搜索空間越大，找到好COT路徑可能性越大，效果越好，而訓練和推理的時候需要算力肯定越大�？瓷先ビ兄ЧS著算力增長而增長的態(tài)勢，也就是所謂的RL的Scaling law。這其實是樹搜索本來應有之義，我倒覺得把這個稱為RL的Scaling law有點名不副實。

2.3 猜想2

科技新聞周小燕郝博陽：PRM僅在答案不可接受時進行MCTS式的搜索，或者用的是更節(jié)約的Beam Search。

從反應時間和token消耗兩方面看，根據(jù)Hackernews上使用了API的開發(fā)者推算，o1進行推理所消耗的token是其給出答案token的10倍，是未進行思維鏈的GPT-4o mini 所用token的60-100倍。如果采用能看三步的、每步形成5個候選，單層深度的Lookahead Search就會消耗45倍token。但用到了思維鏈每步都需要進行一次Lookahead Search的話，就會遠超100倍token。另外考慮到MCTS這么大的計算量，目前o1的反饋時間是遠遠不夠的。

但如果僅用思維鏈，即使是非常復雜的問題，token消耗最多也就是達到5-10倍。其60倍token消耗又太大了。

2.4 猜想3

北大對齊團隊：o1運用的技術(shù)關(guān)鍵還是在于強化學習的搜索與學習機制，基于LLM已有的推理能力，迭代式的Bootstrap模型產(chǎn)生合理推理（Rationales)的能力，并將 Rationales 融入到訓練過程內(nèi)，讓模型學會進行推理，而后再運用足夠強大的計算量實現(xiàn)Post-Training階段的Scaling。類似于STaR的擴展版本。

模型學習的是產(chǎn)生合理推理的過程，MCTS 在其中的作用是誘導合理推理過程的產(chǎn)生或構(gòu)建相應的偏序?qū)π纬杉毩６泉剟钚盘�，而非直接搜索過程和最終答案。

為了優(yōu)化這一過程，產(chǎn)生了一系列方法，其中包括在 Token 級別或子句級別提供獎勵信號，幫助模型調(diào)整生成的回答。這些方法如MCTS，將輸出建模為一系列節(jié)點，這些節(jié)點可以是 Token 級別或句子級別。例如：

Token 級別的節(jié)點：每個節(jié)點對應生成序列中的一個 Token。通過 MCTS，模型可以探索不同的 Token 序列，最終生成更連貫的響應。

句子級別的節(jié)點：在復雜推理任務中，每個節(jié)點可以代表一個完整的句子或推理步驟，幫助模型更好地處理多步推理任務。

3. 相關(guān)論文

3.1 Jason Wei 的 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models，也就是著名的COT。

主要內(nèi)容：通過一系列中間推理步驟，能顯著提高大型語言模型執(zhí)行復雜推理的能力，提出了一種名為“chain of thought prompting”的方法，通過提供幾個思維鏈條示例，無需對模型進行微調(diào)，就能自然地激發(fā)大型語言模型的推理能力，實驗結(jié)果表明該方法在算術(shù)、常識和符號推理任務上顯著提高了三種大型語言模型的表現(xiàn)。

鏈式思維推理能力的涌現(xiàn)：鏈式思維推理能力并非所有模型都具備，而是隨著模型規(guī)模的擴大而逐漸涌現(xiàn)。對于需要多步推理的任務，鏈式思維提示能夠顯著提升模型性能，尤其是在大型語言模型上表現(xiàn)尤為突出。

該方法也為提升模型可解釋性和魯棒性提供了新的思路。

CoT 通過分步推理的方式，要求模型在生成最終答案之前，先生成一系列中間推理步驟。這種 “思考鏈” 的生成過程有助于增強模型的推理能力，尤其在數(shù)學和代碼生成等任務中表現(xiàn)出色。

然而，CoT雖然能夠生成中間步驟，但并未教會模型如何從內(nèi)部深入思考問題的關(guān)聯(lián)。特別是對于尤其復雜且需要多步推理規(guī)劃的任務，這樣的合理的中間 CoT 推理過程（Rationales) 更為重要。

3.2 Ilya等人的Let’s Verify Step by Step

主要內(nèi)容：比較了兩種訓練大型語言模型進行復雜推理的方法：結(jié)果監(jiān)督和過程監(jiān)督，并得出以下主要貢獻：

1）過程監(jiān)督比結(jié)果監(jiān)督更有效

研究表明，過程監(jiān)督訓練出的獎勵模型比結(jié)果監(jiān)督更可靠，能夠解決 MATH 數(shù)據(jù)集 78.2% 的問題，而結(jié)果監(jiān)督只能解決 66.4%。過程監(jiān)督提供了更精確的反饋，指出了錯誤發(fā)生的具體位置，有助于模型更好地進行信用分配和學習。

2）大型獎勵模型可以有效地近似人類監(jiān)督

研究發(fā)現(xiàn)，大型獎勵模型可以有效地近似人類監(jiān)督，用于訓練小型獎勵模型，從而降低了數(shù)據(jù)收集的成本。這為大規(guī)模數(shù)據(jù)收集消融實驗提供了可能性，并可以用于評估不同監(jiān)督方法的效果。

3）激活學習提高了過程監(jiān)督的數(shù)據(jù)效率

研究發(fā)現(xiàn)，激活學習可以將過程監(jiān)督的數(shù)據(jù)效率提高 2.6 倍，這意味著可以使用更少的數(shù)據(jù)獲得更好的模型性能。激活學習通過選擇最有價值的模型輸出進行人工標注，從而提高了數(shù)據(jù)收集的效率。

4）發(fā)布了 PRM800K 數(shù)據(jù)集

論文發(fā)布了 PRM800K 數(shù)據(jù)集，包含 800,000 個步驟級別的標注數(shù)據(jù)，用于訓練獎勵模型。

3.3 斯坦福&谷歌STaR: Bootstrapping Reasoning with Reasoning

1）主要原理

STaR 的核心思路是利用 LLM 已有的推理能力，迭代式的 Bootstrap 模型產(chǎn)生合理推理過程（Rationales) 的能力，并將 Rationales 融入到訓練過程內(nèi)，讓模型學會進行推理。其基本流程如下：

推理：起始數(shù)據(jù)集僅有 [Question, Answer] ，首先利用一些帶有推理過程的 Few-Shot Examples 來 Prompt 模型對于數(shù)據(jù)集中的問題生成對應的推理過程和答案。

過濾：如果生成的答案正確，則將推理過程加入到原有的數(shù)據(jù)集中；如果生成的答案錯誤，則嘗試在給出正確答案的前提下再次生成推理過程。將最終生成正確答案的推理收集，構(gòu)建一個構(gòu)建一個微調(diào)數(shù)據(jù)集 [Question, Rationale, Answer ] 進行微調(diào)。

迭代：重復這一過程，且每次獲得一個新的數(shù)據(jù)集，都從原始的模型開始進行 Fine-tune 從而防止過擬合。

2）創(chuàng)新點

迭代引導：STaR 不需要構(gòu)建大規(guī)模的推理鏈數(shù)據(jù)集，而是通過少量示例引導 LLM 生成自身的推理鏈，實現(xiàn)自我提升。

Rationalization 技術(shù)：STaR 引入了 Rationalization 技術(shù)，通過提供正確答案作為提示，幫助 LLM 生成新的推理鏈，克服了正向推理訓練的局限性，能夠從失敗案例中學習。

3）STaR 的優(yōu)勢

提升推理能力：STaR 能夠有效提升 LLM 在數(shù)學推理、常識推理等復雜任務上的性能。

降低數(shù)據(jù)需求：STaR 不需要大規(guī)模的推理鏈數(shù)據(jù)集，降低了數(shù)據(jù)獲取的難度和成本。

提高魯棒性：STaR 能夠讓 LLM 從失敗案例中學習，提高其在復雜問題上的魯棒性。

4）STaR 的局限性

初始模型要求：STaR 需要初始模型具有一定的推理能力，否則難以啟動引導過程。

對少樣本示例的依賴：STaR在推理任務中高度依賴少量的Few-Shot推理示例，這導致模型的推理能力較為有限，難以應對復雜和廣泛的任務。

泛化能力受限：STaR雖然能夠通過迭代的方式提升模型的推理能力，但其應用主要局限于特定的結(jié)構(gòu)化任務（如問題回答），難以在開放域或任意文本生成任務中取得同樣的效果。

數(shù)據(jù)質(zhì)量影響：STaR 的性能受初始推理鏈質(zhì)量的影響，如果初始推理鏈存在偏差，則可能導致 STaR 學習到錯誤的推理模式。

解釋忠實度：STaR 生成的推理鏈可能無法完全反映 LLM 的內(nèi)部推理過程，存在解釋忠實度的問題。

5）STaR 與強化學習目標的相似之處

迭代更新：STaR 和強化學習都采用迭代的方式更新模型，不斷優(yōu)化其性能。

獎勵信號：STaR 通過迭代的方式生成推理鏈，并使用正確答案作為反饋信號，類似于強化學習中的獎勵信號，用于指導模型的更新方向。

6）STaR 與強化學習目標的區(qū)別

目標函數(shù)：STaR 的目標函數(shù)與強化學習中的策略梯度目標不完全相同，STaR 更關(guān)注推理鏈的生成和優(yōu)化。

模型結(jié)構(gòu)：STaR 使用預訓練的 LLM 模型，而強化學習可以采用各種類型的模型。

訓練方法：STaR 使用基于梯度的方法進行模型更新，而強化學習可以采用多種訓練方法，例如 Q-learning、Sarsa 等。

3.4 微軟的 rStar：Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers

1）主要貢獻

rStar 是一種創(chuàng)新的self-play自我推理方法，旨在提升小語言模型 (SLM) 的推理能力，無需微調(diào)或高級模型的支持。其核心思想是將推理過程分解為生成和鑒別兩個階段，并通過自我博弈的方式實現(xiàn) SLM 之間的相互學習。

2）主要創(chuàng)新點

豐富的推理動作：rStar 引入了五種人類似推理動作，模擬人類在推理過程中的行為，這使得 SLM 能夠生成更高質(zhì)量的候選推理軌跡，有效探索解決方案空間。

相互一致性鑒別：rStar 使用另一個與目標 SLM 能力相似的 SLM 作為鑒別器，對生成的候選推理軌跡進行評估。鑒別器通過完成部分推理步驟并提供反饋，幫助目標 SLM 選擇更可靠的推理路徑。

無需微調(diào)或高級模型：rStar 不依賴于微調(diào)或高級模型的指導，能夠獨立提升 SLM 的推理能力，使其在無需額外資源的情況下獲得顯著的性能提升。

實驗結(jié)果表明，rStar 能夠有效解決多種推理問題，并在多個 SLM 上取得了顯著的性能提升。例如，在 GSM8K 數(shù)據(jù)集上，rStar 將 LLaMA2-7B 的準確率從 12.51% 提升至 63.91%，將 Mistral-7B 的準確率從 36.46% 提升至 81.88%。

A. 生成階段 (MCTS Rollout):

動作空間: rStar 引入了五種人類似推理動作，模擬人類在推理過程中的行為：

A1: 提出一個一步思考。

A2: 提出剩余的思考步驟。

A3: 提出下一個子問題及其答案。

A4: 再次回答子問題。

A5: 重述問題/子問題。

獎勵函數(shù): 設計 SLM 定制獎勵函數(shù)，根據(jù)推理步驟對最終答案的貢獻程度進行評估，并指導 MCTS 樹的擴展。

這些動作幫助模型更好地探索解決方案空間的原因：

多樣性: 豐富的動作類型使得模型可以嘗試不同的推理策略，避免陷入固定的思維模式。

靈活性: 模型可以根據(jù)當前狀態(tài)選擇合適的動作，靈活應對不同的問題。

分解: 通過將復雜問題分解為子問題，模型可以逐步解決，降低推理難度。

驗證: 通過重新回答子問題，模型可以驗證子問題的答案是否正確，提高推理的準確性。

B. 鑒別階段 (Mutual Consistency):

鑒別器 SLM: 使用另一個與目標 SLM 能力相似的 SLM 作為鑒別器，對生成的候選推理軌跡進行評估。

部分提示: 將候選推理軌跡的一部分作為提示，讓鑒別器完成剩余的推理步驟。

一致性驗證: 比較鑒別器完成的推理步驟與原始軌跡的一致性，選擇相互一致的軌跡作為最終答案。

互一致性幫助模型選擇正確的推理軌跡的原因：

外部驗證: 鑒別器作為外部評估者，為模型提供客觀的反饋，避免模型自身評估的偏差。

降低難度: 通過部分提示，降低鑒別器推理的難度，提高其提供正確答案的概率。

群體智慧: 兩個 SLM 之間的相互驗證，類似于人類群體中的同伴互評，可以更有效地識別正確答案。

C. 最終軌跡選擇:

最終得分計算: 將候選軌跡的獎勵值與終端節(jié)點的置信度得分相乘，計算最終得分。

選擇最佳軌跡: 選擇最終得分最高的軌跡作為最終答案。

3.5 Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

1）貢獻1

將 STaR 推廣到學習推理，也是其與 STaR 的主要區(qū)別。STaR 主要針對特定任務進行推理學習，而 Quiet-STaR 則將推理學習推廣到更廣泛的文本數(shù)據(jù)中。這使得語言模型能夠在更通用的場景下進行推理，并從多樣化的文本任務中學習。

2）貢獻2：并行采樣算法

這是實現(xiàn) Quiet-STaR 的關(guān)鍵技術(shù)之一。并行采樣算法能夠高效地生成每個 token 的推理，從而使得模型能夠從大規(guī)模文本數(shù)據(jù)中學習推理。

3）其他創(chuàng)新點

元 token、混合頭、非短視損失函數(shù)等創(chuàng)新點都是為了更好地實現(xiàn) Quiet-STaR 的目標，即讓語言模型能夠?qū)W習推理并提高其預測能力。

3.6 Google Deep Mind 的Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

針對現(xiàn)有 LLM 推理能力有限的不足，提出了以下創(chuàng)新方法和策略：

1）創(chuàng)新方法

PRM 驗證器和樹搜索算法：通過訓練一個過程獎勵模型來評估每一步的正確性，并利用樹搜索算法（如束搜索和前瞻搜索）在解決方案空間中進行搜索，找到最優(yōu)答案。

迭代修訂模型：通過微調(diào) LLM，使其能夠迭代地修改其初始答案，使其逐漸接近正確答案。

2）創(chuàng)新策略

推理時計算最優(yōu)擴展策略：根據(jù)提示的難度動態(tài)選擇最佳的推理時計算策略，以最大化性能提升。

計算預算交換：將推理時計算和預訓練計算進行比較，發(fā)現(xiàn)對于簡單和中等的推理任務，推理時計算可以有效地替代額外的預訓練計算，從而降低預訓練成本。

3）改進

性能提升：在相同的計算預算下，使用“推理時計算最優(yōu)擴展策略”可以顯著提升 LLM 的性能，并優(yōu)于傳統(tǒng)的最佳-of-N 策略。

預訓練成本降低：對于簡單和中等的推理任務，可以使用推理時計算來替代額外的預訓練計算，從而降低預訓練成本。

模型泛化能力提升：通過迭代修訂模型，LLM 可以學習從錯誤中吸取教訓，并改進其推理能力，從而提升模型的泛化能力。

Google在研究中提到了從簡單到復雜的三種方案，直接在多個答案中選最佳解的方法（Best of N），在思維鏈中每步都提供多個候選項的方法（Beam Search）和把后續(xù)多個步驟聯(lián)系起來看的MCTS方法的簡化版本Lookahead Search。

我們可以嘗試著在推理階段不要求模型一次做對的能力,而是讓LLM去嘗試一題多解, 然后針對多個答案進行評估打分, 最終輸出一個正確的答案. 在答案評估的時候,同時引入對過程的評估，即Process-based Reward Model(PRM)。搜索方法上, 它采用了Lookahead Search, 本質(zhì)上是MCTS的一種特殊形式.

4. 可能的“逆向工程”

下面是關(guān)于這張架構(gòu)圖的詳細說明，主要包括四個階段：

4.1 數(shù)據(jù)生成

數(shù)據(jù)生成模塊負責創(chuàng)建用于訓練的數(shù)據(jù)，包括：

合成數(shù)據(jù)生成器（Synthetic Data Generator）、人類專家、CoT數(shù)據(jù)庫（CoT Dataset，鏈式思維數(shù)據(jù)庫）、現(xiàn)實世界和沙盒數(shù)據(jù)

這些數(shù)據(jù)被匯集起來，形成訓練數(shù)據(jù)，用于后續(xù)模型的訓練階段。

4.2 訓練階段

訓練階段主要由以下幾個模塊組成：

語言模型，這是核心的AI模型，負責處理和理解語言數(shù)據(jù)。

RL環(huán)境，強化學習環(huán)境用于模型優(yōu)化。

獎勵函數(shù)，包括驗證（Verification）和人類反饋（Human labeling），用來指導模型學習。

策略優(yōu)化器（Policy Optimizer），包括梯度壓縮、Panzar系統(tǒng)、探索與利用等，用于優(yōu)化模型策略。在這個階段，模型通過強化學習和高級技術(shù)進行訓練，不斷優(yōu)化性能和效率。

4.3 推理階段

推理階段包括：

訓練好的模型，這是通過強化學習和高級技術(shù)優(yōu)化后的模型。

多任務生成，處理多個任務的能力。

最終響應，生成最終的輸出結(jié)果。

CoT生成和微調(diào)，根據(jù)鏈式思維生成并微調(diào)結(jié)果。

效率監(jiān)控：實時監(jiān)控模型的性能。

4.4 關(guān)鍵注釋

大規(guī)模CoT存儲進入RL環(huán)境是作者自己的假設，作者認為OpenAI可能會使用從現(xiàn)實世界中生成的大量鏈式思維來進一步調(diào)整和優(yōu)化RL模型。舉例說明：假設你是一名研究員，想要構(gòu)建一個能夠進行多任務處理的AI系統(tǒng)。

我們可以通過參考這個o1架構(gòu)按照上面三個模塊進行以下工作：

1）首先，收集并生成各種類型的數(shù)據(jù)，包括合成數(shù)據(jù)、人類專家提供的數(shù)據(jù)以及現(xiàn)實世界的數(shù)據(jù)。

2）接著，利用這些數(shù)據(jù)訓練你的語言模型，并在強化學習環(huán)境中進行優(yōu)化，通過獎勵函數(shù)和策略優(yōu)化器不斷提升模型性能。

3）最后，將訓練好的模型部署到推理階段，使其能夠處理多任務并生成最終響應，同時監(jiān)控其效率并進行必要的微調(diào)。這種架構(gòu)不僅適用于語言處理，還可以擴展到其他領(lǐng)域，如圖像識別、游戲開發(fā)等，通過不斷優(yōu)化強化學習過程，使得AI系統(tǒng)更加智能高效。

四、幕后：o1背后的團隊

在 OpenAI 公布的o1模型的參與人員中，不僅包括前首席科學家Ilya Sutskever，COT 作者 Jason Wei，還包含了Jiayi Weng等大量華人科學家。

在o1 的21個Foundational貢獻者呈現(xiàn)出了高學歷、高包容性、多元化、國際化等特點。

學術(shù)背景：14人擁有博士學位，3人以本科學位進入OpenAI，1人有�？平�(jīng)歷，5人有斯坦福背景；

國家背景：團隊來自至少8個國家，包括美國、中國、印度、韓國、意大利、土耳其、以色列、波蘭，呈現(xiàn)出了高度的國際化。其中以色列2人。

華人貢獻：作為人數(shù)最多的國家之一，6個華人本科分別來自清華、北大、劍橋、哈佛、達特茅斯。從某種程度上來說，OpenAI 在AI技術(shù)上的領(lǐng)先離不開華人的貢獻。

工作背景：作為OpenAI最主要的競爭對手，貢獻者中11人有 Google 背景，5人沒有相關(guān)名企經(jīng)驗；

注：2人未找到相關(guān)資料。

21個Foundational貢獻者資料明細

五、相關(guān)名詞解釋1. MCTS

1.1 概念：蒙特卡洛樹搜索（Monte Carlo Tree Search，MCTS）是一種用于某些類型決策過程的啟發(fā)式搜索算法，特別是在雙人零和游戲中。它結(jié)合了蒙特卡洛模擬的隨機抽樣和決策樹搜索的系統(tǒng)性。MCTS在計算博弈論和人工智能領(lǐng)域中非常有用，尤其是在圍棋、國際象棋和其他策略游戲中。

1.2 MCTS的基本步驟

1）選擇：從根節(jié)點開始，按照特定的策略，選擇最有前途的子節(jié)點，直到到達一個尚未完全展開（即還有未探索的行動）的節(jié)點。

2）擴展：在選擇的節(jié)點上添加一個或多個子節(jié)點，這些子節(jié)點代表了可能的下一步行動。這涉及到游戲狀態(tài)的更新，將游戲向前推進到一個新的狀態(tài)。

3）模擬：從新添加的節(jié)點開始，進行蒙特卡洛模擬，直到游戲結(jié)束或達到預定的模擬深度。這個過程不需要完美信息，可以使用隨機策略來選擇行動。

4）反向傳播：將模擬的結(jié)果（比如輸贏或得分）更新到所訪問路徑上的所有節(jié)點。如果模擬結(jié)果是勝利，則增加沿途節(jié)點的勝利次數(shù)；如果是失敗，則相應地更新失敗的統(tǒng)計數(shù)據(jù)。

1.3 關(guān)鍵特點

1）自適應搜索：MCTS能夠根據(jù)之前的搜索結(jié)果自適應地搜索那些更有希望的區(qū)域。

2）無啟發(fā)式：與某些其他搜索算法不同，MCTS不需要領(lǐng)域特定的啟發(fā)式評估函數(shù)。

3）并行化：模擬步驟可以獨立進行，因此MCTS很容易并行化，這使得它在多核處理器上特別有效。

1.4 Beam Search、Lookahead Search、MCTS對比

Beam Search：一種啟發(fā)式的圖搜索算法，常用于機器翻譯、語音識別等領(lǐng)域的解碼過程。它在每一步都從當前節(jié)點擴展出一定數(shù)量（beam width）的最有前途的子節(jié)點，而不是搜索所有可能的子節(jié)點，從而減少了搜索空間。

Beam Search的優(yōu)點是計算效率高，但缺點是可能會錯過一些不那么顯而易見但最終可能更優(yōu)的路徑。

Lookahead Search：一種在Beam Search基礎上的擴展，它在搜索時不僅考慮當前步驟的最優(yōu)解，還會向前看多步，考慮未來的可能性。這種搜索策略可以幫助算法做出更長遠的決策，但計算成本也會隨之增加。

Lookahead Search的關(guān)鍵在于它嘗試預測并評估不同的決策路徑，從而選擇最優(yōu)的行動方案。

MCTS：一種用于某些類型決策過程的啟發(fā)式搜索算法，它結(jié)合了隨機模擬和決策樹搜索。MCTS通過多次模擬來評估不同的決策路徑，并根據(jù)這些模擬的結(jié)果來選擇最優(yōu)的行動。

MCTS特別適用于雙人零和游戲，如圍棋、國際象棋等，它通過構(gòu)建整個樹來探索所有可能的行動路徑，并通過模擬來評估這些路徑。

2. Bootstrap

這是一種重采樣技術(shù)，用于從原始數(shù)據(jù)集中生成新的樣本集，以此來估計一個統(tǒng)計量（如均值、方差等）的分布。通過這種方法，可以不需要對總體分布做出任何假設，就能夠估計出模型參數(shù)的不確定性和穩(wěn)定性。

Bootstrap方法的步驟通常包括：從原始數(shù)據(jù)集中隨機抽取樣本，允許重復抽樣（即有放回抽樣）；根據(jù)抽取的樣本計算所需的統(tǒng)計量；重復上述過程多次（通常是數(shù)千次），以獲得統(tǒng)計量的分布；使用這個分布來估計原始統(tǒng)計量的標準誤差、置信區(qū)間或其他特征。

在機器學習領(lǐng)域，Bootstrap方法可以用來提高模型的泛化能力和魯棒性。例如，通過Bootstrap抽樣可以創(chuàng)建多個不同的訓練集，然后用這些訓練集來訓練多個模型。這些模型可以結(jié)合起來，形成一個集成模型，如隨機森林或Bagging模型，以此來減少過擬合和提高模型的預測準確性。

3. PPO

PPO（Proximal Policy Optimization，近端策略優(yōu)化）是一種在強化學習領(lǐng)域廣泛使用的算法，它屬于策略梯度方法的一種。PPO算法的核心思想是在每次更新策略時，限制新策略與舊策略之間的差異，以保持訓練過程的穩(wěn)定性。

PPO算法有兩個主要變體：PPO-Penalty和PPO-Clip。PPO-Penalty通過在目標函數(shù)中添加一個懲罰項來近似解決一個KL散度約束的更新問題，而PPO-Clip則不直接使用KL散度項，而是通過目標函數(shù)中的裁剪操作來限制新舊策略之間的差異。

PPO算法的實現(xiàn)步驟通常包括：

1）初始化策略網(wǎng)絡參數(shù)。

2）通過與環(huán)境交互收集數(shù)據(jù)。

3）計算優(yōu)勢函數(shù)，用于評價動作的好壞。

4）使用裁剪的目標函數(shù)或懲罰項來更新策略網(wǎng)絡參數(shù)。

5）重復以上步驟，直到策略收斂。

PPO算法的優(yōu)點包括穩(wěn)定性、適用性和可擴展性。它適用于離散和連續(xù)動作空間的環(huán)境，并且可以通過并行化來提高訓練效率。PPO算法在游戲、機器人控制、自動駕駛等領(lǐng)域都有廣泛的應用。

4. 激活學習

激活學習是一種機器學習方法，其核心思想是選擇最有價值的數(shù)據(jù)進行標注和學習，從而提高學習效率和模型性能。

通常用于以下場景：數(shù)據(jù)標注成本高、數(shù)據(jù)集規(guī)模龐大、模型性能提升空間有限。

包括以下幾個步驟：選擇標注策略、選擇標注數(shù)據(jù)、標注數(shù)據(jù)、訓練模型、迭代優(yōu)化。

在許多領(lǐng)域都有廣泛應用，例如圖像識別、自然語言處理、推薦系統(tǒng)。

參考資料：

Open AI官網(wǎng)：

OpenAI o1、核心成員官推：OpenAI 官推、CEO Sam Altman、總裁&聯(lián)創(chuàng)Greg Brockman、COT 作者Jason Wei、模型核心成員Noam Brown、Hyung Won Chung、Ahmed El-Kishky、Ren HongYu、ShenJia Zhao

公眾號：海外獨角獸、 FudanNLP、機器之心、量子位、數(shù)字生命卡茲克、 AI Pioneer、 AI產(chǎn)品黃叔、人工智能與算法學習、AINLP、科技新聞、 GitChat、AI科技大本營、智能涌現(xiàn)、PaperWeekly、硅谷科技評論、卜寒兮AI、zartbot、投資實習所、AI的潛意識、夕小瑤科技說

本文由 @AIPM1001 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可，禁止轉(zhuǎn)載

題圖來自Unsplash，基于CC0協(xié)議

該文觀點僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務