當前位置：人工智能實驗室> 人工智能動態(tài) > 上交大發(fā)布首個OpenAI o1復現(xiàn)項目進展報告，滿滿的經(jīng)驗洞察

上交大發(fā)布首個OpenAI o1復現(xiàn)項目進展報告，滿滿的經(jīng)驗洞察
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-09 18:42:27 瀏覽：2962次

導讀：劃重點 01上海交通大學發(fā)布首個OpenAI o1復現(xiàn)項目進展報告，分享了團隊在復現(xiàn)過程中的發(fā)現(xiàn)和挑戰(zhàn)。 02報告提出并驗證了旅程學習的技術巨大潛力，即在復雜數(shù)學題目上表現(xiàn)絕對性能超過傳統(tǒng)監(jiān)督學習8%。 03除此之外，報告還強調(diào)了旅程學習在應對復雜、動態(tài)和開...

劃重點

01上海交通大學發(fā)布首個OpenAI o1復現(xiàn)項目進展報告，分享了團隊在復現(xiàn)過程中的發(fā)現(xiàn)和挑戰(zhàn)。

02報告提出并驗證了“旅程學習”的技術巨大潛力，即在復雜數(shù)學題目上表現(xiàn)絕對性能超過傳統(tǒng)監(jiān)督學習8%。

03除此之外，報告還強調(diào)了旅程學習在應對復雜、動態(tài)和開放性問題時展現(xiàn)出的明顯局限性。

04團隊負責人表示，復現(xiàn)過程的重要性在于透明地記錄和分享整個探索過程，聚焦于遇到的根本問題。

05未來，研究團隊將繼續(xù)探索更復雜的人工智能技術和方法，推動AI研究方法的邊界。

以上內(nèi)容由騰訊混元大模型生成，僅供參考

AIxiv專欄是機器之心發(fā)布學術、技術內(nèi)容的欄目。過去數(shù)年，機器之心AIxiv專欄接收報道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級實驗室，有效促進了學術交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

上交大發(fā)布首個OpenAI o1復現(xiàn)項目進展報告，滿滿的經(jīng)驗洞察

團隊介紹：本項目的核心開發(fā)團隊主要由上海交通大學 GAIR 研究組的本科三年級、四年級學生以及直博一年級研究生組成。項目得到了來自 NYU 等一線大型語言模型領域頂尖研究科學家的指導。

詳細作者介紹見：https://github.com/GAIR-NLP/O1-Journey#about-the-team。

在人工智能領域掀起巨浪的 OpenAI o1 模型發(fā)布三周后，一支由高校年輕研究者組成的團隊今天發(fā)布了題為 "o1 Replication Journey: A Strategic Progress Report (o1 探索之旅：戰(zhàn)略進展報告)" 的研究進展報告。這份報告的獨特之處在于（1）不僅提出并驗證了 “旅程學習” 的技術的巨大潛力（研究者也認為是 o1 取得成功的關鍵技術）：通過 327 條訓練樣本，鼓勵模型學會反思、糾錯、回溯，其在復雜數(shù)學題目上表現(xiàn) 絕對性能就超過了傳統(tǒng)監(jiān)督學習 8% 以上，相對性能提升超過 20%;（2）并且，其前所未有的透明度和即時性，不僅詳細記錄了團隊在復現(xiàn)過程中的發(fā)現(xiàn)、挑戰(zhàn)、試錯和創(chuàng)新方法，更重要的是，它倡導了一種全新的 AI 研究范式。研究團隊負責人表示：" 我們的主要目標不是達到與 OpenAI 的 o1 相當?shù)男阅?考慮到可用資源有限，這是一個極具挑戰(zhàn)性的任務。相反，我們的使命是透明地記錄和分享我們的探索過程，聚焦于我們遇到的根本問題，發(fā)現(xiàn)新的科學問題，并識別導致 o1 的成功的關鍵因素，并與更廣泛的 AI 社區(qū)分享我們的試錯經(jīng)驗。o1 技術無疑會成為全球各大 AI 科技公司爭相復現(xiàn)的目標。如果我們能夠及早分享一些復現(xiàn)過程中的經(jīng)驗教訓，就能幫助其他公司減少不必要的試錯，從而降低全球范圍內(nèi) o1 技術復現(xiàn)的總體成本和時間。這不僅有利于推動技術的快速發(fā)展，也能促進整個 AI 行業(yè)的共同進步。”

上交大發(fā)布首個OpenAI o1復現(xiàn)項目進展報告，滿滿的經(jīng)驗洞察

團隊提出的模型在同一道數(shù)學題上，與 OpenAI 的 o1-preview （答對）及 GPT-4o（答錯）的比較實例，證明旅程學習不斷試錯、反思、自我糾正的能力在復雜推理任務場景上非常關鍵。

技術報告鏈接：https://github.com/GAIR-NLP/O1-Journey/blob/main/resource/report.pdf

Github 鏈接：https://github.com/GAIR-NLP/O1-Journey

o1 討論資源：https://github.com/GAIR-NLP/O1-Journey/tree/main/resource

該報告發(fā)現(xiàn)了什么？從 “"捷徑學習"” 到 “旅程學習”，從 “浮光掠影” 到 “深耕細作”

上交大發(fā)布首個OpenAI o1復現(xiàn)項目進展報告，滿滿的經(jīng)驗洞察

圖：從 "捷徑學習" 到 "旅程學習" 的范式轉(zhuǎn)變。這是一個用于推理任務的搜索樹。對于數(shù)學問題解決任務，根節(jié)點代表初始問題，而葉節(jié)點則是最終結(jié)論。綠色節(jié)點表示正確答案，紅色節(jié)點表示錯誤答案。傳統(tǒng)上，學習主要集中在對直接從根到葉的捷徑路徑進行監(jiān)督訓練。然而，本研究探索了對整個探索路徑進行監(jiān)督學習，這包括了試錯和糾正的過程。

團隊認為，大多數(shù)現(xiàn)有的機器學習或大模型訓練方法（如監(jiān)督式微調(diào)）都可以被歸類為"捷徑學習" (Shortcut Learning)，即模型學習到達正確答案的直接路徑。這種傳統(tǒng)范式雖然在特定、明確定義的任務中可能有效，但在面對復雜、動態(tài)和開放性問題時顯示出明顯的局限性。捷徑學習具有以下幾個關鍵特征：(1) 注重快速結(jié)果：強調(diào)在短時間內(nèi)達到特定的性能指標或完成特定任務。(2) 高度依賴數(shù)據(jù)：性能改進通常依賴于增加訓練數(shù)據(jù)量，而非改進學習算法本身。(3) 泛化能力有限：在訓練數(shù)據(jù)分布之外的場景中，性能可能會急劇下降。(4) 缺乏自我糾正能力：這些系統(tǒng)通常缺乏識別和糾正自身錯誤的能力。盡管捷徑學習推動了人工智能的許多進步，但它難以產(chǎn)生真正智能和可靠的人工智能系統(tǒng)，無法應對現(xiàn)實世界挑戰(zhàn)的復雜性。隨著我們追求更高級形式的人工智能甚至超級智能，這種方法的局限性變得越來越明顯。

認識到這些缺點，本文提出了一種名為"旅程學習"（Journey Learning) 的新范式。旅程學習旨在使人工智能系統(tǒng)能夠通過學習、反思、回溯和適應不斷進步，就像人類一樣，從而展現(xiàn)出更高水平的智能。

上交大發(fā)布首個OpenAI o1復現(xiàn)項目進展報告，滿滿的經(jīng)驗洞察

圖："捷徑學習"(Shortcut Learning) 和 "歷程學習"(Journey Learning) 在 MATH500（Lightman 等人，2024 年）上的表現(xiàn)。

如圖所示，團隊提出了 "旅程學習" 范式，它鼓勵模型不僅學習捷徑，還要學習完整的探索過程，包括試錯、反思和回溯。僅使用 327 個訓練樣本，不借助任何額外訓練技巧，旅程學習在 MATH 數(shù)據(jù)集上的表現(xiàn)就超過了傳統(tǒng)監(jiān)督學習 8% 以上，展示了其極其強大的潛力。作者也認為這是 o1 技術中最關鍵的組成部分。

上交大發(fā)布首個OpenAI o1復現(xiàn)項目進展報告，滿滿的經(jīng)驗洞察

表：捷徑學習和旅程學習的多維度比較

模型生成的例子

上交大發(fā)布首個OpenAI o1復現(xiàn)項目進展報告，滿滿的經(jīng)驗洞察

技術細節(jié)是什么？o1 技術探索之旅

上交大發(fā)布首個OpenAI o1復現(xiàn)項目進展報告，滿滿的經(jīng)驗洞察

團隊負責人分享：“如果我們能夠及早分享一些復現(xiàn)過程中的經(jīng)驗教訓，就能幫助其他公司減少不必要的試錯，從而降低全球范圍內(nèi) o1 技術復現(xiàn)的總體成本和時間。這不僅有利于推動技術的快速發(fā)展，也能促進整個 AI 行業(yè)的共同進步。”

如圖所示，從 OpenAI o1 9 月 12 日發(fā)布的過去三周內(nèi)，該團隊對 o1 技術已經(jīng)完成了系統(tǒng)化、多階段的探索。這個過程始于使用 OlympicArena 數(shù)據(jù)集對 o1 進行初步評估（如下表格），旨在全面了解其在多個學科領域的認知能力。研究的核心集中在 o1 思維結(jié)構(gòu)的分析上，特別關注 "長思維" 這一關鍵概念。整個探索技術涉及多個復雜的步驟，包括獎勵模型的開發(fā)、在策略推理樹的構(gòu)建，以及將這些元素整合為連貫的長思維過程。整個研究過程采用了迭代和并行的方法。進行了多次嘗試，不斷調(diào)整和完善技術和方法。評估過程包括定量和定性分析，結(jié)合人工檢查和專門的分析工具，以確保研究的準確性和有效性。

上交大發(fā)布首個OpenAI o1復現(xiàn)項目進展報告，滿滿的經(jīng)驗洞察

團隊強調(diào)了探索過程的重要性，而不僅僅關注最終結(jié)果。這種重視科研探索過程的思路與團推提出的 "旅程學習" 范式相一致，強調(diào)了在復雜、動態(tài)環(huán)境中不斷試錯、糾錯的持續(xù)學習和適應的重要性。通過這個過程，不僅獲得了關于 o1 技術的深入理解，還開發(fā)了一套探索未知 AI 技術的系統(tǒng)方法。研究過程涉及決策分析、挑戰(zhàn)識別以及創(chuàng)新解決方案的開發(fā)。最終，這項研究不僅僅是對 o1 技術的探索，更是對先進 AI 系統(tǒng)研究方法的一次實踐和驗證。通過分享研究過程，包括成功和失敗的經(jīng)驗，旨在為 AI 研究社區(qū)提供有價值的見解，促進該領域的集體進步。

這個探索過程展示了開放、協(xié)作的 AI 研究在推動技術邊界方面的重要性，為未來更復雜的 AI 系統(tǒng)研究提供了有益的參考和指導。

具體地，團隊凝煉了復現(xiàn) o1 過程中的幾個關鍵問題，并做了非常細致的探索分享：

Q1: o1 的思維鏈是什么樣子的？

Q2: 長思維 (Long thought) 是如何工作的？

Q3: 如何構(gòu)建長思維？

Q4: 如何構(gòu)建獎勵模型？

Q5: 如何構(gòu)建 on-policy 推理樹？

Q6: 如何從推理樹中推導出長思維？

Q7: 如何評估我們的嘗試方法？

Q8: 如何訓練我們的模型？

Q9: 什么是人類和 AI 協(xié)同標注的有效策略？

Q1: o1 的思維鏈是什么樣子的？

上交大發(fā)布首個OpenAI o1復現(xiàn)項目進展報告，滿滿的經(jīng)驗洞察

表：基于對 OpenAI 提供的 o1 思維示例的詳細分析而創(chuàng)建的其中包括八個用于解決復雜任務的推理步驟或 "思維" 實例。仔細檢查了每個示例，提取了相關特征，如標記數(shù)、行數(shù)和關鍵詞。

觀測：

這些示例被分類為不同的問題類型，每種類型都與一個難度級別相關聯(lián)，從簡單的英語閱讀理解到復雜的多步驟數(shù)學推理任務。分析顯示了一個趨勢：隨著難度的增加，響應長度（包括標記數(shù)和行數(shù)）往往成比例增長。這表明更高難度的問題涉及更多的推理步驟。

除了標記數(shù)和行數(shù)外，團隊還進行了關鍵詞頻率分析，以識別可能表征推理過程的重復出現(xiàn)的術語。除了常見的連接詞如 "and" 和 "so" 之外，分析還突出了幾個出現(xiàn)頻率較低但意義重大的關鍵詞。"consider"、"if" 和 "possible" 等關鍵詞經(jīng)常出現(xiàn)，通常表示推理過程中的分支，考慮多條路徑。這些關鍵詞在復雜度更高的問題中出現(xiàn)頻率明顯更高，表明模型在這些情況下探索不同的解決方案路徑。像 "wait" 和 "Alternatively" 這樣的關鍵詞是模型能夠進行反思和自我糾正的重要指標。這表明模型具有更深入的理解和更細致的推理方法，因為模型不僅僅是遵循線性路徑，還能夠基于反思重新考慮和完善其方法。

為了理解 OpenAI 的 o1 的思維過程，團隊讓兩位博士水平學生仔細審查 OpenAI 的 o1 在解決數(shù)學問題時使用的推理過程。通過他們的詳細檢查，他們提取了反映 o1 如何處理和推理復雜方程的底層思維鏈。這個結(jié)構(gòu)化的思維圖在圖中有所展示。

上交大發(fā)布首個OpenAI o1復現(xiàn)項目進展報告，滿滿的經(jīng)驗洞察

圖：OpenAI o1 真實推理過程的結(jié)構(gòu)化形式本質(zhì)是一顆搜索樹（數(shù)學題）

上交大發(fā)布首個OpenAI o1復現(xiàn)項目進展報告，滿滿的經(jīng)驗洞察

圖：OpenAI o1 真實推理過程的結(jié)構(gòu)化形式本質(zhì)是一顆搜索樹（破譯題目）

經(jīng)過這些探索，團隊確定需要構(gòu)建的長思維數(shù)據(jù)應具有以下特征：

迭代式問題解決：模型首先定義函數(shù)，然后逐步探索相關表達式，將復雜方程分解為更簡單的組成部分，反映了一種結(jié)構(gòu)化和有條理的方法。

關鍵思維指標：使用 "Therefore" 表示結(jié)論，"Alternatively" 探索不同路徑，"Wait" 表示反思，以及 "Let me compute" 過渡到計算，突出了模型的推理階段。

遞歸和反思方法：模型經(jīng)常重新評估和驗證中間結(jié)果，使用遞歸結(jié)構(gòu)確保一致性，這在嚴謹?shù)臄?shù)學推理中很典型。

假設探索：模型測試不同的假設，隨著獲得更多信息而調(diào)整其方法，展示了推理過程中的靈活性

結(jié)論和驗證：最后，模型解方程并驗證結(jié)果，強調(diào)在完成之前驗證結(jié)論的重要性。

Q2: 長思維 (Long thought) 是如何工作的？

這是團隊認為重要的問題。然而，在當前的研究階段，該團隊僅僅提出了猜想。團隊認為還沒有足夠的經(jīng)驗證據(jù)來驗證它們的準確性，這也是未來需要重點展開的工作。

o1 長思維方法的顯著成功可以歸因于在上述中介紹的旅程學習 (Journey Learning)。與傳統(tǒng)的捷徑學習 (Shortcut Learning) 不同，旅程學習允許模型探索整個決策軌跡，模仿人類的問題解決過程。這種全面的探索使 o1 能夠考慮多種解決方案路徑，從錯誤中學習，并理解完整的問題解決過程。通過經(jīng)歷正確和錯誤的路徑，模型發(fā)展出強大的錯誤處理和自我糾正能力，增強了其適應新挑戰(zhàn)的能力。這種方法培養(yǎng)了對問題領域更深入的理解，不僅僅是知道正確答案，而是理解為什么以及如何得出答案。旅程學習過程密切模擬人類的認知過程，包含試錯、反思和調(diào)整。這大大增加了模型輸出內(nèi)容的可解釋性，因為 o1 可以提供詳細的解決步驟并解釋其推理過程，包括如何從錯誤中恢復。因此，基于旅程學習的 o1 長思維過程不僅僅是計算時間的擴展，還代表了一種徹底的、人類般的推理探索。這種方法使 o1 能夠處理更復雜的問題，提供更可靠和可解釋的答案，并在面對新挑戰(zhàn)時表現(xiàn)出更大的適應性，從而解釋了它在各種任務中的卓越表現(xiàn)。

Q3: 如何構(gòu)建長思維？

嘗試 1：基于 LLM 和獎勵的樹搜索根據(jù)在 Q1 中對長思維的觀察，其最顯著的特征是在推理產(chǎn)生錯誤時或遇到冗余的推理步驟時嘗試反思和回溯。這類似于在推理樹上搜索問題的解決方案，在錯誤節(jié)點處回溯，直到找到正確的解決路徑。為實現(xiàn)這一點，需要構(gòu)建一棵推理樹，其中根節(jié)點代表問題，其他每個節(jié)點代表一個推理步驟。從根到任何節(jié)點的路徑代表從問題到該結(jié)論的推理過程。此外，回溯和反思必須基于錯誤的推理步驟，這需要一個更細粒度的獎勵模型（即過程級）來指示樹中每個節(jié)點的正確性。通過在具有過程級獎勵的推理樹上執(zhí)行搜索算法，可以將錯誤步驟整合到思維鏈中，從而構(gòu)建包含回溯和反思等行為的長思維。

嘗試 2：提議 - 批評循環(huán) 嘗試 1 通過基于預定義規(guī)則在樹上執(zhí)行搜索來構(gòu)建長思維，但這限制了回溯和反思等行為的自由度。因此，團隊嘗試讓模型選擇自己當前的行為。團隊構(gòu)建了一個提議 - 批評循環(huán)，其中為模型預定義了一些可能的行為（即繼續(xù)、回溯、反思、終止），并讓模型自身選擇行為來構(gòu)建推理樹。如果樹沒有達到最終答案，可以將這個負面信號告知模型，引導它反思和糾正其方法。

嘗試 3：多智能體方法基于推理樹構(gòu)建長思維存在幾個挑戰(zhàn)，包括存在許多冗余的無效節(jié)點，以及存在不依賴于反思行為的推理步驟，從而引起構(gòu)建的長思維邏輯不一致。為解決這個問題，團隊設計了一個利用多智能體辯論的算法，其中一個智能體充當策略模型，持續(xù)推理，而另一個智能體充當評論模型，指示策略模型是否應該繼續(xù)當前推理或執(zhí)行回溯等行為。兩個智能體進行持續(xù)對話，在找到正確答案時自然構(gòu)建長思維數(shù)據(jù)集。

嘗試 4：完整的人類思維過程注釋 當人類處理推理問題時，他們通常不會不斷地向前推理直到解決問題或失��；相反，他們在無法繼續(xù)時會反思、回溯和重寫推理。這種行為與長思維的特征高度一致。因此，可以忠實且全面地記錄人類解決推理任務的過程，從而產(chǎn)生高質(zhì)量的長思維。

Q4: 如何構(gòu)建獎勵模型？

使用獎勵模型的第一步是定義粒度。團隊的目標不僅僅是關注最終結(jié)果，而是專門提高 LLMs 在反思、回溯和相關認知過程方面的能力。因此，團隊將評估粒度定義在步驟層面。具體來說，團隊使用來自 Abel 的微調(diào)數(shù)據(jù)，通過行號使解決方案變得清晰可辨。

實現(xiàn)獎勵模型的過程可以使用開源模型或是調(diào)用閉源模型的 api。團隊比較了不同獎勵模型在 PRM800K 和 MR-GSM8K 子集上的元評估表現(xiàn)。如下表格展示了結(jié)果，其中，o1-mini 在不同數(shù)據(jù)集上表現(xiàn)最佳，證明其是一個良好的獎勵模型。

上交大發(fā)布首個OpenAI o1復現(xiàn)項目進展報告，滿滿的經(jīng)驗洞察

Q5: 如何構(gòu)建 on-policy 推理樹？

構(gòu)建推理樹需要一個能夠執(zhí)行單步推理的策略模型。給定一個問題及其相應的最終答案，策略模型從問題作為根節(jié)點開始，不斷向樹中添加新節(jié)點。它首先生成 w 個可能的第一步推理步驟作為根節(jié)點的子節(jié)點。然后，它迭代地進行前向推理，為每個當前節(jié)點（如第一步推理）生成 w 個可能的后續(xù)推理步驟作為該節(jié)點的子節(jié)點。這個過程重復進行，直到達到預設的最大深度或所有葉節(jié)點達到最終答案。

策略模型和步驟分段構(gòu)建推理樹需要清晰定義推理步驟。為此，團隊采用 Abel 提出的數(shù)據(jù)格式，將數(shù)學問題解決方案轉(zhuǎn)化為具有清晰步驟的形式，將答案分成多行，每行以行號開始，并包含該行內(nèi)的推理。因此，使用 Abel 數(shù)據(jù)集對 DeepSeekMath-7B-Base 進行微調(diào)，得到 Abel-DSMath，作為策略模型。在這種特定格式數(shù)據(jù)上微調(diào)的模型可以方便地控制單個推理步驟的生成。

獎勵模型和剪枝上述提出的樹生成算法計算成本高昂。當設置后續(xù)推理步驟數(shù)目為 3 和深度為 10 時，最后一次迭代需要生成 3 的 10 次方個推理步驟。因此，使用獎勵模型來剪除錯誤的推理步驟，提高操作效率。具體來說，團隊采用束搜索，在每次迭代中只選擇少量候選項保留到下一輪。根據(jù)使用的獎勵模型，剪枝實現(xiàn)的細節(jié)有所不同。團隊嘗試了兩個獎勵模型：math-shepherd 和 o1-mini。

Math-shepherd 為每個步驟提供一個介于 0 和 1 之間的實數(shù)，表示當前步驟正確的概率。在樹生成的每次迭代中，對所有推理步驟進行評分，并選擇得分最高的前 K 個進入下一次迭代。這將總生成次數(shù)進行剪枝。然而，math-shepherd 在評估困難問題的推理步驟時存在困難，需要一個更強大的獎勵模型，能夠為每個步驟提供高準確度的正確性指示。因此，最終使用 o1-mini 為每個步驟提供獎勵，直接指示每個推理步驟是否正確。此時，在樹生成的每次迭代中，利用來自 o1-mini 的獎勵，選擇最多 K 個正確的推理步驟進入下一次迭代。

Q6: 如何從推理樹中推導出長思維？

一旦構(gòu)建了推理樹，目標就變?yōu)樘剿魅绾螐耐评順滢D(zhuǎn)換為包含試錯過程的長思維。在該團隊的框架中，推理樹的每個節(jié)點都被獎勵模型標注，指示該步驟是否正確或錯誤。具體的合成步驟如下：

從推理樹構(gòu)建捷徑首先從推理樹構(gòu)建捷徑，其中只包括正確答案和有效的中間步驟。從代表問題的根節(jié)點開始，找出通向正確答案葉節(jié)點的路徑。如果有多個正確答案節(jié)點，則建立多條正確路徑。

遍歷推理樹為了得到長思維，采用深度優(yōu)先搜索（DFS）遍歷樹。這種遍歷按 DFS 順序構(gòu)建路徑，記錄從根問題節(jié)點到正確答案葉節(jié)點的每一步，同時包括任何被標記為錯誤的節(jié)點的推理。DFS 的挑戰(zhàn)在于它探索了龐大的搜索空間，產(chǎn)生了大量可能無法得到正確解決方案的試錯路徑。為了簡化這一初始探索，團隊還引入了具體的約束來緩解由于遍歷路徑過長導致的合成數(shù)據(jù)的復雜性。首先，根據(jù)節(jié)點是否位于正確路徑（即捷徑）上來標記樹中的所有節(jié)點。遍歷遵循以下規(guī)則：

正確路徑上的節(jié)點：DFS 遇到正確路徑上的節(jié)點時，它可能會探索導致錯誤結(jié)果的子節(jié)點，從而模擬試錯的過程。一旦這個節(jié)點到達葉節(jié)點并被確定為錯誤，算法就會回溯并切換到正確的路徑繼續(xù)遍歷。

不在正確路徑上的節(jié)點：隨機選擇一個子節(jié)點進行探索，并不產(chǎn)生試錯的分支。

為進一步簡化過程，應用了一個額外的約束：正確路徑上的每個節(jié)點最多允許 K 次試錯一次在錯誤路徑上的試錯和一次在正確路徑上的探索。這些約束確保 DFS 遍歷專注有意義的試錯探索，同時避免過度探索錯誤路徑。在未來的實驗中，計劃移除或調(diào)整這些約束，以研究試錯路徑長度與最終模型性能之間的關系。

從遍歷路徑得到長思維 生成遍歷路徑并將推理附加到錯誤節(jié)點后，通過連接路徑中的所有步驟來構(gòu)建長思維，其中還包含了每個錯誤步驟的推理。然而，初步實驗表明，使用這個形式的長思維數(shù)據(jù)來訓練模型的性能不佳。為解決這個問題，團隊嘗試使用 GPT-4o 來修改草稿。GPT-4o 在保留所有推理步驟（包括錯誤步驟、反思和修正）的同時，增強了思維過程的連貫性和流暢性。這種方法確保最終的長思維不僅準確，而且自然流暢，模擬了包含正確和錯誤步驟的人類問題解決過程。

Q7: 如何評估我們的嘗試方法？

上交大發(fā)布首個OpenAI o1復現(xiàn)項目進展報告，滿滿的經(jīng)驗洞察

圖：通過可交互的數(shù)據(jù)分析平臺可視化構(gòu)建的搜索樹

除了使用特定評估指標在基準測試上測試準確率分數(shù)外，人工審查實際案例（輸入輸出）是評估數(shù)據(jù)和模型的關鍵步驟。因此，為了提供一種更直觀的方式來評估模型在特定問題上的表現(xiàn)，團隊構(gòu)建了一個可視化數(shù)據(jù)分析平臺。

具體來說，可視化平臺包括合成樹及其對應長思維的可視化，以及訓練模型的輸出。此外，在可視化結(jié)果時，支持詳細的條件過濾，例如過濾正確或錯誤回答的問題，或輸出是否包含表示反思或猶豫的關鍵詞（如 "wait"）。另外，可視化平臺支持不同迭代輪次的合成數(shù)據(jù)和模型輸出之間的比較，這使得團隊可以非常直觀地驗證新一輪的數(shù)據(jù)或模型是否有效。

Q8: 如何訓練我們的模型？

團隊實驗使用預訓練語言模型 deepseek-math-7b-base（更多其他模型已經(jīng)在等待列表中）。訓練過程分為兩個主要階段：監(jiān)督微調(diào)（SFT）和直接偏好學習（DPO）。

第一階段：監(jiān)督微調(diào)（SFT）:

SFT 過程包括兩個階段：

初始階段：在這個初始階段，團隊專注于使用只包含正確中間步驟和最終正確答案的響應來微調(diào)模型。在 Abel 數(shù)據(jù)集和 PRM800K 數(shù)據(jù)集上微調(diào) Deepseek-math-7b-base。對于 PRM800K 中的每個問題，使用單個正確的逐步解決方案，丟棄不導向最終答案的回復。在這個階段，對每個數(shù)據(jù)集進行一個 epoch 的微調(diào)，主要目的是讓模型熟悉所需的響應格式。

旅程學習：在第二階段，使用構(gòu)建的長思維（包含 327 個示例）進一步微調(diào)初始階段的 SFT 模型。這個階段旨在增強模型發(fā)現(xiàn)錯誤、自我反思、自我修正和執(zhí)行回溯的能力。通過在合成的包含試錯、反思的長思維數(shù)據(jù)上訓練，模型對更長推理鏈中涉及的復雜性有更深入的理解。為了比較，團隊還在從同一推理樹生成的相應捷徑上 (Shortcut Learning) 微調(diào)模型（同樣是 327 個），從而更直觀的比較旅程學習相比捷徑學習所帶來的增益。

第二階段：直接偏好學習（DPO）

在這個階段，使用核采樣（top_p = 0.95 和溫度 T = 0.7）從 MATH Train 數(shù)據(jù)集為每個問題生成 20 個回復。這 20 個回復根據(jù)最終答案的正確性分類為正面和負面響應。從中，隨機選擇 5 個正面響應和 5 個負面響應來創(chuàng)建 5 對偏好對。然后，使用這些偏好對和 DPO 損失來訓練模型，使其能夠從正確和錯誤答案的比較中學習。

Q9: 什么是人類和 AI 協(xié)同標注的有效策略？

團隊開發(fā)了一種人類和 AI 協(xié)作的數(shù)據(jù)標注流程，用于生成基于 MATH 數(shù)據(jù)集的高質(zhì)量、長文本推理數(shù)據(jù)。通過這個流程，我們將短短幾行人類標注的解題方案擴展為包含數(shù)千個 token 的、符合 “旅程學習” 范式的詳細推理過程。在構(gòu)建流程的過程中，我們發(fā)現(xiàn)了下面幾種有效的標注技巧：

完整的思維過程：標注者不必詳細記錄每一個想到的詞語，但必須記錄每一個嘗試、反思、聯(lián)想和修正的過程。這些發(fā)散的認知路徑在日常思考中可能并未被表達成文字，甚至沒有被顯式認知。然而，捕捉這些思維轉(zhuǎn)變以及背后的原因是至關重要的。這種規(guī)劃和理解認知轉(zhuǎn)換的能力是大語言模型從我們的數(shù)據(jù)中必須學習的核心技能。

補充解釋常識：人類在用語中經(jīng)常省略一些可以從上下文中推斷的信息，比如對前述公式的引用，或是對廣為人知的理論的應用。然而，當大語言模型嘗試解讀人類標注時，這種省略可能導致幻覺。因此，高質(zhì)量的數(shù)據(jù)必須包括對常識性知識的明確解釋，以防止大模型的誤解。

遵循以上兩個關鍵要素，人類專家即可完成數(shù)據(jù)標注，這些數(shù)據(jù)精簡但準確，非常利于大模型做進一步增強。下一階段，通過設計復雜的提示詞，我們通過大語言模型實現(xiàn)了數(shù)據(jù)擴展和增強。我們的提示詞包含以下關鍵點：

數(shù)據(jù)顆粒度的增強：提示詞強調(diào)將問題解決過程分解為更細小的步驟。通過將過程拆解成細粒度且易于理解的步驟塊，大語言模型能更好地掌握和內(nèi)化每個概念，確保在每個階段都有深入的理解。

逐步推理：提示詞控制大語言模型需頻繁暫停，反思已知信息或提出下一步的操作。這種停頓模仿了學生在思考問題時的自然過程，幫助他們保持參與感和對推理過程的連接感，而不僅僅是被動地遵循指令。

探索者視角：與直接呈現(xiàn)答案不同，大語言模型被鼓勵以探索的語氣進行推理，即假設自己是第一次思考這個問題。這種方式可以激發(fā)某種程度的 “好奇心”，鼓勵模型批判性思考，使他們感覺自己是學習過程的一部分，而不是簡單地接收信息。

為什么科學進展報告很重要？

研究團隊表示：傳統(tǒng)發(fā)論文方無法適應新的科研范式，人工智能技術的快速發(fā)展開創(chuàng)了一個新的研究范式時代，其特點是長期的、基于團隊的努力，通常持續(xù)六個月或更長時間。這種轉(zhuǎn)變雖然有利于突破性創(chuàng)新，但無意中給科學過程帶來了新的挑戰(zhàn)。長期團隊合作的內(nèi)向性經(jīng)常導致向更廣泛科學界信息流動的減少。此外，這些項目的長期性質(zhì)往往導致研究人員滿足感的延遲，可能在整個研究過程中培養(yǎng)焦慮和動力減弱。另外，大規(guī)模團隊項目的復雜性使得認可個人貢獻變得復雜，可能侵蝕傳統(tǒng)的學術激勵結(jié)構(gòu)。團隊的進展報告方法旨在通過增強透明度、促進實時反饋和認可，以及鼓勵對長期研究計劃的持續(xù)承諾來解決這些新出現(xiàn)的挑戰(zhàn)。在這樣的背景下，團隊認為 ”Scientific Progress Report“ （科研進展報告）是一種比現(xiàn)在”Scentific Paper“ （科研論文）更有價值的科研產(chǎn)出和成果分享的組織形式。團隊科學探索過程的細致記錄，尤其在 AI 能力快速發(fā)展的背景下，具有深遠意義。通過全面記錄探索過程，包括成功和失敗，團隊正在培育一個獨特而寶貴的數(shù)據(jù)集。這份全面的記錄對于訓練真正理解科學方法的 AI 模型至關重要。o1 的成功強調(diào)了 AI 系統(tǒng)不僅要學習結(jié)果，還要學習完整的科學探索過程，包括試錯的重要性。通過科研進展報告，不僅可以捕捉技術細節(jié)，還包括決策理由、靈感來源和思維過程。這些 "人類因素" 對于訓練能夠進行真實科學發(fā)現(xiàn)的 AI 模型至關重要。

下一步探索

團隊根據(jù)的研究時間線和取得的進展，確定了幾個未來探索和發(fā)展的關鍵方向：

擴展長思維的合成：基于在長思維合成方面的成功迭代，團隊計劃進行第三輪的數(shù)據(jù)集成。這將涉及處理更復雜和多樣的思維模式，可能揭示 o1 能力的新維度。

長思維擴展定律實驗：這個研究流程旨在理解模型的性能和能力如何隨著數(shù)據(jù)、模型大小和計算資源的增加而擴展。對這個規(guī)律的掌握對優(yōu)化方法和挖掘超級 AI 系統(tǒng)背后的基本原理至關重要。

細粒度、以思考為中心的評估：計劃開發(fā)和實施更復雜的評估方法，專注于細粒度、以思考為中心的評估。這種方法將讓我們更準確地衡量生成的長思維的質(zhì)量和連貫性，為模型推理能力提供更深入的洞察。

人機協(xié)作以提高思考質(zhì)量：未來計劃的一個關鍵部分是探索和增強人機協(xié)作，以產(chǎn)生更貼近人類思維的高質(zhì)量思考數(shù)據(jù)。這涉及開發(fā)利用人類智能和 AI 能力的共同優(yōu)勢，促進 AI 能力的突破。

持續(xù)改進獎勵和批評模型：基于過程級獎勵模型和評論模型設置，旨在進一步完善這些系統(tǒng)。這個持續(xù)的過程將涉及迭代改進，以更好地提供細粒度的監(jiān)督信號。

推理樹的合成優(yōu)化：計劃探索從推理樹中推導和集成長思維更復雜、有效的方法。這將涉及探索更加先進高效的算法來遍歷并利用復雜結(jié)構(gòu)中的信息。

擴展訓練方法：未來計劃包括進一步實驗和完善訓練流程。這包括增加預訓練階段、迭代訓練、強化學習、偏好學習和 DPO（直接偏好優(yōu)化）。

持續(xù)的透明度和資源共享：將繼續(xù)分享在整個科研旅程中開發(fā)的資源、觀察到的結(jié)論和工具。這種持續(xù)的做法旨在促進更廣泛的 AI 研究社區(qū)的協(xié)作和加速進展。

探索多代理方法：基于在多代理系統(tǒng)方面的初步嘗試，計劃深入研究這一領域，發(fā)現(xiàn)建模復雜推理和決策過程潛在的新方法。

完善分析工具：旨在進一步開發(fā)和增強分析工具。這些工具對解釋模型輸出、跟蹤進展和指導未來研究方向至關重要。

通過追求這些途徑，不僅推進我們對 o1 能力的理解和復制，還要推動 AI 研究方法的邊界。

核桃計劃

上交大發(fā)布首個OpenAI o1復現(xiàn)項目進展報告，滿滿的經(jīng)驗洞察

團隊借本項目正式引出 “核桃計劃” (https://gair-nlp.github.io/walnut-plan)，團隊成員表示：“對 o1 技術路線的探索及復現(xiàn)工作，僅僅是我們核桃計劃的一部分。核桃計劃旨在成為人工智能復雜推理和深度思考能力研究的開放先鋒，致力于推動 AI 從簡單的信息處理工具演變?yōu)榫邆?"牛頓" 和 "愛因斯坦" 級別深度思考能力的智能系統(tǒng)。我們將著眼于更長遠的研究，最終的偉大愿景是讓未來可以呈現(xiàn) AI 驅(qū)動的科研范式，即 AI 完全具備參與人類科研的水準，從而更好地服務人類、改變世界。”

上一篇：AI圖像革命才剛剛開始

下一篇：AI再奪諾獎！2024諾貝爾化學獎授予哈薩比斯等人

上交大發(fā)布首個OpenAI o1復現(xiàn)項目進展報告，滿滿的經(jīng)驗洞察
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-09 18:42:27 瀏覽：2962次

相關內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關于我們

版權聲明

上交大發(fā)布首個OpenAI o1復現(xiàn)項目進展報告，滿滿的經(jīng)驗洞察 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-09 18:42:27 瀏覽：2962次

相關內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關于我們

版權聲明

上交大發(fā)布首個OpenAI o1復現(xiàn)項目進展報告，滿滿的經(jīng)驗洞察
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-09 18:42:27 瀏覽：2962次