當前位置：人工智能實驗室> 企業(yè)新聞 > OpenAI草莓模型理化生達博士生水平，比GPT-4o強多了，ChatGPT可用

OpenAI草莓模型理化生達博士生水平，比GPT-4o強多了，ChatGPT可用
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-13 13:26:32 瀏覽：897次

導讀：劃重點 01OpenAI發(fā)布全新AI模型o1和o1 mini，具有進化的推理能力，能在回答前進行縝密思考。 02o1在物理、化學和生物學等基準任務上的表現(xiàn)與博士生相當，尤其在數(shù)學和編程方面表現(xiàn)出色。 03除此之外，o1-mini版本速度提升3~5倍，成本僅為標準版的1/5，擅長理...

劃重點

01OpenAI發(fā)布全新AI模型o1和o1 mini，具有進化的推理能力，能在回答前進行縝密思考。

02o1在物理、化學和生物學等基準任務上的表現(xiàn)與博士生相當，尤其在數(shù)學和編程方面表現(xiàn)出色。

03除此之外，o1-mini版本速度提升3~5倍，成本僅為標準版的1/5，擅長理工學科，尤其是數(shù)學和編程。

04目前，這兩款模型均限制了消息次數(shù)，預覽版和mini版每周發(fā)送消息次數(shù)分別為30、50條。

05OpenAI已公布o1模型背后的核心團隊成員，包括前OpenAI首席科學家Ilya Sutskever等。

以上內(nèi)容由騰訊混元大模型生成，僅供參考

智東西（公眾號：zhidxcom）

作者 | 香草

編輯 | 李水青

智東西9月13日報道，今日凌晨，OpenAI突然發(fā)布傳說中“草莓”模型的部分預覽版OpenAI o1預覽版。這是一系列全新AI模型，能推理復雜的任務，解決比以前科學、編程、數(shù)學模型更難的問題。

▲OpenAI發(fā)布o1模型

OpenAI o1是全新系列AI模型的第一款。與以往模型不同的是，它擁有進化的推理能力，會在回答前進行縝密思考，生成一個長長的內(nèi)部思維鏈，在競爭性編程問題上排名第89位，在美國數(shù)學奧林匹克預選資格賽中排名前500，在物理、生物、化學問題的基準測試中準確度超過了人類博士水平！

新發(fā)布的另一款o1 mini是一款更快、更小的模型，使用與o1類似的框架進行訓練。o1 mini擅長理工學科，尤其是數(shù)學和編程，其成本比o1預覽版便宜80%。

這兩款模型被OpenAI視為復雜推理任務的重大進步，因此被命名為o1，重置計數(shù)器，而非作為GPT系列的延續(xù)。

不過，推理增強版的o1模型，還是在9.9和9.11比大小這種“高階問題”上慘敗。

▲o1模型回答“比大小”問題

已經(jīng)離開OpenAI創(chuàng)業(yè)的OpenAI創(chuàng)始成員、前特斯拉AI高級總監(jiān)Andrej Karpathy今早發(fā)文吐槽：“o1-mini一直拒絕為我解決黎曼假設。模型懶惰仍然是一個主要的問題”

▲Andrej Karpathy吐槽o1 mini“懶惰”

OpenAI已對o1預覽版進行嚴格測試及評估，確保該模型可以安全發(fā)布。ChatGPT的Plus和Team用戶即日可選用兩款新模型，Tier 5級開發(fā)者亦率先獲得新模型的API訪問權(quán)限。

OpenAI還公布了o1模型背后的核心團隊成員，其中基礎貢獻成員21名，包括已經(jīng)離職創(chuàng)業(yè)的前OpenAI首席科學家Ilya Sutskever，團隊負責人有7名。

一、MMLU媲美人類專家，編程能力8倍殺GPT-4o

與此前曝料的一樣，OpenAI o1被訓練成為會花更多時間思考問題，而后再作出反應的模型。它在回答之前會先思考，產(chǎn)生一個很長的內(nèi)部思路鏈，并且能像人類一樣完善自己的思維過程，不斷嘗試新的策略并認識到自己的錯誤。

作為早期預覽模型，OpenAI o1目前只支持文本對話，不具備瀏覽網(wǎng)頁獲取信息、上傳文件和圖片等多模態(tài)能力。

性能方面，OpenAI o1在物理、化學和生物學等基準任務上的表現(xiàn)與博士生相當，并且在數(shù)學和編程方面表現(xiàn)出色。

▲OpenAI o1在數(shù)學、編程上的測評基準

在國際數(shù)學奧林匹克（IMO）資格考試中，OpenAI的上一代模型GPT-4o正確率為13%，而OpenAI o1則達到83%。在編程比賽Codeforces中，OpenAI o1的分數(shù)為89，而GPT-4o僅有11。即使是預覽版的o1-preview模型，性能也比GPT-4o要好數(shù)倍。

在大多數(shù)基準測試中，o1的表現(xiàn)都比GPT-4o要好得多，覆蓋57個MMLU子類別中的54個。在啟用視覺感知功能后，o1在MMLU上的得分為78.2%，成為第一個與人類專家相媲美的模型。

▲o1預覽版與GPT-4o性能對比

以下是OpenAI o1預覽版幾個示例：

1、解決一個復雜的邏輯難題

輸入一個復雜的年齡謎題：當公主的年齡是王子的兩倍時，當公主的年齡是他們現(xiàn)在年齡總和的一半時，公主就和王子一樣老了。問王子和公主的年齡是多大？給出這個問題的所有解決方案。

模型思考了20多秒后開始作答。其回答過程的邏輯非常連貫。首先是確定年齡方程，將給定語句轉(zhuǎn)化成數(shù)學方程，找到滿足這些方程的所有可能解。然后開始一步一步分析問題：

第一步定義變量，用P代表prince（王子），用Q代表princess（公主）；第二步理解問題中的兩個條件；第三部將條件轉(zhuǎn)化為方程；第四步解方程；第五步用這些值驗證所有條件；第六步給出所有可能的解法。

最后得出結(jié)論：

2、翻譯有錯誤的句子

添加額外不必要的輔音會影響韓語閱讀。母語使用者讀起來會感覺不自然，他們會在看到這類句子時自動更改并理解文本。但這對于模型來說是個有難度的挑戰(zhàn)。

輸入一個嚴重損壞的韓語提示詞后，OpenAI o1首先意識到輸入文本存在亂碼或未對齊的韓語字符，詢問用戶是否愿意檢查輸入錯誤。

o1模型會首先理解底層結(jié)構(gòu)，經(jīng)過大約10秒的思考來解碼亂碼文本、破譯文本、加強翻譯、理解概念，將其轉(zhuǎn)換回連貫語言。

與GPT-4o不同，o1模型在輸出答案前先對問題進行了思考，檢查這段文字，然后像破解答案一樣來將其修改成正確的句子。經(jīng)過大約15秒的思考，o1給出最終優(yōu)化版的翻譯。

這展示出推理能力成為解決問題的有力工具。

3、回答大語言模型中的知名棘手問題：單詞中字母計數(shù)

這個例子很簡單，輸入Strawberry單詞，讓模型回答這個詞里有幾個R。

結(jié)果GPT-4o給出錯誤回答：“2個。”

為什么這種高級模型會犯如此簡單的錯誤呢？這是因為像GPT-4o這樣的模型是為了處理文本而構(gòu)建的，而不是處理字符或單詞，因此它在遇到涉及理解字符和單詞概念的問題時可能會犯錯。

而基于推理的新模型o1在思考幾秒鐘后，能夠給出正確答案：

4、編程視頻游戲

讓模型用pygame制作一個名為《尋找松鼠（Squirrel Finder）》的視頻游戲，并輸入下述要求：用戶需要通過按箭頭鍵引導屏幕上的“考拉”圖標，避開漂浮的草莓，并在3秒的時間限制內(nèi)找到一只松鼠，以取得勝利。

這對以前的模型來說比較難，但o1預覽版已經(jīng)能夠做到。o1花了21秒思考，用思維過程來規(guī)劃代碼結(jié)構(gòu)，包括收集游戲布局的細節(jié)、繪制指令、設置屏幕等等，再輸出最終的游戲編程代碼。

復制粘貼代碼到Sublime Text編輯器中，運行后，會先有幾行簡要提示語。

然后就可以開始玩《尋找松鼠》游戲了。

與以前的模型相比，o1模型展現(xiàn)出明顯增強的規(guī)劃能力。

二、迷你版速度提升3~5倍，成本僅為標準版1/5

OpenAI還發(fā)布了“小杯版”模型OpenAI o1-mini，其速度更快、成本更低，且與標準版一樣在數(shù)學、編程方面表現(xiàn)突出。

OpenAI o1-mini在預訓練期間，針對STEM（科學、技術、工程、數(shù)學四門學科）推理進行了優(yōu)化。在使用與o1相同的高計算強化學習（RL）管道進行訓練后，o1-mini在許多推理任務上性能優(yōu)越，同時成本效率顯著提高。

OpenAI o1-mini比預覽版OpenAI o1便宜80%，適用于需要推理但不需要廣泛世界知識的應用程序。在一些對智能和推理提出要求的基準測試中，o1-mini的表現(xiàn)甚至優(yōu)于o1-preview。

▲數(shù)學性能與推理成本曲線

在高中數(shù)學競賽AIME中，o1-mini正確率為70%，大約相當于美國高中生前500名。同時，o1、o1-preview正確率分別為74.4%、44.6%，但o1-mini價格比它們便宜得多。

在人類偏好評估上，OpenAI通過讓人類評分者在不同領域，針對對具有挑戰(zhàn)性的開放式提示詞測試o1-mini、o1-preview，并和GPT-4o進行比較，得到以下測試結(jié)果。與o1-preview類似，o1-mini在推理任務繁重的領域比GPT-4o更受歡迎，但在以語言為中心的領域則不被看好。

▲人類偏好評估結(jié)果

速度方面，GPT-4o、o1-mini和o1-preview回答同一個單詞推理問題分別耗時3秒、9秒、32秒，但GPT-4o的回答是錯誤的，后兩者回答正確�？梢钥闯�，o1-mini得出答案的速度比o1快了大約3~5倍。

▲GPT-4o、o1-mini和o1-preview回答速度

當然，畢竟是“閹割版”，OpenAI o1-mini也一定的局限性。在日期、傳記和日常瑣事等非STEM主題的事實知識上，o1-mini有所局限，表現(xiàn)與GPT-4o mini等小型模型相當。OpenAI稱將在未來版本中改進這些限制，將模型擴展到STEM之外的其他專業(yè)及模態(tài)。

三、引入推理標記，用思維鏈解決難題

與人類類似，o1在回答難題之前會進行長時間思考，且嘗試解決問題時會使用思維鏈（Chain of Thought）。

通過強化學習，o1學會了改進思維鏈和使用策略。它能夠識別和糾正錯誤，將棘手的步驟分解為更簡單的步驟，并且在當前方法不起作用時嘗試不同的方法。這一過程極大地提高了模型的推理能力。

具體來說，o1模型引入了推理標記（Reasoning Tokens）。這些推理標記被用于進行“思考”，分解對提示的詞理解，并考慮多種生成響應的方法。推理標記生成后，模型會將答案生成為可見的完成標記（Completion Tokens），并從其上下文中丟棄推理標記。

以下是用戶與模型之間進行多步驟對話的示例。每個步驟的輸入和輸出標記都會被保留，而推理標記則會被丟棄。

▲o1模型推理過程

值得注意的是，OpenAI在進行大規(guī)模強化學習算法訓練時，發(fā)現(xiàn)隨著強化學習、思考時間的增加，或者說隨著訓練時間、測試時間的增加，o1的性能會持續(xù)提高。這與大模型預訓練中的Scaling Law大不相同。

▲o1性能隨著訓練時間和測試時間計算而平穩(wěn)提升

為了展現(xiàn)o1實現(xiàn)的飛躍，OpenAI公開了預覽版o1在解決編程、數(shù)學、解碼、英語等難題時產(chǎn)生的思維鏈。

例如當拿到一道解碼題目，GPT-4o先是拆解出了輸入、輸出和示例，隨后開始分析可能的解碼方式。

▲GPT-4o拆解輸入、輸出和示例

它猜測第一個短語可能遵循與示例相同的結(jié)構(gòu)，意識到輸入文本似乎可以根據(jù)自然分隔或模式分成組，但隨后就“歇菜”了，稱自己需要更多關于可能涉及的轉(zhuǎn)換或字母移位的上下文。

▲GPT-4o稱需要更多信息

另一邊，OpenAI o1-preview則通過一番思考準確給出了答案。

▲o1-preview正確解答解碼問題

雖然最后呈現(xiàn)出的答案很簡短，但o1的思考過程非常長，并且思考方式和用詞很像人類。它會先問自己“這里發(fā)生了什么”，然后復述一遍要求，隨后開始拆解任務、明確目標。

▲o1思考過程

接著，o1開始觀察自己得到的信息，并逐步分析。

▲o1思考過程

在進行了一些推理后，o1開始提出不同的解決方案。在這個過程中，還會像人類一樣突然說“等一下，我覺得……”，然后思維一轉(zhuǎn)開始嘗試新的方法。

▲o1思考過程

不僅如此，在o1的思考過程中甚至還會出現(xiàn)“嗯”、“有趣”等口語化、情緒化的表達。

▲o1思考過程

完整的思維鏈非常長，這里不再一一贅述。總得來看確實如OpenAI所說，o1能夠像人類一樣不斷完善自己的思維過程，嘗試新的策略、認識到自己的錯誤并解決。而且這里的“像人類”不僅局限于思考方式，還體現(xiàn)在語氣上。

四、每周可對話30~50次，Ilya參與基礎貢獻

不同于以往，這次OpenAI沒上期貨，而是直接上線了兩款模型。

即日起，ChatGPT Plus和Team用戶可以在ChatGPT中訪問o1模型，通過模型選擇器手動選擇o1-preview或o1-mini；企業(yè)和教育用戶則下周起可以使用，面向免費用戶未來也有獲取訪問權(quán)限的計劃。

▲用戶可在ChatGPT訪問o1模型

但也許是出于安全或成本的考慮，目前這兩款模型均限制了消息次數(shù)，預覽版和mini版每周發(fā)送消息次數(shù)分別為30、50條。OpenAI稱正在努力提高額度，并使ChatGPT能夠根據(jù)給定的提示詞，自動選擇合適的模型。

OpenAI還上線了o1模型的API（應用程序接口）。符合等級的開發(fā)人員現(xiàn)在可以開始使用兩種模型的API進行原型設計，速率限制為20 RPM。這些API目前不包括函數(shù)調(diào)用、流式傳輸、對系統(tǒng)消息的支持等其他功能。

▲o1、o1 mini模型API

從API文檔可見，這兩款模型的上下文窗口均為128k，而mini版輸出窗口更長，是o1的兩倍，此外兩款模型訓練數(shù)據(jù)均截至2023年10月。

OpenAI還公布了o1模型背后的核心團隊成員：

▲o1模型背后的核心團隊成員

其中基礎貢獻成員有21名，包括已經(jīng)離職創(chuàng)業(yè)的前OpenAI首席科學家Ilya Sutskever。

團隊負責人有7名，分別是Jakub Pachocki、Jerry Tworek (overall)、Liam Fedus、Lukasz Kaiser、Mark Chen、Szymon Sidor、Wojciech Zaremba。項目經(jīng)理是Lauren Yang和Mianna Chen。

據(jù)其團隊成員介紹，推理是一種將思考時間轉(zhuǎn)化為更好結(jié)果的能力，他們投入比以前更多的計算，訓練模型產(chǎn)生連貫的思路，產(chǎn)生與以前截然不同的表現(xiàn)。

他們使用強化學習訓練AI模型生成和磨練自己的思維鏈，甚至能比人類為它編寫的思維鏈做得更好。這種訓練AI模型產(chǎn)生自己的思維過程的方式，使其理解和糾正錯誤的能力顯著提高，早期o1模型已經(jīng)在數(shù)據(jù)測試中取得更高的分數(shù)。

核心貢獻者和其他貢獻者名單如下：

▲o1核心貢獻者和其他貢獻者名單

行政領導包括OpenAI的CEO Sam Altman、總裁Greg Brockman、CEO Mira Murati等8人，支持領導有8人。

▲o1行政領導、支持領導

全新o1模型可根據(jù)上下文推斷并更有效地利用安全規(guī)則。OpenAI已對o1-preview進行了嚴格的測試及評估，確保該模型可以安全發(fā)布，不會增加現(xiàn)有資源可能帶來的風險。

結(jié)語：OpenAI掀桌子，“草莓”重構(gòu)大模型格局？

從神秘Q*模型到“草莓”模型，OpenAI的新模型終于面世。自去年11月OpenAI“政變”開始，這一模型就被曝成為導致阿爾特曼被開除的關鍵因素之一。當時據(jù)傳Q*模型的演示在OpenAI內(nèi)部流傳，發(fā)展速度讓一些AI安全研究人員感到震驚。

不同于GPT-4o，o1模型選擇直接開啟了一個新的數(shù)字命名系列，而不是GPT的延續(xù)，這表明了OpenAI對其的重視。

在如今一眾大模型廠商開始卷多模態(tài)、卷應用的情況下，OpenAI發(fā)布純文本模型o1，也許會再次將大眾的目光拉向底層模型能力的提升。大模型格局是否會在o1的影響下重構(gòu)，還有待進一步觀察。

相關熱詞： OpenAI 草莓模型化生博士生水平 GPT-4o

上一篇：OpenAI發(fā)布具有推理能力的人工智能模型o1

下一篇：OpenAI o1模型問世，五級AGI再突破！推理極限超博士，華人立功

AiLab云推薦

OpenAI草莓模型理化生達博士生水平，比GPT-4o強多了，ChatGPT可用
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-13 13:26:32 瀏覽：897次

相關內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關于我們

版權(quán)聲明

OpenAI草莓模型理化生達博士生水平，比GPT-4o強多了，ChatGPT可用 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-13 13:26:32 瀏覽：897次

相關內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關于我們

版權(quán)聲明

OpenAI草莓模型理化生達博士生水平，比GPT-4o強多了，ChatGPT可用
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-13 13:26:32 瀏覽：897次