展會信息港展會大全

OpenAI草莓模型理化生達博士生水平,比GPT-4o強多了,ChatGPT可用
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-13 13:26:32   瀏覽:897次  

導讀:劃重點 01OpenAI發(fā)布全新AI模型o1和o1 mini,具有進化的推理能力,能在回答前進行縝密思考。 02o1在物理、化學和生物學等基準任務上的表現(xiàn)與博士生相當,尤其在數(shù)學和編程方面表現(xiàn)出色。 03除此之外,o1-mini版本速度提升3~5倍,成本僅為標準版的1/5,擅長理...

劃重點

01OpenAI發(fā)布全新AI模型o1和o1 mini,具有進化的推理能力,能在回答前進行縝密思考。

02o1在物理、化學和生物學等基準任務上的表現(xiàn)與博士生相當,尤其在數(shù)學和編程方面表現(xiàn)出色。

03除此之外,o1-mini版本速度提升3~5倍,成本僅為標準版的1/5,擅長理工學科,尤其是數(shù)學和編程。

04目前,這兩款模型均限制了消息次數(shù),預覽版和mini版每周發(fā)送消息次數(shù)分別為30、50條。

05OpenAI已公布o1模型背后的核心團隊成員,包括前OpenAI首席科學家Ilya Sutskever等。

以上內(nèi)容由騰訊混元大模型生成,僅供參考

智東西(公眾號:zhidxcom)

作者 | 香草

編輯 | 李水青

智東西9月13日報道,今日凌晨,OpenAI突然發(fā)布傳說中“草莓”模型的部分預覽版OpenAI o1預覽版。這是一系列全新AI模型,能推理復雜的任務,解決比以前科學、編程、數(shù)學模型更難的問題。

▲OpenAI發(fā)布o1模型

OpenAI o1是全新系列AI模型的第一款。與以往模型不同的是,它擁有進化的推理能力,會在回答前進行縝密思考,生成一個長長的內(nèi)部思維鏈,在競爭性編程問題上排名第89位,在美國數(shù)學奧林匹克預選資格賽中排名前500,在物理、生物、化學問題的基準測試中準確度超過了人類博士水平!

新發(fā)布的另一款o1 mini是一款更快、更小的模型,使用與o1類似的框架進行訓練。o1 mini擅長理工學科,尤其是數(shù)學和編程,其成本比o1預覽版便宜80%。

這兩款模型被OpenAI視為復雜推理任務的重大進步,因此被命名為o1,重置計數(shù)器,而非作為GPT系列的延續(xù)。

不過,推理增強版的o1模型,還是在9.9和9.11比大小這種“高階問題”上慘敗。

▲o1模型回答“比大小”問題

已經(jīng)離開OpenAI創(chuàng)業(yè)的OpenAI創(chuàng)始成員、前特斯拉AI高級總監(jiān)Andrej Karpathy今早發(fā)文吐槽:“o1-mini一直拒絕為我解決黎曼假設。模型懶惰仍然是一個主要的問題”

▲Andrej Karpathy吐槽o1 mini“懶惰”

OpenAI已對o1預覽版進行嚴格測試及評估,確保該模型可以安全發(fā)布。ChatGPT的Plus和Team用戶即日可選用兩款新模型,Tier 5級開發(fā)者亦率先獲得新模型的API訪問權(quán)限。

OpenAI還公布了o1模型背后的核心團隊成員,其中基礎貢獻成員21名,包括已經(jīng)離職創(chuàng)業(yè)的前OpenAI首席科學家Ilya Sutskever,團隊負責人有7名。

一、MMLU媲美人類專家,編程能力8倍殺GPT-4o

與此前曝料的一樣,OpenAI o1被訓練成為會花更多時間思考問題,而后再作出反應的模型。它在回答之前會先思考,產(chǎn)生一個很長的內(nèi)部思路鏈,并且能像人類一樣完善自己的思維過程,不斷嘗試新的策略并認識到自己的錯誤。

作為早期預覽模型,OpenAI o1目前只支持文本對話,不具備瀏覽網(wǎng)頁獲取信息、上傳文件和圖片等多模態(tài)能力。

性能方面,OpenAI o1在物理、化學和生物學等基準任務上的表現(xiàn)與博士生相當,并且在數(shù)學和編程方面表現(xiàn)出色。

▲OpenAI o1在數(shù)學、編程上的測評基準

在國際數(shù)學奧林匹克(IMO)資格考試中,OpenAI的上一代模型GPT-4o正確率為13%,而OpenAI o1則達到83%。在編程比賽Codeforces中,OpenAI o1的分數(shù)為89,而GPT-4o僅有11。即使是預覽版的o1-preview模型,性能也比GPT-4o要好數(shù)倍。

在大多數(shù)基準測試中,o1的表現(xiàn)都比GPT-4o要好得多,覆蓋57個MMLU子類別中的54個。在啟用視覺感知功能后,o1在MMLU上的得分為78.2%,成為第一個與人類專家相媲美的模型。

▲o1預覽版與GPT-4o性能對比

以下是OpenAI o1預覽版幾個示例:

1、解決一個復雜的邏輯難題

輸入一個復雜的年齡謎題:當公主的年齡是王子的兩倍時,當公主的年齡是他們現(xiàn)在年齡總和的一半時,公主就和王子一樣老了。問王子和公主的年齡是多大?給出這個問題的所有解決方案。

模型思考了20多秒后開始作答。其回答過程的邏輯非常連貫。首先是確定年齡方程,將給定語句轉(zhuǎn)化成數(shù)學方程,找到滿足這些方程的所有可能解。然后開始一步一步分析問題:

第一步定義變量,用P代表prince(王子),用Q代表princess(公主);第二步理解問題中的兩個條件;第三部將條件轉(zhuǎn)化為方程;第四步解方程;第五步用這些值驗證所有條件;第六步給出所有可能的解法。

最后得出結(jié)論:

2、翻譯有錯誤的句子

添加額外不必要的輔音會影響韓語閱讀。母語使用者讀起來會感覺不自然,他們會在看到這類句子時自動更改并理解文本。但這對于模型來說是個有難度的挑戰(zhàn)。

輸入一個嚴重損壞的韓語提示詞后,OpenAI o1首先意識到輸入文本存在亂碼或未對齊的韓語字符,詢問用戶是否愿意檢查輸入錯誤。

o1模型會首先理解底層結(jié)構(gòu),經(jīng)過大約10秒的思考來解碼亂碼文本、破譯文本、加強翻譯、理解概念,將其轉(zhuǎn)換回連貫語言。

與GPT-4o不同,o1模型在輸出答案前先對問題進行了思考,檢查這段文字,然后像破解答案一樣來將其修改成正確的句子。經(jīng)過大約15秒的思考,o1給出最終優(yōu)化版的翻譯。

這展示出推理能力成為解決問題的有力工具。

3、回答大語言模型中的知名棘手問題:單詞中字母計數(shù)

這個例子很簡單,輸入Strawberry單詞,讓模型回答這個詞里有幾個R。

結(jié)果GPT-4o給出錯誤回答:“2個。”

為什么這種高級模型會犯如此簡單的錯誤呢?這是因為像GPT-4o這樣的模型是為了處理文本而構(gòu)建的,而不是處理字符或單詞,因此它在遇到涉及理解字符和單詞概念的問題時可能會犯錯。

而基于推理的新模型o1在思考幾秒鐘后,能夠給出正確答案:

4、編程視頻游戲

讓模型用pygame制作一個名為《尋找松鼠(Squirrel Finder)》的視頻游戲,并輸入下述要求:用戶需要通過按箭頭鍵引導屏幕上的“考拉”圖標,避開漂浮的草莓,并在3秒的時間限制內(nèi)找到一只松鼠,以取得勝利。

這對以前的模型來說比較難,但o1預覽版已經(jīng)能夠做到。o1花了21秒思考,用思維過程來規(guī)劃代碼結(jié)構(gòu),包括收集游戲布局的細節(jié)、繪制指令、設置屏幕等等,再輸出最終的游戲編程代碼。

復制粘貼代碼到Sublime Text編輯器中,運行后,會先有幾行簡要提示語。

然后就可以開始玩《尋找松鼠》游戲了。

與以前的模型相比,o1模型展現(xiàn)出明顯增強的規(guī)劃能力。

二、迷你版速度提升3~5倍,成本僅為標準版1/5

OpenAI還發(fā)布了“小杯版”模型OpenAI o1-mini,其速度更快、成本更低,且與標準版一樣在數(shù)學、編程方面表現(xiàn)突出。

OpenAI o1-mini在預訓練期間,針對STEM(科學、技術、工程、數(shù)學四門學科)推理進行了優(yōu)化。在使用與o1相同的高計算強化學習(RL)管道進行訓練后,o1-mini在許多推理任務上性能優(yōu)越,同時成本效率顯著提高。

OpenAI o1-mini比預覽版OpenAI o1便宜80%,適用于需要推理但不需要廣泛世界知識的應用程序。在一些對智能和推理提出要求的基準測試中,o1-mini的表現(xiàn)甚至優(yōu)于o1-preview。

▲數(shù)學性能與推理成本曲線

在高中數(shù)學競賽AIME中,o1-mini正確率為70%,大約相當于美國高中生前500名。同時,o1、o1-preview正確率分別為74.4%、44.6%,但o1-mini價格比它們便宜得多。

在人類偏好評估上,OpenAI通過讓人類評分者在不同領域,針對對具有挑戰(zhàn)性的開放式提示詞測試o1-mini、o1-preview,并和GPT-4o進行比較,得到以下測試結(jié)果。與o1-preview類似,o1-mini在推理任務繁重的領域比GPT-4o更受歡迎,但在以語言為中心的領域則不被看好。

▲人類偏好評估結(jié)果

速度方面,GPT-4o、o1-mini和o1-preview回答同一個單詞推理問題分別耗時3秒、9秒、32秒,但GPT-4o的回答是錯誤的,后兩者回答正確?梢钥闯,o1-mini得出答案的速度比o1快了大約3~5倍。

▲GPT-4o、o1-mini和o1-preview回答速度

當然,畢竟是“閹割版”,OpenAI o1-mini也一定的局限性。在日期、傳記和日常瑣事等非STEM主題的事實知識上,o1-mini有所局限,表現(xiàn)與GPT-4o mini等小型模型相當。OpenAI稱將在未來版本中改進這些限制,將模型擴展到STEM之外的其他專業(yè)及模態(tài)。

三、引入推理標記,用思維鏈解決難題

與人類類似,o1在回答難題之前會進行長時間思考,且嘗試解決問題時會使用思維鏈(Chain of Thought)。

通過強化學習,o1學會了改進思維鏈和使用策略。它能夠識別和糾正錯誤,將棘手的步驟分解為更簡單的步驟,并且在當前方法不起作用時嘗試不同的方法。這一過程極大地提高了模型的推理能力。

具體來說,o1模型引入了推理標記(Reasoning Tokens)。這些推理標記被用于進行“思考”,分解對提示的詞理解,并考慮多種生成響應的方法。推理標記生成后,模型會將答案生成為可見的完成標記(Completion Tokens),并從其上下文中丟棄推理標記。

以下是用戶與模型之間進行多步驟對話的示例。每個步驟的輸入和輸出標記都會被保留,而推理標記則會被丟棄。

▲o1模型推理過程

值得注意的是,OpenAI在進行大規(guī)模強化學習算法訓練時,發(fā)現(xiàn)隨著強化學習、思考時間的增加,或者說隨著訓練時間、測試時間的增加,o1的性能會持續(xù)提高。這與大模型預訓練中的Scaling Law大不相同。

▲o1性能隨著訓練時間和測試時間計算而平穩(wěn)提升

為了展現(xiàn)o1實現(xiàn)的飛躍,OpenAI公開了預覽版o1在解決編程、數(shù)學、解碼、英語等難題時產(chǎn)生的思維鏈。

例如當拿到一道解碼題目,GPT-4o先是拆解出了輸入、輸出和示例,隨后開始分析可能的解碼方式。

▲GPT-4o拆解輸入、輸出和示例

它猜測第一個短語可能遵循與示例相同的結(jié)構(gòu),意識到輸入文本似乎可以根據(jù)自然分隔或模式分成組,但隨后就“歇菜”了,稱自己需要更多關于可能涉及的轉(zhuǎn)換或字母移位的上下文。

▲GPT-4o稱需要更多信息

另一邊,OpenAI o1-preview則通過一番思考準確給出了答案。

▲o1-preview正確解答解碼問題

雖然最后呈現(xiàn)出的答案很簡短,但o1的思考過程非常長,并且思考方式和用詞很像人類。它會先問自己“這里發(fā)生了什么”,然后復述一遍要求,隨后開始拆解任務、明確目標。

▲o1思考過程

接著,o1開始觀察自己得到的信息,并逐步分析。

▲o1思考過程

在進行了一些推理后,o1開始提出不同的解決方案。在這個過程中,還會像人類一樣突然說“等一下,我覺得……”,然后思維一轉(zhuǎn)開始嘗試新的方法。

▲o1思考過程

不僅如此,在o1的思考過程中甚至還會出現(xiàn)“嗯”、“有趣”等口語化、情緒化的表達。

▲o1思考過程

完整的思維鏈非常長,這里不再一一贅述。總得來看確實如OpenAI所說,o1能夠像人類一樣不斷完善自己的思維過程,嘗試新的策略、認識到自己的錯誤并解決。而且這里的“像人類”不僅局限于思考方式,還體現(xiàn)在語氣上。

四、每周可對話30~50次,Ilya參與基礎貢獻

不同于以往,這次OpenAI沒上期貨,而是直接上線了兩款模型。

即日起,ChatGPT Plus和Team用戶可以在ChatGPT中訪問o1模型,通過模型選擇器手動選擇o1-preview或o1-mini;企業(yè)和教育用戶則下周起可以使用,面向免費用戶未來也有獲取訪問權(quán)限的計劃。

▲用戶可在ChatGPT訪問o1模型

但也許是出于安全或成本的考慮,目前這兩款模型均限制了消息次數(shù),預覽版和mini版每周發(fā)送消息次數(shù)分別為30、50條。OpenAI稱正在努力提高額度,并使ChatGPT能夠根據(jù)給定的提示詞,自動選擇合適的模型。

OpenAI還上線了o1模型的API(應用程序接口)。符合等級的開發(fā)人員現(xiàn)在可以開始使用兩種模型的API進行原型設計,速率限制為20 RPM。這些API目前不包括函數(shù)調(diào)用、流式傳輸、對系統(tǒng)消息的支持等其他功能。

▲o1、o1 mini模型API

從API文檔可見,這兩款模型的上下文窗口均為128k,而mini版輸出窗口更長,是o1的兩倍,此外兩款模型訓練數(shù)據(jù)均截至2023年10月。

OpenAI還公布了o1模型背后的核心團隊成員:

▲o1模型背后的核心團隊成員

其中基礎貢獻成員有21名,包括已經(jīng)離職創(chuàng)業(yè)的前OpenAI首席科學家Ilya Sutskever。

團隊負責人有7名,分別是Jakub Pachocki、Jerry Tworek (overall)、Liam Fedus、Lukasz Kaiser、Mark Chen、Szymon Sidor、Wojciech Zaremba。項目經(jīng)理是Lauren Yang和Mianna Chen。

據(jù)其團隊成員介紹,推理是一種將思考時間轉(zhuǎn)化為更好結(jié)果的能力,他們投入比以前更多的計算,訓練模型產(chǎn)生連貫的思路,產(chǎn)生與以前截然不同的表現(xiàn)。

他們使用強化學習訓練AI模型生成和磨練自己的思維鏈,甚至能比人類為它編寫的思維鏈做得更好。這種訓練AI模型產(chǎn)生自己的思維過程的方式,使其理解和糾正錯誤的能力顯著提高,早期o1模型已經(jīng)在數(shù)據(jù)測試中取得更高的分數(shù)。

核心貢獻者和其他貢獻者名單如下:

▲o1核心貢獻者和其他貢獻者名單

行政領導包括OpenAI的CEO Sam Altman、總裁Greg Brockman、CEO Mira Murati等8人,支持領導有8人。

▲o1行政領導、支持領導

全新o1模型可根據(jù)上下文推斷并更有效地利用安全規(guī)則。OpenAI已對o1-preview進行了嚴格的測試及評估,確保該模型可以安全發(fā)布,不會增加現(xiàn)有資源可能帶來的風險。

結(jié)語:OpenAI掀桌子,“草莓”重構(gòu)大模型格局?

從神秘Q*模型到“草莓”模型,OpenAI的新模型終于面世。自去年11月OpenAI“政變”開始,這一模型就被曝成為導致阿爾特曼被開除的關鍵因素之一。當時據(jù)傳Q*模型的演示在OpenAI內(nèi)部流傳,發(fā)展速度讓一些AI安全研究人員感到震驚。

不同于GPT-4o,o1模型選擇直接開啟了一個新的數(shù)字命名系列,而不是GPT的延續(xù),這表明了OpenAI對其的重視。

在如今一眾大模型廠商開始卷多模態(tài)、卷應用的情況下,OpenAI發(fā)布純文本模型o1,也許會再次將大眾的目光拉向底層模型能力的提升。大模型格局是否會在o1的影響下重構(gòu),還有待進一步觀察。

贊助本站

人工智能實驗室
相關內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港