當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > Open AI發(fā)布新一代模型01

Open AI發(fā)布新一代模型01
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-13 13:28:13 瀏覽：2199次

導(dǎo)讀：文 | 王智遠(yuǎn) 凌晨1點(diǎn)，我還在追劇。這時(shí)，朋友發(fā)來一條消息說：Open AI發(fā)布了新模型，你在電腦上試試看能用嗎？哎，大哥，都要睡覺了，這要強(qiáng)制開機(jī)，讓我起來加班碼字...

文 | 王智遠(yuǎn)

凌晨1點(diǎn)，我還在追劇。

這時(shí)，朋友發(fā)來一條消息說：Open AI發(fā)布了新模型，你在電腦上試試看能用嗎？哎，大哥，都要睡覺了，這要強(qiáng)制開機(jī)，讓我起來加班碼字埃

帶著好奇，打開PC端ChatGPT一看，果然，多出兩個(gè)模型，分別是ChatGPT 01-mini和01-preview。

這是什么東東？怎么叫這個(gè)名字？這個(gè)模型有什么特點(diǎn)？怎么還有兩個(gè)版本呢？價(jià)位如何？難道是此前被傳的「草莓」做出來了？

帶著疑惑，熬夜看完官方文檔，把內(nèi)容總結(jié)分享給你。

為什么叫01呢？官方說：

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1。

我用自帶瀏覽器的翻譯功能，翻譯出來就是：

這個(gè)模型在復(fù)雜推理任務(wù)上是一個(gè)重大的進(jìn)步，代表了人工智能能力的一個(gè)新水平；因此，我們決定重新開始編號(hào)，把這一系列模型命名為OpenAI 01。

襖，原來因?yàn)檫@個(gè)模型非常厲害，能做很多復(fù)雜的事情，OpenAI 覺得這是一個(gè)新的起點(diǎn)，所以把編號(hào)重新設(shè)為1，開始一個(gè)新的系列。

那么，它為什么會(huì)有兩個(gè)版本呢？官方說：

o1 mini版是個(gè)簡化的版本。它在速度、體積和成本方面都做了優(yōu)化。

這個(gè)版本在處理數(shù)學(xué)、編程推理任務(wù)時(shí)表現(xiàn)不錯(cuò)，特別適合需要快速處理問題的場合；因?yàn)樗w積小，成本也低，所以，如果你想快速得到答案，那么o1 mini版可能更適合你。

相對(duì)01 preview版，是完整版本。

比較擅長解決復(fù)雜的問題，比如，無論是科學(xué)問題、數(shù)學(xué)題還是編程，它都能處理得非常好；當(dāng)然，如果你遇到的問題要廣泛的知識(shí)或者深刻的理解，那么這個(gè)版本更適合你，因?yàn)樗耐评砟芰Ψ浅?qiáng)大。

我不信，于是，讓國產(chǎn)大模型Kimi Chat給我想了一個(gè)邏輯數(shù)學(xué)邏輯題，如下：

假設(shè)我有一個(gè)農(nóng)場，里面有雞和兔子。有一天，我數(shù)了數(shù)農(nóng)場里動(dòng)物的頭和腳，發(fā)現(xiàn)總共有35個(gè)頭和94只腳。請(qǐng)問，農(nóng)場里各有多少只雞和兔子？

preview版的確很強(qiáng)。除了告訴我有23只雞，和12只兔子外，還給出了步驟，整個(gè)下來，也就不到2秒。當(dāng)然，這種測試用來對(duì)付Chat肯定是無壓力的，如果你有時(shí)間，也可以帶入工作中的問題，自己體驗(yàn)下。

總的來說，兩個(gè)版本的主要區(qū)別是它們處理任務(wù)的能力、速度和成本；o1 mini版在速度、成本上有優(yōu)勢；preview版更適合推理。

不過，實(shí)際體驗(yàn)下來，沒覺得有什么差異，也許我本身要它做的事情，比較簡單。

體驗(yàn)完后，仔細(xì)一想，這和GPT-4o、GPT-4omini有啥區(qū)別呢？非要搞出四個(gè)模型嗎？加上GPT-4，我電腦上已經(jīng)有五個(gè)模型了。

查了下官方文檔，有一篇文章叫《用法學(xué)碩士學(xué)習(xí)推理》（Learning to Reason with LLMs）詳細(xì)介紹了一切。

他們是這么說的：

在對(duì)OpenAI的兩個(gè)AI模型o1-preview和GPT-4o的實(shí)際使用偏好測試中，人類評(píng)估者在不知情的情況下，比較了兩個(gè)模型對(duì)復(fù)雜問題的回答。

結(jié)果顯示，在需要大量推理的任務(wù)上，比如數(shù)據(jù)分析、編程和數(shù)學(xué)問題，大家更喜歡o1-preview。因?yàn)閛1-preview經(jīng)過特殊的強(qiáng)化學(xué)習(xí)訓(xùn)練，所以，在解決這類問題時(shí)，推理能力更強(qiáng)，更高效。

但是，在自然語言處理任務(wù)上，o1-preview的表現(xiàn)不如GPT-4o。這是因?yàn)樗挠?xùn)練重點(diǎn)在推理和解決問題的策略上，而不是在語言的流暢度或文本生成的多樣性上。

這說明，雖然o1-preview在某些領(lǐng)域很出色，但它并不適合所有類型的任務(wù)，尤其是那些專注于自然語言處理的場景。

原來如此。

我又看了看o1-preview和o1 mini版適合哪些人。官方說，如果你在處理科學(xué)、編碼、數(shù)學(xué)等領(lǐng)域的復(fù)雜問題，這些增強(qiáng)的推理能力可能特別有用。

比如：

醫(yī)療研究人員可以用o1來標(biāo)注細(xì)胞測序數(shù)據(jù)；物理學(xué)家可以生成量子光學(xué)所需的復(fù)雜數(shù)學(xué)公式；各個(gè)領(lǐng)域的開發(fā)者都可以用o1來構(gòu)建和執(zhí)行多步的工作流程。

所以，如果你做科學(xué)、敲代碼、編程、數(shù)學(xué)方面的工作，用它再好不過了。

那么，o1-preview和o1 mini到底做了哪些測試呢？

首先，為了顯示o1模型在推理方面比GPT-4o有多大改進(jìn)，他們?cè)诓煌娜梭w檢查和機(jī)器學(xué)習(xí)基準(zhǔn)上測試了它。

比如：

在2024年的AIME數(shù)學(xué)考試中，GPT-4o平均只解決了12%的題目；而o1模型單次測試的平均解題率達(dá)到了74%。如果算上64次測試的平均得分，能達(dá)到83%；重新從1000個(gè)樣本中排名，平均得分甚至可以達(dá)到93%。

這個(gè)成績不僅讓它進(jìn)入了全美前500名，還超過了參加美國數(shù)學(xué)奧林匹克的分?jǐn)?shù)線。

他們還用一個(gè)叫做GPQA鉆石的難題來測試o1。這個(gè)測試涉及化學(xué)、物理和生物學(xué)的專業(yè)知識(shí)。

他們請(qǐng)了一些擁有博士學(xué)位的專家來回答這些問題，結(jié)果發(fā)現(xiàn)，o1模型的表現(xiàn)超過了人類專家，成為第一個(gè)在這個(gè)測試中取得這樣成績的模型。

這并不意味著o1在所有方面都比博士更厲害，而是說明它在解決某些專業(yè)問題上更為熟練。

當(dāng)然，在其他一些機(jī)器學(xué)習(xí)的測試中，他們也做了大量測試；它在MMMU的視覺感知測試中得了78.2分，成為第一個(gè)能和人類專家競爭的模型；而且，在57個(gè)MMLU子測試中的54個(gè)項(xiàng)目上，它的表現(xiàn)都優(yōu)于GPT-4o。

我好奇地搜索了一下，什么是 MMLU？簡單講，MMLU 像一場大型的綜合考試，參加考試的不是人類，而是人工智能模型。

總之，這些測試最終結(jié)論是：

OpenAI的o1模型在全球編程比賽Codeforces中排名第89位，在美國數(shù)學(xué)奧林匹克（AIME）的資格賽中，進(jìn)入了全美前500名。

在物理、生物學(xué)和化學(xué)問題的測試中，它的表現(xiàn)甚至超過了博士水平。

因此，o1-preview和o1 mini在解決高難度的推理和專業(yè)問題上表現(xiàn)更出色；而GPT-4o更適合處理日常的任務(wù)。

所以，這么強(qiáng)的推理能力怎么實(shí)現(xiàn)的？關(guān)鍵有四個(gè)方面：

首先，o1模型用了一種“自我對(duì)弈強(qiáng)化學(xué)習(xí)”（Self-play RL）的方法；這是一種通過模擬環(huán)境和自我對(duì)抗來提升模型性能的技術(shù)。

這種方法中，模型在沒有外部指導(dǎo)，通過不斷嘗試和錯(cuò)誤來學(xué)習(xí)策略和優(yōu)化決策。

想象一下：

它就像在和自己下棋，一邊玩一邊學(xué)；過程中，不用別人教，自己試試、出錯(cuò)、再試，慢慢就學(xué)會(huì)了怎樣做決策和解決問題。

其次，o1還模仿了人類的“慢思考”（Slow Thinking）；這種思考要時(shí)間、努力和邏輯三者結(jié)合，就像我們?cè)诳荚嚂r(shí)仔細(xì)思考一個(gè)難題一樣。

通過深思熟慮方式，o1先分析問題，然后把它拆開，再推理，再解決；這讓它在科學(xué)、編程或數(shù)學(xué)上更精準(zhǔn)，更出色。

當(dāng)然，這一步離不開思維鏈。

思維鏈的推理，還用一種獨(dú)特的方法來監(jiān)控模型。如果這些思維鏈?zhǔn)强勺x的，研發(fā)人員就能“讀懂”模型的思考過程。

這對(duì)于監(jiān)測模型是否能操縱用戶行為非常有幫助，但是，為了讓模型能自由地表達(dá)思考，他們不在模型中加入任何與政策、用戶偏好相關(guān)的硬性規(guī)定。

因此，這個(gè)模型整合了安全政策和人類價(jià)值觀，過在模型的答案中重現(xiàn)思維鏈中的有用想法，讓用戶間接了解模型的思考過程。

還有一點(diǎn)，思維鏈加入了魯棒性（Robustness）測試。所謂魯棒性指一個(gè)系統(tǒng)、模型或者設(shè)備在面對(duì)各種意外情況、干擾或者變化時(shí)，仍然能夠正常工作，不容易出問題。

比如：

一輛汽車，無論在高溫、低溫、下雨還是顛簸的路面上，都能正常行駛，這說明它的魯棒性很好；在AI領(lǐng)域，魯棒性指軟件、模型在面對(duì)不同的數(shù)據(jù)輸入、錯(cuò)誤，甚至惡意攻擊時(shí)，仍然能保持穩(wěn)定和準(zhǔn)確。

所以，魯棒性強(qiáng)調(diào)的是在各種復(fù)雜、多變的環(huán)境下，仍然能保持可靠和穩(wěn)定的性能。

除以上兩點(diǎn)，o1在訓(xùn)練時(shí)還用上了數(shù)據(jù)飛輪（Data Flywheel）；它的正確答案會(huì)被用來再訓(xùn)練它自己，幫助它變得更聰明。

當(dāng)然，為支持這些復(fù)雜的思考任務(wù)，o1還用上了一些特別優(yōu)化的算法、架構(gòu)。這些技術(shù)讓它更快、更準(zhǔn)確地解決問題，提高了它的整體能力。

總之，o1模型訓(xùn)練關(guān)注五個(gè)維度：

一，自我對(duì)弈強(qiáng)化學(xué)習(xí)、二，模仿人類慢思考、三，拆解了思維鏈的過程；四，在思維鏈中加入了魯棒性測試；五，數(shù)據(jù)飛輪再強(qiáng)化。

看完官網(wǎng)文檔，說白了，我覺得他們讓AI更像人了。

再強(qiáng)大的東西，不商業(yè)化肯定不行。那么，o1模型的成本和使用限制有哪些呢？

o1-preview的價(jià)格是：

每處理一百萬個(gè)輸入要花15美元，每處理一百萬個(gè)輸出則是60美元；這說明，如果你用這個(gè)版本，輸入和輸出的處理費(fèi)用會(huì)比較高。

真貴埃這是什么概念？舉個(gè)例子：

如果你每天和這個(gè)模型聊天100次，每次輸入1000個(gè)單詞，那么一天的費(fèi)用是75美分乘以100次，等于75美元。按照現(xiàn)在匯率，75美元大概等于540人民幣。

這樣看來，使用這個(gè)模型的成本相當(dāng)于每天花540塊錢。如果你每天都這么使用，一個(gè)月下來的花費(fèi)就非�？捎^了，堪比請(qǐng)一個(gè)專家了。

而o1-mini的價(jià)格便宜一些。

每一百萬個(gè)輸入只需3美元，每一百萬個(gè)輸出12美元。但這個(gè)便宜版在功能上可能會(huì)有些限制；如果你是ChatGPT Plus或Team的用戶，就可以優(yōu)先嘗試o1模型的功能。

對(duì)開發(fā)者來說，要求就嚴(yán)格多了，只有支付了1000美元的五級(jí)開發(fā)者才能用這個(gè)模型，而且每分鐘只能調(diào)用20次。

至于API的調(diào)用限制，o1-preview每周只能調(diào)用30次，o1-mini每周可以調(diào)用50次。這種限制是按周來算的，不是按小時(shí)或分鐘。

功能方面，目前的o1模型還不能支持所有的功能，比如理解圖片、生成圖片、解釋代碼、網(wǎng)頁搜索等。所以，用戶現(xiàn)在只能用它來進(jìn)行基本的對(duì)話。

官方還說：

雖然現(xiàn)在o1模型成本較高，使用也有限，但隨著技術(shù)發(fā)展和OpenAI的不斷改進(jìn)，預(yù)計(jì)將來會(huì)有更多用戶能使用到這個(gè)模型，成本也可能會(huì)降低。

不管怎能說，AI越來越像人一樣“深思熟慮”了，至于這個(gè)模型，誰會(huì)付費(fèi)呢？誰又能為它支付1000美金呢？或許，只有大公司、研究機(jī)構(gòu)、有特定需求的專業(yè)人士才能承擔(dān)得起。

那到時(shí)候，真就成了花錢請(qǐng)了一個(gè)「AI專家」，所以，AI會(huì)替代專家嗎？

總結(jié)

越來越像人的模型。

誰也猜不到，未來的o1-preview（mini）會(huì)發(fā)展成什么樣，至少，它肯定不會(huì)是個(gè)普通的GPT。

它會(huì)發(fā)展成具身智能嗎？有這個(gè)可能。隨著技術(shù)不斷進(jìn)步，o1-preview（mini）很大概率會(huì)改變一些行業(yè)的運(yùn)作方式。

相關(guān)熱詞： Open 發(fā)布新一代模型

上一篇：OpenAI o1深夜炸場，核心貢獻(xiàn)者有哪些？我們看到了大量華人的名字

下一篇：新消費(fèi)測評(píng)丨掃地機(jī)器人能“伸手”下壓拖地了對(duì)比去年主流型號(hào)提升在哪兒？丨封面天天見

AiLab云推薦

Open AI發(fā)布新一代模型01
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-13 13:28:13 瀏覽：2199次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

Open AI發(fā)布新一代模型01 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-13 13:28:13 瀏覽：2199次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

Open AI發(fā)布新一代模型01
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-13 13:28:13 瀏覽：2199次