當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > 草莓的真面目終揭開，OpenAI o1 全方位解析！

草莓的真面目終揭開，OpenAI o1 全方位解析！
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-13 13:26:08 瀏覽：1820次

導(dǎo)讀：北京時(shí)間凌晨一點(diǎn)左右，OpenAI o1 橫空出世，即是之前宣傳已久的草莓模型。突來的消息，那個(gè)模是你，這么多天你杳無音訊... 特工們也第一時(shí)間被推送到了新模型，這下直接不困了。不就是發(fā)了兩個(gè)模型，十幾個(gè)演示視頻，43 頁(yè)的論文嘛，起來肝就完了！沒睡...

北京時(shí)間凌晨一點(diǎn)左右，OpenAI o1 橫空出世，即是之前宣傳已久的草莓模型。

“突來的消息，那個(gè)模是你，這么多天你杳無音訊...”

特工們也第一時(shí)間被推送到了新模型，這下直接不困了。

不就是發(fā)了兩個(gè)模型，十幾個(gè)演示視頻，43 頁(yè)的論文嘛，起來肝就完了！

沒睡的特工，出列！拉群開整！

o1 核心特點(diǎn)是能夠在給出回復(fù)前用更多時(shí)間進(jìn)行思考，模仿人類解決復(fù)雜問題的思考方式，并且思考越久，推理任務(wù)的表現(xiàn)就越好。

這一機(jī)制是 o1 對(duì)無限推理模型的邁進(jìn)，同時(shí)也將 AI 在復(fù)雜推理任務(wù)上的能力提升到一個(gè)全新高度。

所以 OpenAI 將計(jì)數(shù)器重置為 1，并將這個(gè)系列命名為“OpenAI o1”。不同于之前的各個(gè)期貨，直接上線，毫不拖拉。

記得堅(jiān)持看完！因?yàn)槊慷蝺?nèi)容都不太一樣，都有新收獲＋

簡(jiǎn)介與評(píng)估

簡(jiǎn)單的來說，OpenAI o1 系列模型，在復(fù)雜推理上的性能提升模式與傳統(tǒng) LLM 預(yù)訓(xùn)練式的性能提升不同，主要通過強(qiáng)化學(xué)習(xí)的方式，讓模型不斷完善思考過程，包括對(duì)不同策略進(jìn)行嘗試，認(rèn)識(shí)到錯(cuò)誤等。

而正是這一新訓(xùn)練模式，讓 o1 模型擁有了同博士生般推理能力。同時(shí)根據(jù)報(bào)告顯示，這一模式是可能存在 Scale up 的。下面具體介紹在這一新訓(xùn)練模式下，o1 展示出的令人驚訝的性能！

觀察下圖我們可以發(fā)現(xiàn)，o1 在各類機(jī)器學(xué)習(xí)基準(zhǔn)測(cè)試中，遠(yuǎn)勝于 GPT-4o 模型（注：pass@1的意思是一次通過）

而在 GPQA Diamond* 上，o1 甚至成為第一個(gè)能擊敗人類專家的模型，雖不能直接說明 o1 能力超過人類專家，但足以表現(xiàn)出其“博士級(jí)”的推理思考能力。

GPQA Diamond ：一個(gè)困難的智力基準(zhǔn)，用于測(cè)試化學(xué)、物理和生物學(xué)方面的專業(yè)知識(shí)。

實(shí)線條顯示一次通過的準(zhǔn)確率，陰影區(qū)域顯示 64 個(gè)樣本的平均性能

文科向評(píng)估中 o1 相比于 4o 提升不算太大，而在邏輯推理方面，o1 遠(yuǎn)勝 4o

其中值得關(guān)注的是，為了展示 o1 的邏輯推理能力，OpenAI 選擇了 AIME 作為測(cè)試。這屬于美國(guó)數(shù)學(xué)競(jìng)賽中僅次于奧林匹克數(shù)學(xué)競(jìng)賽的項(xiàng)目，難度極大，非常靈活。

而 o1 在這一基準(zhǔn)的表現(xiàn)，相比于 GPT-4o 僅拿下 12% ，在 1 樣本提示的前提下，平均拿下 74%！而在 64 個(gè)樣本的共識(shí)中，更是達(dá)到 83%，最為夸張的是，如果使用 1000 樣本，則可以直接拿下 93%，足以進(jìn)入美國(guó)前 500 名。

至于編程能力方面，OpenAI 以 o1 為基礎(chǔ)，經(jīng)過不斷訓(xùn)練改進(jìn)后的模型，最終能在模擬 cf 編程競(jìng)賽中得分 1807，超過 93% 的人類選手，而 GPT-4o 僅得到 808 分。

而在人類偏好評(píng)估方面，除復(fù)雜推理外，o1-preview 對(duì)比 4o 也是占據(jù)主要優(yōu)勢(shì)，不過在推理要求不高的場(chǎng)景下，人們還是更偏向于 4o 模型。

安全方面，總體相比于 4o 保持改進(jìn)或相當(dāng)（好像大家對(duì)安全都不那么感冒）。

CoT（思維鏈）

除去推理能力的提升，思維鏈的嵌入讓 o1 相比于 4o 產(chǎn)生了能力的飛躍，o1 可以在嘗試解決問題時(shí)，先進(jìn)行一系列的思維鏈推導(dǎo)，而這其中包括了意識(shí)并糾正錯(cuò)誤，問題拆解與規(guī)劃，不同策略的嘗試...（這不就是我們?nèi)祟惤鉀Q復(fù)雜問題的過程嗎）

官方為了展示整個(gè)過程，給出了在 Code，Math，Science 等場(chǎng)景下的真實(shí)案例，并且展示了 CoT 的過程。

其中我們比較關(guān)注了數(shù)學(xué)方面的 case，因?yàn)閷?duì)于以往的大語言模型來說，數(shù)學(xué)方面的回答總是存在大量論斷，過程不嚴(yán)謹(jǐn)，在不調(diào)用外部計(jì)算器的情況下，計(jì)算也經(jīng)常出現(xiàn)問題。

團(tuán)隊(duì)數(shù)學(xué)專業(yè)的小特工進(jìn)行了測(cè)試（雖然算不上特別特別難的題，但對(duì)于修讀大學(xué)數(shù)學(xué)專業(yè)的大一同學(xué)已是不小挑戰(zhàn)的難度）。

原理

https://platform.openai.com/docs/guides/reasoning?reasoning-prompt-examples=coding-planning

特工們?cè)谕诰?o1 時(shí)，發(fā)現(xiàn)在 OpenAI 的官網(wǎng)上有這樣一張圖，簡(jiǎn)單解釋是如下：

用戶輸入問題后，o1 相比之前 GPT 系列模型多使用一個(gè)叫做“推理標(biāo)記”的東西，你可以理解為它學(xué)會(huì)了像人一樣選擇在什么時(shí)候進(jìn)行思考，并輸出當(dāng)前的想法，而這些“推理標(biāo)記”中的“思考”的內(nèi)容，并不會(huì)展示出來。這也是為什么有體驗(yàn)者提到，模型的等待時(shí)間比較久，正是因?yàn)樗伎嫉倪^程并不會(huì)顯式地展示；

在新一輪的對(duì)話中（用戶第二次輸入），上一輪“思考”的內(nèi)容全部被刪除，開始全新的“思考”；

依此類推，當(dāng)對(duì)話到達(dá)128k Tokens的上限時(shí)，模型會(huì)給出一個(gè)“刪減版”答案，也避免了我們白白等待卻碰到了上下文上限。

這個(gè)做法，不禁讓特工想到當(dāng)年它的名字還叫 Q*，而 Star 的來由正是 StaR 系列的論文。

其中這篇《Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking》的方法與 OpenAI 在 o1 中的做法有很多相似之處，感興趣的小伙伴可以閱讀這篇以及這個(gè)系列的文章。

（想在其它博主那里看到又干貨又及時(shí)的整理可不容易哦，只此一家）

Life can only be understood backward, but it must be lived forward - Sren Kierkegaard

(Quiet-STaR 在論文的 Abstract 引用了這句話，當(dāng)時(shí)覺得挺有意境的)

官方演示視頻

OpenAI 直接怒發(fā)十幾條演示視頻，我和我的小伙伴都驚呆了。

1. 數(shù) strawberry 中 r 個(gè)數(shù)。

1:2

2. 制作在 HTML 上可以玩的貪吃蛇小游戲。

3. 將存在錯(cuò)誤不通順的韓語，正確翻譯為了英文。

1317

總結(jié)（o1 很強(qiáng)，但不要尬吹）

在 OpenAI 的文章中，我們能注意到，無論從用戶反饋還是實(shí)際測(cè)評(píng)，o1 更多是作為彌補(bǔ)先前大模型缺失的推理能力，而非在全方位碾壓所有模型，可謂術(shù)業(yè)有專攻，選擇自己合適的才是最好的。

OpenAI 只做了簡(jiǎn)單的 self-play，思維模式仍然難以琢磨，很難說 o1 是好的思維模式（引用自 MetaGPT 作者吳承霖）。

按照評(píng)分，o1-preview 的幻覺頻率低于 GPT-4o，而 o1-mini 的幻覺頻率低于 GPT-4o-mini。

但也有一些反饋表明 o1-preview 和o1-mini 似乎比 GPT-4o 和 GPT-4o-mini 更容易產(chǎn)生幻覺。全面理解幻覺現(xiàn)象還很遠(yuǎn)，特別是在我們的評(píng)估未涉及的領(lǐng)域（例如化學(xué)）。

According to these evaluations, o1-preview hallucinates less frequently than GPT-4o, and o1-mini hallucinates less frequently than GPT-4o-mini. However, we have received anecdotal feedback that o1-preview and o1-mini tend to hallucinate more than GPT-4o and GPT-4o-mini. More work is needed to understand hallucinations holistically, particularly in domains not covered by our evaluations (e.g., chemistry). Additionally, red teamers have noted that o1-preview is more convincing in certain domains than GPT-4o given that it generates more detailed answers. This potentially increases the risk of people trusting and relying more on hallucinated generation.

o1 作為 Agent 的底層 LLM，效果略遜于之前的模型。經(jīng)過一定調(diào)整后能力可以與目前 Claude-3.5-Sonnet 持平，達(dá)到最高水準(zhǔn)。

除了能力之外，特工們更多的對(duì) OpenAI 做了些探索和思考，或許不一定對(duì)，簡(jiǎn)單聊聊的話就是

1 OpenAI 大道至簡(jiǎn)

為了提高模型性能，行業(yè)的通用路徑是通過 Agnetic 的 Workflow，在基座模型基礎(chǔ)上通過顯式的符號(hào)邏輯完成 CoT.

但是 OpenAI 這一次直接把所有能力都隱式地訓(xùn)練到模型中，最大程度利用自回歸模型的特點(diǎn)完成了端到端的 CoT.

某種程度上講，OpenAI 通過模型層的巨大提升，將許多依賴復(fù)雜工程框架的工作簡(jiǎn)化成只需要一個(gè) API.

2 OpenAI 在背后做了大量工作

雖然 OpenAI 最終沒有對(duì)外交付工程框架，但是在 OpenAI 內(nèi)部一定有非常完整的數(shù)據(jù)管線，大通量地形成高質(zhì)量和低錯(cuò)誤率的 CoT 數(shù)據(jù)。

最終實(shí)現(xiàn)的效果是，用一個(gè)復(fù)雜的工程框架訓(xùn)練出一個(gè)不依賴工程框架即可有好的效果的模型。

可預(yù)見的是，在 o1 之后，構(gòu)建數(shù)據(jù)管線將成為每個(gè)模型和應(yīng)用公司的必備工作。

3 通用的提升領(lǐng)域能力的方法即將出現(xiàn)

自 AlphaGo 開始，用機(jī)器超越人的速度就在大幅加快。

但是不管是下圍棋還是打游戲，強(qiáng)化學(xué)習(xí)都被認(rèn)為是不可擴(kuò)展的。

OpenAI 沒有披露 o1 的訓(xùn)練細(xì)節(jié)，但最近，我們很快能夠總結(jié)出泛化性強(qiáng)的模型能力提升之路。

可預(yù)見的是，只要給出明確的任務(wù)主題（不管是寫代碼、角色扮演還是做設(shè)計(jì)），都能快速完成 SOTA 的迭代。

4 o1 很強(qiáng)，但目前和大部分人無關(guān)

人們總是高估眼下的新進(jìn)展，客觀來講，o1 的科研價(jià)值（展現(xiàn)和證明可能性）遠(yuǎn)大于當(dāng)下的使用價(jià)值。

也許我們會(huì)更受益于借助 OpenAI o1 開發(fā)的新軟件、研發(fā)的新藥物、研發(fā)的新機(jī)械結(jié)構(gòu)，而不是 OpenAI o1 本身。

也許當(dāng)我們回顧人類的科技進(jìn)化史的時(shí)候，會(huì)發(fā)現(xiàn) o1 是一次巨大的拐點(diǎn)，因?yàn)樗峁┝烁兄行У淖龀龊媚Ｐ�、讓特定領(lǐng)域的智能可以無限擴(kuò)展的最優(yōu)范式。

BTW，有粗心的網(wǎng)友細(xì)心地發(fā)現(xiàn)，Contributor 名單中有個(gè)名為 Jie Tang 的大佬，便認(rèn)為是清華智譜的唐杰老師。

虎軀一震的特工們也 Think step by step 了一下，并調(diào)用 Web Search 求證，發(fā)現(xiàn)只是撞名的烏龍而已。

后記與鳴謝

此時(shí)我們的群聊名稱已經(jīng)改為...（本來定的三點(diǎn)發(fā)結(jié)果肝到了七點(diǎn)）

Anyway，特別感謝特工鯨魚、特工 Alpha、特工小鵬、涂津豪、特工路卡、特工嘻嘻、特工流兒，以及某位不愿透露姓名的朋友的深夜共同努力！

不知不覺已經(jīng)熬到了凌晨，但心中情緒遲遲無法平息。

久久不能忘懷的，是與你們一起并肩戰(zhàn)斗的，那種歸屬感與幸福

參考鏈接：

[1] https://cdn.openai.com/o1-system-card.pdf

[2] https://openai.com/index/openai-o1-system-card

[3] https://openai.com/index/introducing-openai-o1-preview/

[4] https://openai.com/index/learning-to-reason-with-llms/

[5] Quiet-STaR：https://arxiv.org/abs/2403.09629

[6] STaR: https://arxiv.org/abs/2203.14465

[7] V-STaR: https://arxiv.org/abs/2402.06457

相關(guān)熱詞： 草莓真面目揭開 OpenAI 全方位解析

上一篇：又慢又貴？OpenAI推理模型“草莓”來了，GPT-5還有多遠(yuǎn)

下一篇：商湯生成式AI業(yè)務(wù)飆漲256%，成為中國(guó)大模型、智算服務(wù)市場(chǎng)占有率領(lǐng)頭羊

AiLab云推薦

草莓的真面目終揭開，OpenAI o1 全方位解析！
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-13 13:26:08 瀏覽：1820次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

草莓的真面目終揭開，OpenAI o1 全方位解析！ 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-13 13:26:08 瀏覽：1820次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

草莓的真面目終揭開，OpenAI o1 全方位解析！
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-13 13:26:08 瀏覽：1820次