展會(huì)信息港展會(huì)大全

草莓的真面目終揭開,OpenAI o1 全方位解析!
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-13 13:26:08   瀏覽:1820次  

導(dǎo)讀:北京時(shí)間凌晨一點(diǎn)左右,OpenAI o1 橫空出世,即是之前宣傳已久的草莓模型。 突來的消息,那個(gè)模是你,這么多天你杳無音訊... 特工們也第一時(shí)間被推送到了新模型,這下直接不困了。 不就是發(fā)了兩個(gè)模型,十幾個(gè)演示視頻,43 頁(yè)的論文嘛,起來肝就完了! 沒睡...

北京時(shí)間凌晨一點(diǎn)左右,OpenAI o1 橫空出世,即是之前宣傳已久的草莓模型。

“突來的消息,那個(gè)模是你,這么多天你杳無音訊...”

特工們也第一時(shí)間被推送到了新模型,這下直接不困了。

不就是發(fā)了兩個(gè)模型,十幾個(gè)演示視頻,43 頁(yè)的論文嘛,起來肝就完了!

沒睡的特工,出列!拉群開整!

o1 核心特點(diǎn)是能夠在給出回復(fù)前用更多時(shí)間進(jìn)行思考,模仿人類解決復(fù)雜問題的思考方式,并且思考越久,推理任務(wù)的表現(xiàn)就越好。

這一機(jī)制是 o1 對(duì)無限推理模型的邁進(jìn),同時(shí)也將 AI 在復(fù)雜推理任務(wù)上的能力提升到一個(gè)全新高度。

所以 OpenAI 將計(jì)數(shù)器重置為 1,并將這個(gè)系列命名為“OpenAI o1”。不同于之前的各個(gè)期貨,直接上線,毫不拖拉。

記得堅(jiān)持看完!因?yàn)槊慷蝺?nèi)容都不太一樣,都有新收獲+

簡(jiǎn)介與評(píng)估

簡(jiǎn)單的來說,OpenAI o1 系列模型,在復(fù)雜推理上的性能提升模式與傳統(tǒng) LLM 預(yù)訓(xùn)練式的性能提升不同,主要通過強(qiáng)化學(xué)習(xí)的方式,讓模型不斷完善思考過程,包括對(duì)不同策略進(jìn)行嘗試,認(rèn)識(shí)到錯(cuò)誤等。

而正是這一新訓(xùn)練模式,讓 o1 模型擁有了同博士生般推理能力。同時(shí)根據(jù)報(bào)告顯示,這一模式是可能存在 Scale up 的。下面具體介紹在這一新訓(xùn)練模式下,o1 展示出的令人驚訝的性能!

觀察下圖我們可以發(fā)現(xiàn),o1 在各類機(jī)器學(xué)習(xí)基準(zhǔn)測(cè)試中,遠(yuǎn)勝于 GPT-4o 模型(注:pass@1的意思是一次通過)

而在 GPQA Diamond* 上,o1 甚至成為第一個(gè)能擊敗人類專家的模型,雖不能直接說明 o1 能力超過人類專家,但足以表現(xiàn)出其“博士級(jí)”的推理思考能力。

GPQA Diamond :一個(gè)困難的智力基準(zhǔn),用于測(cè)試化學(xué)、物理和生物學(xué)方面的專業(yè)知識(shí)。

實(shí)線條顯示一次通過的準(zhǔn)確率,陰影區(qū)域顯示 64 個(gè)樣本的平均性能

文科向評(píng)估中 o1 相比于 4o 提升不算太大,而在邏輯推理方面,o1 遠(yuǎn)勝 4o

其中值得關(guān)注的是,為了展示 o1 的邏輯推理能力,OpenAI 選擇了 AIME 作為測(cè)試。這屬于美國(guó)數(shù)學(xué)競(jìng)賽中僅次于奧林匹克數(shù)學(xué)競(jìng)賽的項(xiàng)目,難度極大,非常靈活。

而 o1 在這一基準(zhǔn)的表現(xiàn),相比于 GPT-4o 僅拿下 12% ,在 1 樣本提示的前提下,平均拿下 74%!而在 64 個(gè)樣本的共識(shí)中,更是達(dá)到 83%,最為夸張的是,如果使用 1000 樣本,則可以直接拿下 93%,足以進(jìn)入美國(guó)前 500 名。

至于編程能力方面,OpenAI 以 o1 為基礎(chǔ),經(jīng)過不斷訓(xùn)練改進(jìn)后的模型,最終能在模擬 cf 編程競(jìng)賽中得分 1807,超過 93% 的人類選手,而 GPT-4o 僅得到 808 分。

而在人類偏好評(píng)估方面,除復(fù)雜推理外,o1-preview 對(duì)比 4o 也是占據(jù)主要優(yōu)勢(shì),不過在推理要求不高的場(chǎng)景下,人們還是更偏向于 4o 模型。

安全方面,總體相比于 4o 保持改進(jìn)或相當(dāng)(好像大家對(duì)安全都不那么感冒)。

CoT(思維鏈)

除去推理能力的提升,思維鏈的嵌入讓 o1 相比于 4o 產(chǎn)生了能力的飛躍,o1 可以在嘗試解決問題時(shí),先進(jìn)行一系列的思維鏈推導(dǎo),而這其中包括了意識(shí)并糾正錯(cuò)誤,問題拆解與規(guī)劃,不同策略的嘗試...(這不就是我們?nèi)祟惤鉀Q復(fù)雜問題的過程嗎)

官方為了展示整個(gè)過程,給出了在 Code,Math,Science 等場(chǎng)景下的真實(shí)案例,并且展示了 CoT 的過程。

其中我們比較關(guān)注了數(shù)學(xué)方面的 case,因?yàn)閷?duì)于以往的大語言模型來說,數(shù)學(xué)方面的回答總是存在大量論斷,過程不嚴(yán)謹(jǐn),在不調(diào)用外部計(jì)算器的情況下,計(jì)算也經(jīng)常出現(xiàn)問題

團(tuán)隊(duì)數(shù)學(xué)專業(yè)的小特工進(jìn)行了測(cè)試(雖然算不上特別特別難的題,但對(duì)于修讀大學(xué)數(shù)學(xué)專業(yè)的大一同學(xué)已是不小挑戰(zhàn)的難度)。

原理

https://platform.openai.com/docs/guides/reasoning?reasoning-prompt-examples=coding-planning

特工們?cè)谕诰?o1 時(shí),發(fā)現(xiàn)在 OpenAI 的官網(wǎng)上有這樣一張圖,簡(jiǎn)單解釋是如下:

用戶輸入問題后,o1 相比之前 GPT 系列模型多使用一個(gè)叫做“推理標(biāo)記”的東西,你可以理解為它學(xué)會(huì)了像人一樣選擇在什么時(shí)候進(jìn)行思考,并輸出當(dāng)前的想法,而這些“推理標(biāo)記”中的“思考”的內(nèi)容,并不會(huì)展示出來。這也是為什么有體驗(yàn)者提到,模型的等待時(shí)間比較久,正是因?yàn)樗伎嫉倪^程并不會(huì)顯式地展示;

在新一輪的對(duì)話中(用戶第二次輸入),上一輪“思考”的內(nèi)容全部被刪除,開始全新的“思考”;

依此類推,當(dāng)對(duì)話到達(dá)128k Tokens的上限時(shí),模型會(huì)給出一個(gè)“刪減版”答案,也避免了我們白白等待卻碰到了上下文上限。

這個(gè)做法,不禁讓特工想到當(dāng)年它的名字還叫 Q*,而 Star 的來由正是 StaR 系列的論文。

其中這篇《Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking》的方法與 OpenAI 在 o1 中的做法有很多相似之處,感興趣的小伙伴可以閱讀這篇以及這個(gè)系列的文章。

(想在其它博主那里看到又干貨又及時(shí)的整理可不容易哦,只此一家)

Life can only be understood backward, but it must be lived forward - Sren Kierkegaard

(Quiet-STaR 在論文的 Abstract 引用了這句話,當(dāng)時(shí)覺得挺有意境的)

官方演示視頻

OpenAI 直接怒發(fā)十幾條演示視頻,我和我的小伙伴都驚呆了。

1. 數(shù) strawberry 中 r 個(gè)數(shù)。

1:2

8

2. 制作在 HTML 上可以玩的貪吃蛇小游戲。

08

3. 將存在錯(cuò)誤不通順的韓語,正確翻譯為了英文。

3:

1317

總結(jié)(o1 很強(qiáng),但不要尬吹)

在 OpenAI 的文章中,我們能注意到,無論從用戶反饋還是實(shí)際測(cè)評(píng),o1 更多是作為彌補(bǔ)先前大模型缺失的推理能力,而非在全方位碾壓所有模型,可謂術(shù)業(yè)有專攻,選擇自己合適的才是最好的。

OpenAI 只做了簡(jiǎn)單的 self-play,思維模式仍然難以琢磨,很難說 o1 是好的思維模式(引用自 MetaGPT 作者吳承霖)。

按照評(píng)分,o1-preview 的幻覺頻率低于 GPT-4o,而 o1-mini 的幻覺頻率低于 GPT-4o-mini。

但也有一些反饋表明 o1-preview 和o1-mini 似乎比 GPT-4o 和 GPT-4o-mini 更容易產(chǎn)生幻覺。全面理解幻覺現(xiàn)象還很遠(yuǎn),特別是在我們的評(píng)估未涉及的領(lǐng)域(例如化學(xué))。

According to these evaluations, o1-preview hallucinates less frequently than GPT-4o, and o1-mini hallucinates less frequently than GPT-4o-mini. However, we have received anecdotal feedback that o1-preview and o1-mini tend to hallucinate more than GPT-4o and GPT-4o-mini. More work is needed to understand hallucinations holistically, particularly in domains not covered by our evaluations (e.g., chemistry). Additionally, red teamers have noted that o1-preview is more convincing in certain domains than GPT-4o given that it generates more detailed answers. This potentially increases the risk of people trusting and relying more on hallucinated generation.

o1 作為 Agent 的底層 LLM,效果略遜于之前的模型。經(jīng)過一定調(diào)整后能力可以與目前 Claude-3.5-Sonnet 持平,達(dá)到最高水準(zhǔn)。

除了能力之外,特工們更多的對(duì) OpenAI 做了些探索和思考,或許不一定對(duì),簡(jiǎn)單聊聊的話就是

1 OpenAI 大道至簡(jiǎn)

為了提高模型性能,行業(yè)的通用路徑是通過 Agnetic 的 Workflow,在基座模型基礎(chǔ)上通過顯式的符號(hào)邏輯完成 CoT.

但是 OpenAI 這一次直接把所有能力都隱式地訓(xùn)練到模型中,最大程度利用自回歸模型的特點(diǎn)完成了端到端的 CoT.

某種程度上講,OpenAI 通過模型層的巨大提升,將許多依賴復(fù)雜工程框架的工作簡(jiǎn)化成只需要一個(gè) API.

2 OpenAI 在背后做了大量工作

雖然 OpenAI 最終沒有對(duì)外交付工程框架,但是在 OpenAI 內(nèi)部一定有非常完整的數(shù)據(jù)管線,大通量地形成高質(zhì)量和低錯(cuò)誤率的 CoT 數(shù)據(jù)。

最終實(shí)現(xiàn)的效果是,用一個(gè)復(fù)雜的工程框架訓(xùn)練出一個(gè)不依賴工程框架即可有好的效果的模型。

可預(yù)見的是,在 o1 之后,構(gòu)建數(shù)據(jù)管線將成為每個(gè)模型和應(yīng)用公司的必備工作。

3 通用的提升領(lǐng)域能力的方法即將出現(xiàn)

自 AlphaGo 開始,用機(jī)器超越人的速度就在大幅加快。

但是不管是下圍棋還是打游戲,強(qiáng)化學(xué)習(xí)都被認(rèn)為是不可擴(kuò)展的。

OpenAI 沒有披露 o1 的訓(xùn)練細(xì)節(jié),但最近,我們很快能夠總結(jié)出泛化性強(qiáng)的模型能力提升之路。

可預(yù)見的是,只要給出明確的任務(wù)主題(不管是寫代碼、角色扮演還是做設(shè)計(jì)),都能快速完成 SOTA 的迭代。

4 o1 很強(qiáng),但目前和大部分人無關(guān)

人們總是高估眼下的新進(jìn)展,客觀來講,o1 的科研價(jià)值(展現(xiàn)和證明可能性)遠(yuǎn)大于當(dāng)下的使用價(jià)值。

也許我們會(huì)更受益于借助 OpenAI o1 開發(fā)的新軟件、研發(fā)的新藥物、研發(fā)的新機(jī)械結(jié)構(gòu),而不是 OpenAI o1 本身。

也許當(dāng)我們回顧人類的科技進(jìn)化史的時(shí)候,會(huì)發(fā)現(xiàn) o1 是一次巨大的拐點(diǎn),因?yàn)樗峁┝烁兄行У淖龀龊媚P、讓特定領(lǐng)域的智能可以無限擴(kuò)展的最優(yōu)范式。

BTW,有粗心的網(wǎng)友細(xì)心地發(fā)現(xiàn),Contributor 名單中有個(gè)名為 Jie Tang 的大佬,便認(rèn)為是清華智譜的唐杰老師。

虎軀一震的特工們也 Think step by step 了一下,并調(diào)用 Web Search 求證,發(fā)現(xiàn)只是撞名的烏龍而已。

后記與鳴謝

此時(shí)我們的群聊名稱已經(jīng)改為...(本來定的三點(diǎn)發(fā)結(jié)果肝到了七點(diǎn))

Anyway,特別感謝特工鯨魚、特工 Alpha、特工小鵬、涂津豪、特工路卡、特工嘻嘻、特工流兒,以及某位不愿透露姓名的朋友的深夜共同努力!

不知不覺已經(jīng)熬到了凌晨,但心中情緒遲遲無法平息。

久久不能忘懷的,是與你們一起并肩戰(zhàn)斗的,那種歸屬感與幸福

參考鏈接:

[1] https://cdn.openai.com/o1-system-card.pdf

[2] https://openai.com/index/openai-o1-system-card

[3] https://openai.com/index/introducing-openai-o1-preview/

[4] https://openai.com/index/learning-to-reason-with-llms/

[5] Quiet-STaR:https://arxiv.org/abs/2403.09629

[6] STaR: https://arxiv.org/abs/2203.14465

[7] V-STaR: https://arxiv.org/abs/2402.06457

贊助本站

人工智能實(shí)驗(yàn)室

相關(guān)熱詞: 草莓 真面目 揭開 OpenAI 全方位 解析

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港