當前位置：人工智能實驗室> 人工智能動態(tài) > OpenAI 再次給大模型 “泡沫” 續(xù)命

OpenAI 再次給大模型 “泡沫” 續(xù)命
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-14 10:37:36 瀏覽：1402次

導讀：從大語言模型到推理模型。文丨賀乾明編輯丨程曼祺黃俊杰 OpenAI 今年最重要的產(chǎn)品 o1 模型如期發(fā)布。AI 最大獲利者英偉達的股價兩天累計漲了 10%。消耗更多算力答題的 o1，看到問題會先思考數(shù)十秒、甚至更久，再給出回復。OpenAI 稱，它回答奧賽數(shù)學題...

從大語言模型到推理模型。

文丨賀乾明編輯丨程曼祺黃俊杰

OpenAI 今年最重要的產(chǎn)品 o1 模型如期發(fā)布。AI 最大獲利者英偉達的股價兩天累計漲了 10%。

消耗更多算力答題的 o1，看到問題會先 “思考” 數(shù)十秒、甚至更久，再給出回復。OpenAI 稱，它回答奧賽數(shù)學題或完成編程任務時，表現(xiàn)遠超市場上已有的大模型。

但 OpenAI CEO 山姆阿爾特曼（Sam Altman）的好心情很快就被打斷。在他宣布 o1 全量上線的推文下，排在第一的評論是：“到底什么時候能用上新的語音功能？？” 他立刻反擊：“能不能先花幾個星期感謝感謝這魔法般的智能，然后再要新玩具？”

這位用戶追著阿爾特曼要的不是什么新玩具，是 OpenAI 在今年 5 月就允諾即將到來的 GPT-4o 端到端語音功能。在當時的現(xiàn)場演示中，這個新的 AI 聲音自然、反應極快，還知道什么時候插話，讓旁人難辨真假。按官方時間表，上千萬 ChatGPT 付費用戶本將在幾周內(nèi)用上這功能，但一直被跳票到現(xiàn)在。

過去一年里，OpenAI 的產(chǎn)品都是類似的 “期貨”：GPT-4 已上線一年多，OpenAI 的下一代模型 GPT-5 依然沒有發(fā)布跡象。OpenAI 今年初發(fā)布的視頻模型 Sora 也沒有大規(guī)模開放，到現(xiàn)在都只有少數(shù)被他們挑選的行業(yè)人士實際用過。

行業(yè)第一的跳票一次次磨損著資本市場對 AI 大模型的耐心。一些中國科技巨頭和大模型公司今年年中暫緩訓練基礎模型，把更多資源投到應用開發(fā)，或把 GPU 算力租給外部客戶。他們擔心技術沒多少進步空間，開始減少投入、爭取回報。

本周之前，英偉達市值從 6 月的高點下跌超 20%，微軟市值也縮水了 13%，各自蒸發(fā)了幾千億美元。微軟 CFO 稱，他們投在大模型領域的數(shù)百億美元，得等 15 年或更久才能回本。

紅杉的研究顯示，去年 AI 領域的投入比收入多了 1200 多億美元，今年可能會擴大到 5000 億美元。但除了英偉達，沒有幾個公司見到大比例的收入增長。越來越多業(yè)內(nèi)人開始討論，如果大模型的能力就到此為止，AI 泡沫會不會又一次破滅？

“泡沫” 并不一定是壞事。新技術改變世界之前，都會出現(xiàn)愿景遠超現(xiàn)實的階段。區(qū)別在于愿景能不能兌現(xiàn)，什么時候兌現(xiàn)。如果長期不能兌現(xiàn)，就是泡沫破滅、公司破產(chǎn)，嚴重的泡沫破滅甚至可以擊垮一個領域甚至多個經(jīng)濟體。如果愿景兌現(xiàn)了，一切不過是技術進步的注腳。

OpenAI 發(fā)布的 o1，至少會暫時扭轉(zhuǎn)大模型已經(jīng)沒有進步空間的猶疑，為大模型 “泡沫” 續(xù)命。

任何新技術都需要不斷進步，才有可能改變這個世界。o1 的獨特之處不只是編程、數(shù)學、物理等領域的性能大幅提升，也在于給一眾 OpenAI 追隨者和他們背后的投資者找到了前進的路徑：以往算力更多用在 “記憶知識”用大量數(shù)據(jù)訓練模型，o1 則分配了更多算力在 “答題時的思考”，即推理過程，邏輯能力大幅提升。

在此之前，大模型訓練已經(jīng)陷入原有 Scaling Laws 的瓶頸，模型參數(shù)規(guī)模擴大后，性能提升逐漸放緩。

專門針對數(shù)學、編程、科學問題優(yōu)化的 o1-mini 還展現(xiàn)出了不小的應用潛力，它既可以直接幫科學家和開發(fā)者提升工作效率，也指示了在其它高價值垂直領域開發(fā)性能、安全性都更好的模型的方法。

像往常的數(shù)次發(fā)布一樣，OpenAI 精心挑選了釋放 o1 的時機。據(jù)媒體報道，o1 發(fā)布前，OpenAI 正在以 1500 億美元估值尋求 70 億美元的新融資，潛在投資方包括蘋果、英偉達、微軟、阿聯(lián)酋投資基金等。現(xiàn)在，這場資源投入競賽又多了一個持續(xù)下去的理由。

從大語言模型到 “推理模型”，o1 理強文弱

此次 OpenAI 發(fā)布了兩個供用戶使用的模型：o1-preview 和 o1-mini，并預告更多 o1 系列模型正在路上。

之所以將該系列命名為 o1，而非沿用 GPT，是因為二者的訓練方式有明顯變化。在 OpenAI 介紹 o1 的博客文章里，多次稱其為推理模型（reasoning model），而非此前稱呼 GPT 時常用的大語言模型（Large Language Model）。

GPT 等傳統(tǒng)大語言模型的整體訓練邏輯是預訓練（pre-training）加精調(diào)（fine-tuning）：先在預訓練階段用海量數(shù)據(jù)教大模型學會預測下一個詞，然后在精調(diào)階段讓大模型學習特定領域的知識，讓人類寫回答教大模型什么是人想要的答案，機器根據(jù)反饋來改進。

o1 的新關鍵詞是強化學習（Reinforcement Learning）和思維鏈（Chain of Thought，CoT）。

OpenAI 如此描述這個過程：“通過強化學習，o1 學會如何磨練自己的思維鏈，并完善它所使用的策略。它學會了識別和糾正自己的錯誤；將復雜步驟分解為更簡單的步驟；在當前方法不起作用時嘗試不同的方法。這極大地提高了模型的推理能力。”

2016 年擊敗圍棋世界冠軍的 AlphaGo 和后續(xù)模型 AlphaZero 就使用了強化學習，讓模型自我對弈（self-play），學習在不同狀態(tài)（棋局）下，用什么策略可以提高勝率。模型還能在不斷嘗試中生成數(shù)據(jù)，用來訓練模型。

OpenAI o1 使用了類似的方法：給大模型提供一步步解題的數(shù)據(jù)，讓模型學著自我糾偏，學習每個步驟應該怎么回答問題能得到最優(yōu)答案。

“AI 模型的能力還是來自數(shù)據(jù)，若數(shù)據(jù)里原本沒有或不充分的東西，模型是學不會的，o1 相當于實現(xiàn)了一個合成專業(yè)數(shù)據(jù)的辦法。有了這些專業(yè)數(shù)據(jù)， o1 就能學到專業(yè)能力了。” 硅基流動創(chuàng)始人袁進輝說。

o1 回答問題時也會把問題拆解成一系列小問題，逐步推理回答，這就是 “思維鏈”。根據(jù) OpenAI 展示，o1 回答問題的過程如下（用戶使用的版本里，OpenAI 隱藏了思維鏈內(nèi)容）：

問題（原文為英語）：

編寫一個 bash 腳本，接收一個矩陣（用字符串表示，格式為 '[1,2],[3,4],[5,6]'），并以相同的格式打印出該矩陣的轉(zhuǎn)置。

o1-preview 的解題思路（思維鏈）：

用戶請求編寫一個 bash 腳本，該腳本可以接收表示矩陣的字符串，例如 '[1,2],[3,4],[5,6]'，并以相同的格式輸出其轉(zhuǎn)置。

我們首先來理解輸入和輸出的格式。

輸入：'[1,2],[3,4],[5,6]'，它對應的矩陣是：

1 2

3 4

5 6

因此，輸入是一系列由方括號包裹并用逗號分隔的行。

該矩陣的轉(zhuǎn)置為：

1 3 5

2 4 6

因此，要求的輸出為 '[1,3,5],[2,4,6]'。

總體任務：

編寫一個 bash 腳本，該腳本接收一個參數(shù)（表示矩陣的字符串），并以相同的格式輸出其轉(zhuǎn)置。

好的，現(xiàn)在我們來考慮如何在 bash 中解析輸入字符串，構(gòu)建矩陣（可能使用數(shù)組），進行轉(zhuǎn)置，然后輸出轉(zhuǎn)置后的矩陣，保持相同的格式。

約束條件：

-由于這是 bash，我們必須小心處理字符串解析。

-腳本應接受輸入字符串作為參數(shù)。

方法：

-解析輸入字符串以提取矩陣元素。

-將矩陣構(gòu)建為一個數(shù)組的數(shù)組。

-對矩陣進行轉(zhuǎn)置。

-以相同格式輸出轉(zhuǎn)置后的矩陣。

實現(xiàn)步驟：

1. 將輸入字符串作為參數(shù)捕獲。

2. 移除所有空格（如果有的話）。

3. 解析輸入字符串，將數(shù)字提取到數(shù)組中。

-由于輸入格式為 '[1,2],[3,4],[5,6]'，我們可以：

--如果需要，移除外部括號。

--通過 '],' 分割字符串以獲取每一行。

--對每一行，移除 '[' 和 ']'，然后通過 ',' 分割獲取元素。

4. 在 bash 中構(gòu)建二維數(shù)組（數(shù)組的數(shù)組）。

-由于 bash 數(shù)組是一維的，我們需要模擬二維數(shù)組。

5. 對矩陣進行轉(zhuǎn)置。

-進行轉(zhuǎn)置時，我們需要將行與列交換。

6. 以所需格式輸出轉(zhuǎn)置后的矩陣。

-重新構(gòu)造輸出字符串，格式為 '[1,3,5],[2,4,6]'。

現(xiàn)在，逐步開始編寫代碼。

潛在問題：

-Bash 本身沒有原生的多維數(shù)組，因此我們需要進行模擬。

-我們需要處理可能是多位數(shù)的數(shù)字。

接下來，我們可以一步步開始編寫這個 bash 腳本的框架。

【略】

現(xiàn)在讓我們使用示例輸入 '[1,2],[3,4],[5,6]' 測試這個腳本。

讓我試著模擬下，會發(fā)生什么。

我會將其寫下來，作為一個答案。

不論是強化學習還是思維鏈，都不是 OpenAI 最先提出的技術方向。

在 o1 上線前，Google DeepMind 就在 7 月發(fā)布了用類似方法訓練的 AlphaGeometry 模型更新版，能在國際奧數(shù)競賽 IMO 中拿銀牌。

但 OpenAI 再一次證明了他們可以在行業(yè)基礎上，率先拿出效果更驚人的模型。據(jù) OpenAI 介紹，他們專為國際信息學奧賽訓練的 o1-ioi 模型能拿到金牌。

憑借新的訓練和推理方法，OpenAI o1-preview 解決高難度數(shù)學題、處理編程任務方面大幅超過 GPT-4o。比如在競賽數(shù)學數(shù)據(jù)集 AIME 2024 上，o1-preview 得分是 GPT-4o 的 4 倍多；在編程競賽數(shù)據(jù)集 Codeforces 上，差距變成 5.6 倍。

在數(shù)學競賽、編程競賽、科學問答數(shù)據(jù)集測試中，o1-preview、o1 大幅超過 GPT-4o。

OpenAI 稱，目前限量上線的 OpenAI o1-preview 和 OpenAI o1-mini 只是早期版本，他們的下一個模型，在物理、化學、生物等有挑戰(zhàn)的測試題中，表現(xiàn)與博士生類似，而此前的模型大多是本科生或碩士生水平。

把技術變成現(xiàn)實，OpenAI 提到的貢獻者有 212 人，與 GPT-4o 的文本部分的貢獻者相當（234 人）。但訓練 o1 需要的數(shù)據(jù)種類變多了。OpenAI 提到，o1 預訓練用到的數(shù)據(jù)來自公開數(shù)據(jù)集、合作伙伴的專有數(shù)據(jù)和內(nèi)部開發(fā)的自定義數(shù)據(jù)集，而 GPT-4o 掌握文本能力時，只用了前兩種數(shù)據(jù)。

偏向 “推理模型” 的 o1 系列并沒有全面超過 GPT-4o，語言能力是它的相對弱項。

在 OpenAI 的測試中，大多人認為 o1-preview 在數(shù)據(jù)分析、編程和數(shù)學等看重推理的問題解答上比 GPT-4o 更好，而在個人寫作、文本編輯等方面，依然是 GPT-4o 更好。

那些 GPT-4o 解決不了的問題，o1-preview 也會出現(xiàn)，比如它同樣會 “胡說八道”，認為 9.11 比 9.2 更大。

個人寫作、文本編輯等方面，GPT-4o 更好。

思維鏈帶來的更長的響應時間（思考）可能是 o1 系列實際使用中的短板。在被要求 “列出五個第三個字母是 A 的國家的名字” 時，GPT-4o 只用 3 秒，而 o1-mini 花了 9 秒，o1-preview 花了 32 秒，是 GPT-4o 的十倍。對于簡單問題基本不可用。

o1-preview 和 mini 暫時也不像 GPT-4o 那樣具備瀏覽網(wǎng)頁、獲取信息，和處理上傳的文件、圖片等功能。目前看起來能最快能用 o1 提升生產(chǎn)力的是軟件開發(fā)者，但 OpenAI 也限制了他們調(diào)用 API 的方式：每分鐘只能調(diào)用 20 次，不包括函數(shù)調(diào)用、流式傳輸、系統(tǒng)消息支持等功能。

從訓練 Scaling 到推理 Scaling，算力競賽仍將繼續(xù)

在多位大模型研究者看來，o1 最重要的變化是展現(xiàn)出了一種大幅提升大模型能力的新路徑。

原來的 Scaling Laws 意味著，用更多數(shù)據(jù)和算力訓練出參數(shù)更大的模型，性能就會更好。

而如下圖， o1 展現(xiàn)出，讓模型花更多時間、更多算力回答問題（test-time compute），性能也會持續(xù)提升。英偉達資深 AI 科學家 Jim Fan 在社交媒體上說，這可能是自 2022 年 DeepMind 提出 Chinchill Scaling Laws（原版 Scaling Laws 上的一個優(yōu)化）以來，大模型研究中最重要的一張圖。

Jim Fan 還提出了大模型未來演進的一種可能：未來的模型可能將推理與知識分離，有小的 “推理核心”，同時也用大量參數(shù)來記憶事實（知識），以便在瑣事問答等測試中表現(xiàn)出色。

OpenAI 也在介紹 o1 的文章中特意提到，他們會繼續(xù)開發(fā) GPT 系列的模型。這可能預示，OpenAI 會把 o1 中使用的方法引入到下一代 GPT 模型中。

不管是 o1 成為新的主流方法，還是 o1 與 GPT 系列結(jié)合，演化出下一代大模型，算力需求應該都會進一步提升。

OpenAI 未公開 o1 系列的推理成本，但從 o1 模型回答問題的時長和 OpenAI 對 o1 的使用限制可以推測，o1 相比 GPT 系列需要龐大得多的推理算力資源。

每月花 20 美元的 ChatGPT Plus 付費用戶，目前每周只能用 30 次 o1-preview 和 50 次 o1-mini。而目前 GPT-4o 的限制是每周 4480 次（每 3 小時 80 次），是 o1-mini 的 90 倍，o1-preview 的 150 倍。

o1-preview 回答問題的時間從 GPT 系列模型的秒級增加到了數(shù)十秒、甚至更久。它回答問題時處理的文本量也大幅提升。以文中展示 “思維鏈” 過程時列舉的編程問題為例，o1 解答時，加上思維鏈，處理的字符有 6632 個，是 GPT-4o 的 4.2 倍。更長的計算時間和更長的輸出都意味著更高的算力成本。

o1 對 AI 前景和算力消費的刺激很快反映在資本市常自本周初有媒體報道 OpenAI 即將發(fā)布新模型后，英偉達股價累計回升 10%，微軟也一起上漲。

對于那些不確定技術演進方向或者一度放緩研究基礎模型的公司，現(xiàn)在又有新工作可以做，有新方向可以卷了。o1 的發(fā)布大概率意味著，在 “推理模型” 上，競爭差距再一次拉開，一輪加速追趕和投入即將發(fā)生。

“是時候正經(jīng)干點正事了，要不真的就不在游戲里了。” 一位中國大模型研究者說。

題圖：視覺中國