展會信息港展會大全

OpenAI 再次給大模型 “泡沫” 續(xù)命
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-14 10:37:36   瀏覽:1402次  

導讀:從大語言模型到推理模型。 文丨賀乾明 編輯丨程曼祺 黃俊杰 OpenAI 今年最重要的產(chǎn)品 o1 模型如期發(fā)布。AI 最大獲利者英偉達的股價兩天累計漲了 10%。 消耗更多算力答題的 o1,看到問題會先 思考 數(shù)十秒、甚至更久,再給出回復。OpenAI 稱,它回答奧賽數(shù)學題...

從大語言模型到推理模型。

文丨賀乾明編輯丨程曼祺 黃俊杰

OpenAI 今年最重要的產(chǎn)品 o1 模型如期發(fā)布。AI 最大獲利者英偉達的股價兩天累計漲了 10%。

消耗更多算力答題的 o1,看到問題會先 “思考” 數(shù)十秒、甚至更久,再給出回復。OpenAI 稱,它回答奧賽數(shù)學題或完成編程任務時,表現(xiàn)遠超市場上已有的大模型。

但 OpenAI CEO 山姆阿爾特曼(Sam Altman)的好心情很快就被打斷。在他宣布 o1 全量上線的推文下,排在第一的評論是:“到底什么時候能用上新的語音功能??” 他立刻反擊:“能不能先花幾個星期感謝感謝這魔法般的智能,然后再要新玩具?”

這位用戶追著阿爾特曼要的不是什么新玩具,是 OpenAI 在今年 5 月就允諾即將到來的 GPT-4o 端到端語音功能。在當時的現(xiàn)場演示中,這個新的 AI 聲音自然、反應極快,還知道什么時候插話,讓旁人難辨真假。按官方時間表,上千萬 ChatGPT 付費用戶本將在幾周內(nèi)用上這功能,但一直被跳票到現(xiàn)在。

過去一年里,OpenAI 的產(chǎn)品都是類似的 “期貨”:GPT-4 已上線一年多,OpenAI 的下一代模型 GPT-5 依然沒有發(fā)布跡象。OpenAI 今年初發(fā)布的視頻模型 Sora 也沒有大規(guī)模開放,到現(xiàn)在都只有少數(shù)被他們挑選的行業(yè)人士實際用過。

行業(yè)第一的跳票一次次磨損著資本市場對 AI 大模型的耐心。一些中國科技巨頭和大模型公司今年年中暫緩訓練基礎模型,把更多資源投到應用開發(fā),或把 GPU 算力租給外部客戶。他們擔心技術沒多少進步空間,開始減少投入、爭取回報。

本周之前,英偉達市值從 6 月的高點下跌超 20%,微軟市值也縮水了 13%,各自蒸發(fā)了幾千億美元。微軟 CFO 稱,他們投在大模型領域的數(shù)百億美元,得等 15 年或更久才能回本。

紅杉的研究顯示,去年 AI 領域的投入比收入多了 1200 多億美元,今年可能會擴大到 5000 億美元。但除了英偉達,沒有幾個公司見到大比例的收入增長。越來越多業(yè)內(nèi)人開始討論,如果大模型的能力就到此為止,AI 泡沫會不會又一次破滅?

“泡沫” 并不一定是壞事。新技術改變世界之前,都會出現(xiàn)愿景遠超現(xiàn)實的階段。區(qū)別在于愿景能不能兌現(xiàn),什么時候兌現(xiàn)。如果長期不能兌現(xiàn),就是泡沫破滅、公司破產(chǎn),嚴重的泡沫破滅甚至可以擊垮一個領域甚至多個經(jīng)濟體。如果愿景兌現(xiàn)了,一切不過是技術進步的注腳。

OpenAI 發(fā)布的 o1,至少會暫時扭轉(zhuǎn)大模型已經(jīng)沒有進步空間的猶疑,為大模型 “泡沫” 續(xù)命。

任何新技術都需要不斷進步,才有可能改變這個世界。o1 的獨特之處不只是編程、數(shù)學、物理等領域的性能大幅提升,也在于給一眾 OpenAI 追隨者和他們背后的投資者找到了前進的路徑:以往算力更多用在 “記憶知識”用大量數(shù)據(jù)訓練模型,o1 則分配了更多算力在 “答題時的思考”,即推理過程,邏輯能力大幅提升。

在此之前,大模型訓練已經(jīng)陷入原有 Scaling Laws 的瓶頸,模型參數(shù)規(guī)模擴大后,性能提升逐漸放緩。

專門針對數(shù)學、編程、科學問題優(yōu)化的 o1-mini 還展現(xiàn)出了不小的應用潛力,它既可以直接幫科學家和開發(fā)者提升工作效率,也指示了在其它高價值垂直領域開發(fā)性能、安全性都更好的模型的方法。

像往常的數(shù)次發(fā)布一樣,OpenAI 精心挑選了釋放 o1 的時機。據(jù)媒體報道,o1 發(fā)布前,OpenAI 正在以 1500 億美元估值尋求 70 億美元的新融資,潛在投資方包括蘋果、英偉達、微軟、阿聯(lián)酋投資基金等。現(xiàn)在,這場資源投入競賽又多了一個持續(xù)下去的理由。

從大語言模型到 “推理模型”,o1 理強文弱

此次 OpenAI 發(fā)布了兩個供用戶使用的模型:o1-preview 和 o1-mini,并預告更多 o1 系列模型正在路上。

之所以將該系列命名為 o1,而非沿用 GPT,是因為二者的訓練方式有明顯變化。在 OpenAI 介紹 o1 的博客文章里,多次稱其為推理模型(reasoning model),而非此前稱呼 GPT 時常用的大語言模型(Large Language Model)。

GPT 等傳統(tǒng)大語言模型的整體訓練邏輯是預訓練(pre-training)加精調(diào)(fine-tuning):先在預訓練階段用海量數(shù)據(jù)教大模型學會預測下一個詞,然后在精調(diào)階段讓大模型學習特定領域的知識,讓人類寫回答教大模型什么是人想要的答案,機器根據(jù)反饋來改進。

o1 的新關鍵詞是強化學習(Reinforcement Learning)和思維鏈(Chain of Thought,CoT)。

OpenAI 如此描述這個過程:“通過強化學習,o1 學會如何磨練自己的思維鏈,并完善它所使用的策略。它學會了識別和糾正自己的錯誤;將復雜步驟分解為更簡單的步驟;在當前方法不起作用時嘗試不同的方法。這極大地提高了模型的推理能力。”

2016 年擊敗圍棋世界冠軍的 AlphaGo 和后續(xù)模型 AlphaZero 就使用了強化學習,讓模型自我對弈(self-play),學習在不同狀態(tài)(棋局)下,用什么策略可以提高勝率。模型還能在不斷嘗試中生成數(shù)據(jù),用來訓練模型。

OpenAI o1 使用了類似的方法:給大模型提供一步步解題的數(shù)據(jù),讓模型學著自我糾偏,學習每個步驟應該怎么回答問題能得到最優(yōu)答案。

“AI 模型的能力還是來自數(shù)據(jù),若數(shù)據(jù)里原本沒有或不充分的東西,模型是學不會的,o1 相當于實現(xiàn)了一個合成專業(yè)數(shù)據(jù)的辦法。有了這些專業(yè)數(shù)據(jù), o1 就能學到專業(yè)能力了。” 硅基流動創(chuàng)始人袁進輝說。

o1 回答問題時也會把問題拆解成一系列小問題,逐步推理回答,這就是 “思維鏈”。根據(jù) OpenAI 展示,o1 回答問題的過程如下(用戶使用的版本里,OpenAI 隱藏了思維鏈內(nèi)容):

問題(原文為英語):

編寫一個 bash 腳本,接收一個矩陣(用字符串表示,格式為 '[1,2],[3,4],[5,6]'),并以相同的格式打印出該矩陣的轉(zhuǎn)置。

o1-preview 的解題思路(思維鏈):

用戶請求編寫一個 bash 腳本,該腳本可以接收表示矩陣的字符串,例如 '[1,2],[3,4],[5,6]',并以相同的格式輸出其轉(zhuǎn)置。

我們首先來理解輸入和輸出的格式。

輸入:'[1,2],[3,4],[5,6]',它對應的矩陣是:

1 2

3 4

5 6

因此,輸入是一系列由方括號包裹并用逗號分隔的行。

該矩陣的轉(zhuǎn)置為:

1 3 5

2 4 6

因此,要求的輸出為 '[1,3,5],[2,4,6]'。

總體任務:

編寫一個 bash 腳本,該腳本接收一個參數(shù)(表示矩陣的字符串),并以相同的格式輸出其轉(zhuǎn)置。

好的,現(xiàn)在我們來考慮如何在 bash 中解析輸入字符串,構(gòu)建矩陣(可能使用數(shù)組),進行轉(zhuǎn)置,然后輸出轉(zhuǎn)置后的矩陣,保持相同的格式。

約束條件:

-由于這是 bash,我們必須小心處理字符串解析。

-腳本應接受輸入字符串作為參數(shù)。

方法:

-解析輸入字符串以提取矩陣元素。

-將矩陣構(gòu)建為一個數(shù)組的數(shù)組。

-對矩陣進行轉(zhuǎn)置。

-以相同格式輸出轉(zhuǎn)置后的矩陣。

實現(xiàn)步驟:

1. 將輸入字符串作為參數(shù)捕獲。

2. 移除所有空格(如果有的話)。

3. 解析輸入字符串,將數(shù)字提取到數(shù)組中。

-由于輸入格式為 '[1,2],[3,4],[5,6]',我們可以:

--如果需要,移除外部括號。

--通過 '],' 分割字符串以獲取每一行。

--對每一行,移除 '[' 和 ']',然后通過 ',' 分割獲取元素。

4. 在 bash 中構(gòu)建二維數(shù)組(數(shù)組的數(shù)組)。

-由于 bash 數(shù)組是一維的,我們需要模擬二維數(shù)組。

5. 對矩陣進行轉(zhuǎn)置。

-進行轉(zhuǎn)置時,我們需要將行與列交換。

6. 以所需格式輸出轉(zhuǎn)置后的矩陣。

-重新構(gòu)造輸出字符串,格式為 '[1,3,5],[2,4,6]'。

現(xiàn)在,逐步開始編寫代碼。

潛在問題:

-Bash 本身沒有原生的多維數(shù)組,因此我們需要進行模擬。

-我們需要處理可能是多位數(shù)的數(shù)字。

接下來,我們可以一步步開始編寫這個 bash 腳本的框架。

【略】

現(xiàn)在讓我們使用示例輸入 '[1,2],[3,4],[5,6]' 測試這個腳本。

讓我試著模擬下,會發(fā)生什么。

我會將其寫下來,作為一個答案。

不論是強化學習還是思維鏈,都不是 OpenAI 最先提出的技術方向。

在 o1 上線前,Google DeepMind 就在 7 月發(fā)布了用類似方法訓練的 AlphaGeometry 模型更新版,能在國際奧數(shù)競賽 IMO 中拿銀牌。

但 OpenAI 再一次證明了他們可以在行業(yè)基礎上,率先拿出效果更驚人的模型。據(jù) OpenAI 介紹,他們專為國際信息學奧賽訓練的 o1-ioi 模型能拿到金牌。

憑借新的訓練和推理方法,OpenAI o1-preview 解決高難度數(shù)學題、處理編程任務方面大幅超過 GPT-4o。比如在競賽數(shù)學數(shù)據(jù)集 AIME 2024 上,o1-preview 得分是 GPT-4o 的 4 倍多;在編程競賽數(shù)據(jù)集 Codeforces 上,差距變成 5.6 倍。

在數(shù)學競賽、編程競賽、科學問答數(shù)據(jù)集測試中,o1-preview、o1 大幅超過 GPT-4o。

OpenAI 稱,目前限量上線的 OpenAI o1-preview 和 OpenAI o1-mini 只是早期版本,他們的下一個模型,在物理、化學、生物等有挑戰(zhàn)的測試題中,表現(xiàn)與博士生類似,而此前的模型大多是本科生或碩士生水平。

把技術變成現(xiàn)實,OpenAI 提到的貢獻者有 212 人,與 GPT-4o 的文本部分的貢獻者相當(234 人)。但訓練 o1 需要的數(shù)據(jù)種類變多了。OpenAI 提到,o1 預訓練用到的數(shù)據(jù)來自公開數(shù)據(jù)集、合作伙伴的專有數(shù)據(jù)和內(nèi)部開發(fā)的自定義數(shù)據(jù)集,而 GPT-4o 掌握文本能力時,只用了前兩種數(shù)據(jù)。

偏向 “推理模型” 的 o1 系列并沒有全面超過 GPT-4o,語言能力是它的相對弱項。

在 OpenAI 的測試中,大多人認為 o1-preview 在數(shù)據(jù)分析、編程和數(shù)學等看重推理的問題解答上比 GPT-4o 更好,而在個人寫作、文本編輯等方面,依然是 GPT-4o 更好。

那些 GPT-4o 解決不了的問題,o1-preview 也會出現(xiàn),比如它同樣會 “胡說八道”,認為 9.11 比 9.2 更大。

個人寫作、文本編輯等方面,GPT-4o 更好。

思維鏈帶來的更長的響應時間(思考)可能是 o1 系列實際使用中的短板。在被要求 “列出五個第三個字母是 A 的國家的名字” 時,GPT-4o 只用 3 秒,而 o1-mini 花了 9 秒,o1-preview 花了 32 秒,是 GPT-4o 的十倍。對于簡單問題基本不可用。

o1-preview 和 mini 暫時也不像 GPT-4o 那樣具備瀏覽網(wǎng)頁、獲取信息,和處理上傳的文件、圖片等功能。目前看起來能最快能用 o1 提升生產(chǎn)力的是軟件開發(fā)者,但 OpenAI 也限制了他們調(diào)用 API 的方式:每分鐘只能調(diào)用 20 次,不包括函數(shù)調(diào)用、流式傳輸、系統(tǒng)消息支持等功能。

從訓練 Scaling 到推理 Scaling,算力競賽仍將繼續(xù)

在多位大模型研究者看來,o1 最重要的變化是展現(xiàn)出了一種大幅提升大模型能力的新路徑。

原來的 Scaling Laws 意味著,用更多數(shù)據(jù)和算力訓練出參數(shù)更大的模型,性能就會更好。

而如下圖, o1 展現(xiàn)出,讓模型花更多時間、更多算力回答問題(test-time compute),性能也會持續(xù)提升。英偉達資深 AI 科學家 Jim Fan 在社交媒體上說,這可能是自 2022 年 DeepMind 提出 Chinchill Scaling Laws(原版 Scaling Laws 上的一個優(yōu)化)以來,大模型研究中最重要的一張圖。

Jim Fan 還提出了大模型未來演進的一種可能:未來的模型可能將推理與知識分離,有小的 “推理核心”,同時也用大量參數(shù)來記憶事實(知識),以便在瑣事問答等測試中表現(xiàn)出色。

OpenAI 也在介紹 o1 的文章中特意提到,他們會繼續(xù)開發(fā) GPT 系列的模型。這可能預示,OpenAI 會把 o1 中使用的方法引入到下一代 GPT 模型中。

不管是 o1 成為新的主流方法,還是 o1 與 GPT 系列結(jié)合,演化出下一代大模型,算力需求應該都會進一步提升。

OpenAI 未公開 o1 系列的推理成本,但從 o1 模型回答問題的時長和 OpenAI 對 o1 的使用限制可以推測,o1 相比 GPT 系列需要龐大得多的推理算力資源。

每月花 20 美元的 ChatGPT Plus 付費用戶,目前每周只能用 30 次 o1-preview 和 50 次 o1-mini。而目前 GPT-4o 的限制是每周 4480 次(每 3 小時 80 次),是 o1-mini 的 90 倍,o1-preview 的 150 倍。

o1-preview 回答問題的時間從 GPT 系列模型的秒級增加到了數(shù)十秒、甚至更久。它回答問題時處理的文本量也大幅提升。以文中展示 “思維鏈” 過程時列舉的編程問題為例,o1 解答時,加上思維鏈,處理的字符有 6632 個,是 GPT-4o 的 4.2 倍 。更長的計算時間和更長的輸出都意味著更高的算力成本。

o1 對 AI 前景和算力消費的刺激很快反映在資本市常自本周初有媒體報道 OpenAI 即將發(fā)布新模型后,英偉達股價累計回升 10%,微軟也一起上漲。

對于那些不確定技術演進方向或者一度放緩研究基礎模型的公司,現(xiàn)在又有新工作可以做,有新方向可以卷了。o1 的發(fā)布大概率意味著,在 “推理模型” 上,競爭差距再一次拉開,一輪加速追趕和投入即將發(fā)生。

“是時候正經(jīng)干點正事了,要不真的就不在游戲里了。” 一位中國大模型研究者說。

題圖:視覺中國

贊助本站

人工智能實驗室
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港