展會信息港展會大全

傳說中的“草莓”模型問世,OpenAI發(fā)布具有超強推理能力的模型o1
來源:互聯(lián)網   發(fā)布日期:2024-09-14 10:51:51   瀏覽:2096次  

導讀:當?shù)貢r間 9 月 12 日,OpenAI 發(fā)布了全新模型 o1,這是該公司計劃推出的一系列推理模型中的第一個,也是之前業(yè)內傳聞已久的Strawberry(草莓)項目。 據(jù)介紹,o1 模型在很多任務中能夠比人類更快地處理復雜查詢,并展現(xiàn)出前所未有的超強推理能力。與此同時,...

當?shù)貢r間 9 月 12 日,OpenAI 發(fā)布了全新模型 o1,這是該公司計劃推出的一系列“推理”模型中的第一個,也是之前業(yè)內傳聞已久的“Strawberry(草莓)”項目。

據(jù)介紹,o1 模型在很多任務中能夠比人類更快地處理復雜查詢,并展現(xiàn)出前所未有的超強推理能力。與此同時,OpenAI 還推出了一個較小且更經濟實惠的版本 o1-mini。

(來源:OpenAI)

對 OpenAI 而言,o1 的發(fā)布代表著公司向實現(xiàn)類人人工智能(human-like AI)這一宏偉目標邁出的重要一步。

從實際應用角度來看,o1 在編寫代碼、推理和解決多步驟復雜問題方面的表現(xiàn)明顯優(yōu)于先前的模型。

然而,使用 o1 的成本較高,速度也相對較慢。OpenAI 將這次發(fā)布稱為“preview(預覽版)”,以強調該模型尚處于初期階段。

從今日以后,ChatGPT Plus 和 Team 用戶可以訪問 o1-preview 和 o1-mini,而 Enterprise 和 Edu 用戶將于下周初獲得訪問權限。

o1-preview 每周最多使用 30 條消息,而 o1-mini 則為 50 條。

據(jù) OpenAI 信息,其計劃向所有 ChatGPT 免費用戶開放 o1-mini 的訪問權限,但具體上線日期尚未確定。

對于開發(fā)者而言,符合 API tier 5 的開發(fā)者可以通過 API 使用這些模型,每分鐘請求數(shù)限制為 20 條。

值得注意的是,開發(fā)者通過應用程序編程接口(API,Application Programming Interface)使用 o1 的成本相當高昂:o1-preview 的輸入 token 價格為每百萬個 15 美元,輸出 token 價格為每百萬個 60 美元。

相比之下,GPT-4o 的輸入 token 價格為每百萬個 5 美元,輸出 token 價格為每百萬個 15 美元。

o1 模型的訓練方法與其前代產品有著根本性的不同。

OpenAI 的研究主管杰里特沃雷克(Jerry Tworek)對媒體表示:“o1 使用了全新的優(yōu)化算法進行訓練,并采用了專門為其設計的新型訓練數(shù)據(jù)集。”

與之前的 GPT 模型通過模仿訓練數(shù)據(jù)中的模式不同,o1 采用了強化學習技術,通過獎勵和懲罰來教系統(tǒng)解決問題。

此外,o1 還使用思維鏈來處理查詢,這與人類通過逐步思考來解決問題的方式類似。

得益于這種新的訓練方法,OpenAI 稱,o1 模型的準確性得到了顯著提升。

特沃雷克對媒體表示:“我們注意到該模型的幻覺現(xiàn)象減少了。”然而,他也坦言,這個問題仍然存在,“我們不能說已經徹底解決了幻覺問題”。

根據(jù) OpenAI 的說法,o1 最顯著的特點是其處理復雜問題(如編程和數(shù)學)的能力遠超前代產品,同時還能解釋其推理過程。

OpenAI 首席研究官鮑勃麥格魯(Bob McGrew)對媒體表示:“這個模型在解決大學預修課程數(shù)學考試方面的表現(xiàn)肯定比我強,而我在大學時的輔修專業(yè)就是數(shù)學。”

他還提到,OpenAI 對 o1 進行了國際數(shù)學奧林匹克競賽資格考試的測試。結果顯示,GPT-4o 只能正確解決 13% 的問題,而 o1 的得分率高達 83%。

在 Codeforces 在線編程競賽中,o1 模型的表現(xiàn)超過了 89% 的參賽者。同時 OpenAI 聲稱,該模型已經在許多物理、化學和生物學等具有挑戰(zhàn)性的基準任務上達到與博士生相當?shù)乃健?/p>

盡管如此,o1 在許多領域的表現(xiàn)仍達不到 GPT-4o 的水平。例如,在處理有關世界的事實性知識方面。

此外,目前 o1 還缺乏瀏覽網頁或處理文件和圖像的能力。盡管存在這些局限,OpenAI 仍然認為 o1 代表了一種全新的能力類別(模型)。

o1 模型的界面設計旨在展示其推理步驟,模仿人類思考的過程。

在解答問題時,o1 會使用“我很好奇”“我正在思考”和“讓我想想”等短語,營造出一種逐步思考的錯覺。然而,OpenAI 強調,這并不意味著模型真的在思考,更不是人類。

圖|o1 模型會使用很多短語,表示自己正在“思考”,但實際上并沒有(來源:OpenAI)

特沃雷克解釋說:“這種界面設計是為了展示模型如何花費更多時間來處理和深入解決問題。”

麥格魯補充道:“你會發(fā)現(xiàn)它在某些方面感覺很像外星人,但在其他方面又令人驚訝地像人類。”

o1 模型的發(fā)布標志著 OpenAI 在實現(xiàn)自主系統(tǒng)或智能代理方面邁出了重要一步。這些系統(tǒng)能夠代表用戶做出決策并采取行動。

對 AI 研究人員而言,實現(xiàn)推理能力是朝著人類級智能邁進的重要一步。

理論上,如果一個模型能夠超越簡單的模式識別,在醫(yī)學、工程等領域有望實現(xiàn)突破性進展。

(來源:OpenAI)

在各項基準測試中,o1 相較于 GPT-4o 都表現(xiàn)出了顯著的進步。

在 57 個大規(guī)模多任務語言理解(MMLU,Massive Multitask Language Understanding)子類別中,o1 在 54 個類別中超越了 GPT-4o。在一些需要大量推理的基準測試中,o1 的表現(xiàn)甚至可以與人類專家相媲美。

在數(shù)學能力方面,o1 的表現(xiàn)尤為出色。在美國數(shù)學邀請賽中,o1 平均解決了 74% 的問題,而 GPT-4o 僅能解決 12%。

通過使用共識和重新排序等技巧,o1 的得分率甚至可以達到 93%,這一成績足以使其躋身全美前 500 名學生之列。

在 GPQA 鉆石級測試(一項測試化學、物理和生物學專業(yè)知識的困難智力基準)中,o1 超越了人類專家的表現(xiàn),成為首個在該基準測試中實現(xiàn)這一突破的模型。

然而,OpenAI 強調,“這并不意味著 o1 在所有方面都比博士更有能力”,只是在解決某些特定問題時表現(xiàn)更為出色。

在編程方面,o1 也展現(xiàn)出了驚人的能力。在 2024 年國際信息學奧林匹克中,基于 o1 初始化并進一步訓練的模型獲得了 213 分,排名位于第 49 百分位。

在模擬的 Codeforces 競賽中,這個模型達到了 1807 的 Elo 評分,超過了 93% 的人類選手。

盡管 o1 在推理能力方面取得了巨大進步,但 OpenAI 承認它并不適用于所有場景。

在一項人類偏好評估中,o1 在數(shù)據(jù)分析、編程和數(shù)學等需要大量推理的領域明顯優(yōu)于 GPT-4o,但在某些自然語言處理任務中表現(xiàn)不佳。

就像其他所有大模型一樣,o1 模型也會因為各種原因給出錯誤答案。在少數(shù)情況下,它會在明知答案有誤的情況下,仍然將其返回給用戶。

安全性是 OpenAI 一直關注的重點。通過將安全策略整合到推理模型的思維鏈中,OpenAI 發(fā)現(xiàn)這是一種有效的方法,可以穩(wěn)健地傳授人類價值觀和原則。

o1 在關鍵的越獄評估和最嚴格的內部安全基準測試中,都取得了顯著改進。

OpenAI 認為,o1 及其后續(xù)版本將為 AI 在科學、編碼、數(shù)學等相關領域的應用開辟新的可能性。

然而,他們也意識到這項技術可能帶來的潛在風險,因此決定不向用戶直接展示原始的思維鏈,而是提供一個模型生成的思維鏈摘要。

總的來說,OpenAI o1 的發(fā)布代表了 AI 推理能力的重大進步。隨著 OpenAI 繼續(xù)改進這一模型,期待看到更多令人興奮的應用和突破。

然而,實現(xiàn)技術發(fā)展、安全及倫理問題之間的平衡,仍然是 AI 領域所面臨的長期挑戰(zhàn)。

參考資料:

https://openai.com/index/learning-to-reason-with-llms/

https://www.theverge.com/2024/9/12/24242439/openai-o1-model-reasoning-strawberry-chatgpt

https://gizmodo.com/openai-releases-its-highly-anticipated-gpt-o1-model-2000498162

運營/排版:何晨龍

贊助本站

人工智能實驗室
相關內容
AiLab云推薦
推薦內容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港