當(dāng)前位置：人工智能實驗室> 人工智能動態(tài) > OpenAI o1比博士還“聰明”，全球11位AI大咖怎么看？

OpenAI o1比博士還“聰明”，全球11位AI大咖怎么看？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-14 10:58:34 瀏覽：1854次

導(dǎo)讀：騰訊科技訊 9月13日消息，據(jù)國外媒體報道，美國當(dāng)?shù)貢r間周四，OpenAI推出了名為OpenAI o1的新人工智能模型，這也是其首個具有推理能力的大模型，它能通過類似人類的推理過程來逐步分析問題，直至得出正確結(jié)論。 OpenAI o1有o1-preview和o1-mini兩個版本，僅...

科技新聞訊 9月13日消息，據(jù)國外媒體報道，美國當(dāng)?shù)貢r間周四，OpenAI推出了名為OpenAI o1的新人工智能模型，這也是其首個具有“推理”能力的大模型，它能通過類似人類的推理過程來逐步分析問題，直至得出正確結(jié)論。

OpenAI o1有o1-preview和o1-mini兩個版本，僅支持文本，向所有ChatGPT的Plus和Team用戶推出，并在API中向Tier 5開發(fā)者推出。根據(jù)OpenAI官網(wǎng)的評測，這款模型尤其擅長處理數(shù)學(xué)和代碼問題，甚至在物理、生物和化學(xué)問題基準(zhǔn)測試中的準(zhǔn)確度超過了人類博士水平。

此外，OpenAI o1在物理、化學(xué)、數(shù)學(xué)、邏輯等多維度的基準(zhǔn)測試中，水平均超過了GPT-4o：

（GPT-4o和01基準(zhǔn)測試對比，來源：OpenAI）

比博士還聰明的OpenAI o1，調(diào)動了全球的AI名人好奇心，除了OpenAI的多位高管，英偉達高級科學(xué)家Jim Fan、紐約大學(xué)教授、美國知名AI學(xué)者加里馬庫斯（Gary Marcus）、卡內(nèi)基梅隆大學(xué)計算機科學(xué)博士生詹姆斯坎貝爾（James Campbell）等紛紛一睹為快，并在X上表達自己的看法。

我們匯總了全球11位關(guān)注AI的知名企業(yè)家、科學(xué)家的看法，有意思的是，整體的評價態(tài)度基本分為兩個陣營：

一個陣營以O(shè)penAI的高管和研究員為代表，他們大多數(shù)都給了“好評”，認(rèn)為新模型開啟了新一輪的AI技術(shù)范式，幫助大模型走向更復(fù)雜的推理時代；而在OpenAI之外的多數(shù)“編外人士”，給出的評價相對克制，雖然沒有否定OpenAI o1的創(chuàng)新，但他們認(rèn)為新模型的能力還沒有被充分測試，并且它距離AGI依舊很遙遠(yuǎn)。

“好評”陣營：OpenAI o1打開了新的技術(shù)范式在OpenAI發(fā)布OpenAI o1預(yù)覽版及其極速版OpenAI o1-mini之后，該公司多位高管以及研究人員發(fā)帖，認(rèn)為新模型將AI推向更復(fù)雜的推理時代。

OpenAI首席執(zhí)行官山姆奧特曼（Sam Altman）：OpenAI o1是我們迄今為止最強大的人工智能模型。盡管它并非盡善盡美，仍帶有一定的缺陷與局限性，但初次體驗便足以令人印象深刻。更重要的是，這也預(yù)示一個新范式的誕生人工智能已邁入能夠進行廣泛而復(fù)雜推理的新時代。

OpenAI總裁格雷格布羅克曼（Greg Brockman）：OpenAI o1是我們首個通過強化學(xué)習(xí)進行訓(xùn)練的模型，它在回答問題之前會進行深思熟慮。這是一個充滿巨大機遇的新模型，無論在數(shù)量（推理度量已有顯著提升）還是質(zhì)量（通過簡單英語“閱讀模型的思維”，忠實的思維鏈讓模型變得更可解釋）上，都有明顯改進。

這項技術(shù)仍處于早期階段，帶來了新的安全機會，我們正在積極探索，包括可靠性、幻覺問題以及對抗性攻擊的魯棒性。

思維鏈作者、OpenAI研究員Jason Wei：OpenAI o1是一個在給出最終答案之前會進行思考的模型，它不僅僅通過提示來訓(xùn)練思維鏈，而是通過強化學(xué)習(xí)讓模型更好地完成思考過程。

在深度學(xué)習(xí)的歷史上，我們一直在擴展訓(xùn)練計算，但思維鏈?zhǔn)且环N自適應(yīng)計算方式，也能在推理時進行擴展。

雖然OpenAI o1在AIME和GPQA的測試中顯得很強大，但不一定能直接轉(zhuǎn)化為用戶可以感受到的效果。即使對科學(xué)工作者來說，找出GPT-4不如OpenAI o1的提示并不容易，但一旦找到，你會覺得非常驚奇。我們都需要找到更具挑戰(zhàn)性的提示。

人工智能用人類語言模擬思維鏈在很多方面表現(xiàn)出色。這個模型能像人類一樣處理問題，比如將復(fù)雜的步驟拆解成簡單的步驟、識別并糾正錯誤，以及嘗試不同的方法。

這個領(lǐng)域已經(jīng)被完全重新定義了。

OpenAI研究員馬克斯施瓦澤（Max Schwarzer）：我一直認(rèn)為，你不需要一個GPT-6級的基礎(chǔ)模型來實現(xiàn)人類水平的推理能力，強化學(xué)習(xí)才是通往AGI的關(guān)鍵。今天，我們有了證明OpenAI o1。

作為OpenAI創(chuàng)始成員之一，前特斯拉AI高級總監(jiān)安德烈卡帕西（Andrej Karpathy）的評論畫風(fēng)格外不同，他吐槽了模型的“懶惰”問題：OpenAI o1-mini一直拒絕為我解決黎曼假設(shè)（Riemann Hypothesis），模型的“懶惰”仍然是一個主要問題。

英偉達高級研究科學(xué)家Jim Fan和卡內(nèi)基梅隆大學(xué)計算機科學(xué)博士生詹姆斯坎貝爾（James Campbell）雖然不是OpenAI工作人員，也給了好評。

英偉達高級研究科學(xué)家Jim Fan： 這可能是自2022年原始Chinchilla縮放定律以來，大語言模型研究中最重要的進展。關(guān)鍵在于兩個曲線的協(xié)同作用，而不是單一曲線。人們通過延伸訓(xùn)練縮放定律來預(yù)測大語言模型能力將陷入停滯，卻未曾預(yù)見到推理縮放才是真正打破收益遞減的關(guān)鍵。

我在2月份曾提到，任何自我提升的大語言模型算法都沒能在三輪之后取得顯著進展。沒有人能在大語言模型領(lǐng)域重現(xiàn)AlphaGo的成功，在這個領(lǐng)域，更多的計算能力將可達到超越人類的水平。不過，現(xiàn)在我們翻開了新的一頁。

博士生坎貝爾 VS 奧特曼：卡內(nèi)基梅隆大學(xué)計算機科學(xué)博士生詹姆斯坎貝爾（James Campbell）發(fā)帖，展示了OpenAI o1預(yù)覽版在美國數(shù)學(xué)邀請賽（AIME）上的表現(xiàn)，顯示其解答了83%的問題。相較之下，GPT - 4o僅解答出13%的問題。坎貝爾寫道：“一切都結(jié)束了！” 對此，OpenAI首席執(zhí)行官山姆奧特曼（Sam Altman）回復(fù)稱：“我們還會回來的！”

“中差評”陣營：買家需謹(jǐn)慎，它并沒有那么聰明HuggingFace首席執(zhí)行官兼聯(lián)合創(chuàng)始人克萊門特德蘭吉（Clement Delangue）：再一次，人工智能系統(tǒng)并不是在“思考”，而是在“處理”和“運行預(yù)測”就像谷歌或電腦一樣。這種技術(shù)往往給人一種錯誤的印象，讓你覺得這些系統(tǒng)像人類一樣智能，但這只是廉價的宣傳和營銷策略，讓你覺得它們比實際情況更聰明。

紐約大學(xué)教授、美國知名AI學(xué)者加里馬庫斯（Gary Marcus）：OpenAI關(guān)于GPT的新模型確實令人印象深刻，但是：

1. 它不是AGI（通用人工智能），而且距離這個目標(biāo)還很遠(yuǎn)。

2.仔細(xì)閱讀并理解其中的細(xì)節(jié)。關(guān)于它如何工作的細(xì)節(jié)并不多，已測試的內(nèi)容也沒有全面披露。它與GPT-4的其余部分并未完全整合。（為什么？）

3.完整的新模型并未向付費訂閱者發(fā)布，只推出了一個迷你版和預(yù)覽版。因此，業(yè)界還未能對其進行充分測試。

4.報告顯示，OpenAI o1在許多領(lǐng)域表現(xiàn)良好，但在某些方面舊模型表現(xiàn)更佳。它并不是一個全面超越舊模型的神奇改進。

5.我們不清楚具體的訓(xùn)練內(nèi)容，但即使是一些基礎(chǔ)任務(wù)，如井字棋（tic-tac-toe），也存在問題。

6.OpenAI夸大了它在法律考試上的成功，經(jīng)過仔細(xì)審查，這些說法經(jīng)不起推敲�？茖W(xué)審查需要時間，目前這些結(jié)果尚未經(jīng)過同行評審。

7.它聲稱能在幾秒鐘內(nèi)完成的任務(wù)，若給它一個月時間，可能會讓人驚訝。但如果給它一個高度專業(yè)化的任務(wù)，比如編寫復(fù)雜的軟件代碼，它可能會令人失望，因為OpenAI希望你認(rèn)為它無所不能。

8. 買家需謹(jǐn)慎。

沃頓商學(xué)院管理學(xué)教授伊森莫里克（Ethan Mollick）：我已經(jīng)用了1個月的“草莓”（OpenAI o1），它在許多方面都很驚人，但也有些限制。也許最重要的是，這是一個信號，表明了未來事情的發(fā)展方向。

新的人工智能模型被稱為“o1-預(yù)覽”（為什么人工智能公司總是這么不擅長命名？），它在解決問題之前會先“思考”一下問題。這使得它能夠解決那些需要計劃和迭代的復(fù)雜問題，比如新穎的數(shù)學(xué)或科學(xué)難題。事實上，它在解決極其困難的物理問題上，現(xiàn)在甚至可以超過人類的博士專家。

需要明確的是，“o1-預(yù)覽”并不是在所有方面都表現(xiàn)得更好。例如，它并不比GPT-4o更強。但對于需要規(guī)劃的任務(wù)，表現(xiàn)卻非常好。例如，我給它下達了這樣的指令：參考下面的論文，考慮老師和學(xué)生的觀點，弄清楚如何使用多個代理和生成式AI構(gòu)建一個教學(xué)模擬器。編寫代碼并詳細(xì)說明你的方法。然后我把我們論文的全文貼了上去，唯一的提示是要構(gòu)建完整的代碼。你可以看到下面系統(tǒng)生成的結(jié)果。

評估這些復(fù)雜的輸出確實很困難，因此展示草莓模型的收益（以及局限性）最簡單的方法是用一個游戲：填字游戲。我從一個非常難的填字游戲中提取了8條線索，并將其翻譯成文本（因為我還不能看到圖像）。不妨自己嘗試一下這個謎題，我敢打賭你會覺得它很有挑戰(zhàn)性。

填字游戲?qū)Υ笳Z言模型來說顯得尤其棘手，因為它們需要反復(fù)試錯：嘗試并排除許多相互關(guān)聯(lián)的答案。而大語言模型無法做到這一點，因為它們每次只能在其答案中添加一個Token。例如，當(dāng)我把這個謎題給Claude時，它首先給出的答案是“STAR”（錯誤的），然后用這個錯誤的答案嘗試解答剩下的謎題，最后甚至連答案都猜不出來。沒有規(guī)劃過程，它只能不斷嘗試。

但如果我把這個謎題給草莓會怎樣呢？這個模型首先“思考”了整整108秒（大多數(shù)問題能在更短時間內(nèi)解決）。你可以看到它的思路，下面是一個樣本（還有很多我沒包括），這些思路非常啟發(fā)人值得花時間讀一讀。

大語言模型會反復(fù)迭代，創(chuàng)造和排除想法，結(jié)果通常相當(dāng)出色。然而，“o1-預(yù)覽”似乎還是基于GPT-4o，有點過于字面化，難以破解這個較難的謎題。例如，“星系團”并不是指真正的星系，而是三星Galaxy手機（這也讓我困惑）答案是“應(yīng)用程序”。在決定是否為COMA（一個真實的星系團）之前，它一直在嘗試實際的星系名稱。因此，剩下的結(jié)果雖然有創(chuàng)意，但不完全正確，也不符合規(guī)則。

為了嘗試更進一步，我決定給它一個提示：“1向下是APPS。”人工智能又花了一分鐘。再次，在它的思維樣本中（見左邊），你可以看到它如何迭代想法。最終，它給出的答案完全正確，解決了所有難題的提示，盡管它確實生成了一個新線索這不是我給它的謎題。

所以，如果沒有“草莓”，“o1-預(yù)覽”所做的事情是不可能實現(xiàn)的，但它仍然不是完美的：錯誤和幻覺仍然存在，且它仍受限于GPT-4o作為底層模型的“智能”。自從有了新模型，我沒停止用Claude來評論我的帖子，Claude在風(fēng)格上仍然表現(xiàn)更好，但我確實停止用它處理任何復(fù)雜的計劃或問題解決任務(wù)。“o1-預(yù)覽”在這些領(lǐng)域代表了巨大的飛躍。

使用“o1-預(yù)覽”意味著面臨人工智能的范式變化。計劃成了一種代理形式，人工智能在沒有我們幫助的情況下自己得出解決方案�？梢钥闯�，人工智能做了大量的思考，產(chǎn)生了完整的結(jié)果，作為人類伙伴的角色感覺被削弱了。人工智能會自主完成任務(wù)，然后給出答案。當(dāng)然，我可以通過分析它的推理找出錯誤，但我不再感覺自己與人工智能的輸出有聯(lián)系，也不再覺得自己在解決方案的形成中扮演重要角色。這不一定是壞事，但確實是一種改變。

隨著這些系統(tǒng)不斷升級，逐漸走向真正的自主代理，我們需要弄清楚如何保持在這個循環(huán)中既要捕捉錯誤，又要掌握我們試圖解決問題的核心。“o1-預(yù)覽”展示了可能前所未見的人工智能功能，即使它目前存在一些局限性。這給我們留下了一個關(guān)鍵問題：隨著人工智能的發(fā)展，我們?nèi)绾闻c它更好地合作？這是“o1-預(yù)覽”目前還無法解決的問題。

和很多人直接的褒貶觀點不同，作為對話式搜索引擎Perplexity CEO，阿拉溫德斯里尼瓦斯（Aravind Srinivas）試圖“猜測”OpenAI o1模型的原理。他不認(rèn)為“草莓”所給出的答案是經(jīng)由反復(fù)批判性反饋精心提煉的結(jié)果，而且認(rèn)為單純依賴大型語言模型來得出答案并不足夠可靠。他建議，將代碼執(zhí)行融入其中，并結(jié)合從知識圖譜中直接提取的事實，這一做法在實際應(yīng)用中可能更為有效。

總體而言，OpenAI o1的“思考”時間更長、更擅長處理標(biāo)準(zhǔn)化程度更高的“理科”問題了，這對科學(xué)領(lǐng)域的發(fā)展來說是一件好事。但除了是非分明的邏輯推理問題，世界上所存在的更多問題，都是沒有標(biāo)準(zhǔn)答案的，對蕓蕓眾生而言，一千個人眼中有一千個哈姆雷特，如果大模型能為人類解決這類非標(biāo)問題，或許才能接近真正的AGI。(編譯/金鹿編輯/可君、周小燕)