展會信息港展會大全

OpenAI o1比博士還“聰明”,全球11位AI大咖怎么看?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-14 10:58:34   瀏覽:1854次  

導(dǎo)讀:騰訊科技訊 9月13日消息,據(jù)國外媒體報道,美國當(dāng)?shù)貢r間周四,OpenAI推出了名為OpenAI o1的新人工智能模型,這也是其首個具有推理能力的大模型,它能通過類似人類的推理過程來逐步分析問題,直至得出正確結(jié)論。 OpenAI o1有o1-preview和o1-mini兩個版本,僅...

科技新聞訊 9月13日消息,據(jù)國外媒體報道,美國當(dāng)?shù)貢r間周四,OpenAI推出了名為OpenAI o1的新人工智能模型,這也是其首個具有“推理”能力的大模型,它能通過類似人類的推理過程來逐步分析問題,直至得出正確結(jié)論。

OpenAI o1有o1-preview和o1-mini兩個版本,僅支持文本,向所有ChatGPT的Plus和Team用戶推出,并在API中向Tier 5開發(fā)者推出。根據(jù)OpenAI官網(wǎng)的評測,這款模型尤其擅長處理數(shù)學(xué)和代碼問題,甚至在物理、生物和化學(xué)問題基準(zhǔn)測試中的準(zhǔn)確度超過了人類博士水平。

此外,OpenAI o1在物理、化學(xué)、數(shù)學(xué)、邏輯等多維度的基準(zhǔn)測試中,水平均超過了GPT-4o:

(GPT-4o和01基準(zhǔn)測試對比,來源:OpenAI)

比博士還聰明的OpenAI o1,調(diào)動了全球的AI名人好奇心,除了OpenAI的多位高管,英偉達高級科學(xué)家Jim Fan、紐約大學(xué)教授、美國知名AI學(xué)者加里馬庫斯(Gary Marcus)、卡內(nèi)基梅隆大學(xué)計算機科學(xué)博士生詹姆斯坎貝爾(James Campbell)等紛紛一睹為快,并在X上表達自己的看法。

我們匯總了全球11位關(guān)注AI的知名企業(yè)家、科學(xué)家的看法,有意思的是,整體的評價態(tài)度基本分為兩個陣營:

一個陣營以O(shè)penAI的高管和研究員為代表,他們大多數(shù)都給了“好評”,認(rèn)為新模型開啟了新一輪的AI技術(shù)范式,幫助大模型走向更復(fù)雜的推理時代;而在OpenAI之外的多數(shù)“編外人士”,給出的評價相對克制,雖然沒有否定OpenAI o1的創(chuàng)新,但他們認(rèn)為新模型的能力還沒有被充分測試,并且它距離AGI依舊很遙遠(yuǎn)。

“好評”陣營:OpenAI o1打開了新的技術(shù)范式在OpenAI發(fā)布OpenAI o1預(yù)覽版及其極速版OpenAI o1-mini之后,該公司多位高管以及研究人員發(fā)帖,認(rèn)為新模型將AI推向更復(fù)雜的推理時代。

OpenAI首席執(zhí)行官山姆奧特曼(Sam Altman):OpenAI o1是我們迄今為止最強大的人工智能模型。盡管它并非盡善盡美,仍帶有一定的缺陷與局限性,但初次體驗便足以令人印象深刻。更重要的是,這也預(yù)示一個新范式的誕生人工智能已邁入能夠進行廣泛而復(fù)雜推理的新時代。

OpenAI總裁格雷格布羅克曼(Greg Brockman):OpenAI o1是我們首個通過強化學(xué)習(xí)進行訓(xùn)練的模型,它在回答問題之前會進行深思熟慮。這是一個充滿巨大機遇的新模型,無論在數(shù)量(推理度量已有顯著提升)還是質(zhì)量(通過簡單英語“閱讀模型的思維”,忠實的思維鏈讓模型變得更可解釋)上,都有明顯改進。

這項技術(shù)仍處于早期階段,帶來了新的安全機會,我們正在積極探索,包括可靠性、幻覺問題以及對抗性攻擊的魯棒性。

思維鏈作者、OpenAI研究員Jason Wei:OpenAI o1是一個在給出最終答案之前會進行思考的模型,它不僅僅通過提示來訓(xùn)練思維鏈,而是通過強化學(xué)習(xí)讓模型更好地完成思考過程。

在深度學(xué)習(xí)的歷史上,我們一直在擴展訓(xùn)練計算,但思維鏈?zhǔn)且环N自適應(yīng)計算方式,也能在推理時進行擴展。

雖然OpenAI o1在AIME和GPQA的測試中顯得很強大,但不一定能直接轉(zhuǎn)化為用戶可以感受到的效果。即使對科學(xué)工作者來說,找出GPT-4不如OpenAI o1的提示并不容易,但一旦找到,你會覺得非常驚奇。我們都需要找到更具挑戰(zhàn)性的提示。

人工智能用人類語言模擬思維鏈在很多方面表現(xiàn)出色。這個模型能像人類一樣處理問題,比如將復(fù)雜的步驟拆解成簡單的步驟、識別并糾正錯誤,以及嘗試不同的方法。

這個領(lǐng)域已經(jīng)被完全重新定義了。

OpenAI研究員馬克斯施瓦澤(Max Schwarzer):我一直認(rèn)為,你不需要一個GPT-6級的基礎(chǔ)模型來實現(xiàn)人類水平的推理能力,強化學(xué)習(xí)才是通往AGI的關(guān)鍵。今天,我們有了證明OpenAI o1。

作為OpenAI創(chuàng)始成員之一,前特斯拉AI高級總監(jiān)安德烈卡帕西(Andrej Karpathy)的評論畫風(fēng)格外不同,他吐槽了模型的“懶惰”問題:OpenAI o1-mini一直拒絕為我解決黎曼假設(shè)(Riemann Hypothesis),模型的“懶惰”仍然是一個主要問題。

英偉達高級研究科學(xué)家Jim Fan和卡內(nèi)基梅隆大學(xué)計算機科學(xué)博士生詹姆斯坎貝爾(James Campbell)雖然不是OpenAI工作人員,也給了好評。

英偉達高級研究科學(xué)家Jim Fan: 這可能是自2022年原始Chinchilla縮放定律以來,大語言模型研究中最重要的進展。關(guān)鍵在于兩個曲線的協(xié)同作用,而不是單一曲線。人們通過延伸訓(xùn)練縮放定律來預(yù)測大語言模型能力將陷入停滯,卻未曾預(yù)見到推理縮放才是真正打破收益遞減的關(guān)鍵。

我在2月份曾提到,任何自我提升的大語言模型算法都沒能在三輪之后取得顯著進展。沒有人能在大語言模型領(lǐng)域重現(xiàn)AlphaGo的成功,在這個領(lǐng)域,更多的計算能力將可達到超越人類的水平。不過,現(xiàn)在我們翻開了新的一頁。

博士生坎貝爾 VS 奧特曼:卡內(nèi)基梅隆大學(xué)計算機科學(xué)博士生詹姆斯坎貝爾(James Campbell)發(fā)帖,展示了OpenAI o1預(yù)覽版在美國數(shù)學(xué)邀請賽(AIME)上的表現(xiàn),顯示其解答了83%的問題。相較之下,GPT - 4o僅解答出13%的問題。坎貝爾寫道:“一切都結(jié)束了!” 對此,OpenAI首席執(zhí)行官山姆奧特曼(Sam Altman)回復(fù)稱:“我們還會回來的!”

“中差評”陣營:買家需謹(jǐn)慎,它并沒有那么聰明HuggingFace首席執(zhí)行官兼聯(lián)合創(chuàng)始人克萊門特德蘭吉(Clement Delangue):再一次,人工智能系統(tǒng)并不是在“思考”,而是在“處理”和“運行預(yù)測”就像谷歌或電腦一樣。這種技術(shù)往往給人一種錯誤的印象,讓你覺得這些系統(tǒng)像人類一樣智能,但這只是廉價的宣傳和營銷策略,讓你覺得它們比實際情況更聰明。

紐約大學(xué)教授、美國知名AI學(xué)者加里馬庫斯(Gary Marcus):OpenAI關(guān)于GPT的新模型確實令人印象深刻,但是:

1. 它不是AGI(通用人工智能),而且距離這個目標(biāo)還很遠(yuǎn)。

2.仔細(xì)閱讀并理解其中的細(xì)節(jié)。關(guān)于它如何工作的細(xì)節(jié)并不多,已測試的內(nèi)容也沒有全面披露。它與GPT-4的其余部分并未完全整合。(為什么?)

3.完整的新模型并未向付費訂閱者發(fā)布,只推出了一個迷你版和預(yù)覽版。因此,業(yè)界還未能對其進行充分測試。

4.報告顯示,OpenAI o1在許多領(lǐng)域表現(xiàn)良好,但在某些方面舊模型表現(xiàn)更佳。它并不是一個全面超越舊模型的神奇改進。

5.我們不清楚具體的訓(xùn)練內(nèi)容,但即使是一些基礎(chǔ)任務(wù),如井字棋(tic-tac-toe),也存在問題。

6.OpenAI夸大了它在法律考試上的成功,經(jīng)過仔細(xì)審查,這些說法經(jīng)不起推敲?茖W(xué)審查需要時間,目前這些結(jié)果尚未經(jīng)過同行評審。

7.它聲稱能在幾秒鐘內(nèi)完成的任務(wù),若給它一個月時間,可能會讓人驚訝。但如果給它一個高度專業(yè)化的任務(wù),比如編寫復(fù)雜的軟件代碼,它可能會令人失望,因為OpenAI希望你認(rèn)為它無所不能。

8. 買家需謹(jǐn)慎。

沃頓商學(xué)院管理學(xué)教授伊森莫里克(Ethan Mollick) :我已經(jīng)用了1個月的“草莓”(OpenAI o1),它在許多方面都很驚人,但也有些限制。也許最重要的是,這是一個信號,表明了未來事情的發(fā)展方向。

新的人工智能模型被稱為“o1-預(yù)覽”(為什么人工智能公司總是這么不擅長命名?),它在解決問題之前會先“思考”一下問題。這使得它能夠解決那些需要計劃和迭代的復(fù)雜問題,比如新穎的數(shù)學(xué)或科學(xué)難題。事實上,它在解決極其困難的物理問題上,現(xiàn)在甚至可以超過人類的博士專家。

需要明確的是,“o1-預(yù)覽”并不是在所有方面都表現(xiàn)得更好。例如,它并不比GPT-4o更強。但對于需要規(guī)劃的任務(wù),表現(xiàn)卻非常好。例如,我給它下達了這樣的指令:參考下面的論文,考慮老師和學(xué)生的觀點,弄清楚如何使用多個代理和生成式AI構(gòu)建一個教學(xué)模擬器。編寫代碼并詳細(xì)說明你的方法。然后我把我們論文的全文貼了上去,唯一的提示是要構(gòu)建完整的代碼。你可以看到下面系統(tǒng)生成的結(jié)果。

評估這些復(fù)雜的輸出確實很困難,因此展示草莓模型的收益(以及局限性)最簡單的方法是用一個游戲:填字游戲。我從一個非常難的填字游戲中提取了8條線索,并將其翻譯成文本(因為我還不能看到圖像)。不妨自己嘗試一下這個謎題,我敢打賭你會覺得它很有挑戰(zhàn)性。

填字游戲?qū)Υ笳Z言模型來說顯得尤其棘手,因為它們需要反復(fù)試錯:嘗試并排除許多相互關(guān)聯(lián)的答案。而大語言模型無法做到這一點,因為它們每次只能在其答案中添加一個Token。例如,當(dāng)我把這個謎題給Claude時,它首先給出的答案是“STAR”(錯誤的),然后用這個錯誤的答案嘗試解答剩下的謎題,最后甚至連答案都猜不出來。沒有規(guī)劃過程,它只能不斷嘗試。

但如果我把這個謎題給草莓會怎樣呢?這個模型首先“思考”了整整108秒(大多數(shù)問題能在更短時間內(nèi)解決)。你可以看到它的思路,下面是一個樣本(還有很多我沒包括),這些思路非常啟發(fā)人值得花時間讀一讀。

大語言模型會反復(fù)迭代,創(chuàng)造和排除想法,結(jié)果通常相當(dāng)出色。然而,“o1-預(yù)覽”似乎還是基于GPT-4o,有點過于字面化,難以破解這個較難的謎題。例如,“星系團”并不是指真正的星系,而是三星Galaxy手機(這也讓我困惑)答案是“應(yīng)用程序”。在決定是否為COMA(一個真實的星系團)之前,它一直在嘗試實際的星系名稱。因此,剩下的結(jié)果雖然有創(chuàng)意,但不完全正確,也不符合規(guī)則。

為了嘗試更進一步,我決定給它一個提示:“1向下是APPS。”人工智能又花了一分鐘。再次,在它的思維樣本中(見左邊),你可以看到它如何迭代想法。最終,它給出的答案完全正確,解決了所有難題的提示,盡管它確實生成了一個新線索這不是我給它的謎題。

所以,如果沒有“草莓”,“o1-預(yù)覽”所做的事情是不可能實現(xiàn)的,但它仍然不是完美的:錯誤和幻覺仍然存在,且它仍受限于GPT-4o作為底層模型的“智能”。自從有了新模型,我沒停止用Claude來評論我的帖子,Claude在風(fēng)格上仍然表現(xiàn)更好,但我確實停止用它處理任何復(fù)雜的計劃或問題解決任務(wù)。“o1-預(yù)覽”在這些領(lǐng)域代表了巨大的飛躍。

使用“o1-預(yù)覽”意味著面臨人工智能的范式變化。計劃成了一種代理形式,人工智能在沒有我們幫助的情況下自己得出解決方案?梢钥闯,人工智能做了大量的思考,產(chǎn)生了完整的結(jié)果,作為人類伙伴的角色感覺被削弱了。人工智能會自主完成任務(wù),然后給出答案。當(dāng)然,我可以通過分析它的推理找出錯誤,但我不再感覺自己與人工智能的輸出有聯(lián)系,也不再覺得自己在解決方案的形成中扮演重要角色。這不一定是壞事,但確實是一種改變。

隨著這些系統(tǒng)不斷升級,逐漸走向真正的自主代理,我們需要弄清楚如何保持在這個循環(huán)中既要捕捉錯誤,又要掌握我們試圖解決問題的核心。“o1-預(yù)覽”展示了可能前所未見的人工智能功能,即使它目前存在一些局限性。這給我們留下了一個關(guān)鍵問題:隨著人工智能的發(fā)展,我們?nèi)绾闻c它更好地合作?這是“o1-預(yù)覽”目前還無法解決的問題。

和很多人直接的褒貶觀點不同,作為對話式搜索引擎Perplexity CEO,阿拉溫德斯里尼瓦斯(Aravind Srinivas)試圖“猜測”OpenAI o1模型的原理。他不認(rèn)為“草莓”所給出的答案是經(jīng)由反復(fù)批判性反饋精心提煉的結(jié)果,而且認(rèn)為單純依賴大型語言模型來得出答案并不足夠可靠。他建議,將代碼執(zhí)行融入其中,并結(jié)合從知識圖譜中直接提取的事實,這一做法在實際應(yīng)用中可能更為有效。

總體而言,OpenAI o1的“思考”時間更長、更擅長處理標(biāo)準(zhǔn)化程度更高的“理科”問題了,這對科學(xué)領(lǐng)域的發(fā)展來說是一件好事。但除了是非分明的邏輯推理問題,世界上所存在的更多問題,都是沒有標(biāo)準(zhǔn)答案的,對蕓蕓眾生而言,一千個人眼中有一千個哈姆雷特,如果大模型能為人類解決這類非標(biāo)問題,或許才能接近真正的AGI。(編譯/金鹿 編輯/可君、周小燕)

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港