展會(huì)信息港展會(huì)大全

實(shí)測(cè)OpenAI的o1:真沒吹牛,奧數(shù)題高考題都能信手拈來了?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-15 14:20:40   瀏覽:2524次  

導(dǎo)讀:頭圖由豆包生成,提示詞 :太陽系、八大行星,宇宙星空+區(qū)域重繪 好家伙,OpenAI 終于上新了!9月13日凌晨,OpenAI 發(fā)布了最新系列模型 OpenAI o1 ,也就是吹了很久的Strawberry 模型,OpenAI 的 o1 是一系列新的 AI 模型,專門為解決復(fù)雜問題而生。在多種平...

頭圖由豆包生成,提示詞 :太陽系、八大行星,宇宙星空+區(qū)域重繪

好家伙,OpenAI 終于上新了!9月13日凌晨,OpenAI 發(fā)布了最新系列模型 OpenAI o1,也就是吹了很久的“Strawberry 模型”,OpenAI 的 o1 是一系列新的 AI 模型,專門為解決復(fù)雜問題而生。在多種平臺(tái)上超越了所有之前的版本,甚至超過了許多人類,比如美國數(shù)學(xué)奧林匹克(AIME)、GPQA 評(píng)估和 Codeforces,目前已上線 o1-Preview、o1-mini。

首個(gè)版本是預(yù)覽版,不僅推理、科學(xué)、編程和數(shù)學(xué)能力強(qiáng)了一大截;更重要的它不是直接回答,而是主動(dòng)先思考后再回答。就相當(dāng)于在生成回應(yīng)之前,投入更多時(shí)間進(jìn)行思考,再做答。

目前,ChatGPT Plus 和 Team 用戶已經(jīng)可以在 ChatGPT 網(wǎng)頁版中訪問 o1 模型,Enterprise 和 Edu 用戶下周也能用上。沒有會(huì)員的朋友們可以期待一下,OpenAI 官方會(huì)繼續(xù)研發(fā)計(jì)劃向所有 ChatGPT 免費(fèi)用戶提供 o1-mini 訪問權(quán)限。收到消息后,第一時(shí)間就打開 ChatGPT, 能直接使用 o1-Preview、o1-mini,還不錯(cuò)。要知道一直以來,大模型都是文科生,在數(shù)學(xué)問題上都顯得很智障。除非有非常非常清晰的提示,否則很難答對(duì)。很多模型都栽在了最簡單的比大小問題上,看官方介紹 o1 更新著重在推理(科學(xué)、數(shù)學(xué)、編碼)上下了不少功夫,那咱們拭目以待。1

先做道 AIME 2024年競(jìng)賽題

根據(jù)官方報(bào)告,在許多需要推理的測(cè)試中,o1 的表現(xiàn)已經(jīng)達(dá)到了人類專家的水平,推理準(zhǔn)確性超過博士生。由于目前處于模型訓(xùn)練的早期階段,常見功能基本都還沒上,也沒有多模態(tài)能力,無法上傳圖片,暫時(shí)就選擇文字題目進(jìn)行提問。

下面是一道 AIME 2024年競(jìng)賽的題目,一項(xiàng)專門為美國頂尖高中數(shù)學(xué)學(xué)生設(shè)立的挑戰(zhàn)性考試,看看 o1 怎么答。

這么高難度的題,o1 思考了15秒,就解出來了。對(duì)照答案,完全正確,分別是0.4h 和 204min。要知道之前除了 Deepmind 的專業(yè)大模型有可能答對(duì)以外,其他的基本全軍覆沒。

o1 思考到生成

這道題有兩種解法,感興趣的朋友可參考詳細(xì)解題步驟及視頻:

既然 o1 能做頂尖數(shù)學(xué)競(jìng)賽,也能做高考理科真題。以前每每做高考真題,答案往往只有孤零零的數(shù)字一個(gè),想研究吧,沒參考。

那我們不如讓 o1 解高考真題,給廣大學(xué)子提供下新的解題思路。

o1-preview 用了26秒得出答案,而且整個(gè)過程非常詳細(xì),推理也很到位。

詳細(xì)解答:

再來看一道化學(xué)題

o1-preview 9秒就答出來了,而且有詳細(xì)的分析思路,不太友好的時(shí)候發(fā)現(xiàn)是英文。在提問的時(shí)候,發(fā)現(xiàn)它的輸出不太穩(wěn)定,有時(shí)英文,有時(shí)中文,如果真用的話還是要謹(jǐn)慎參考。

o1-preview

反觀 GPT-4o,回答則錯(cuò)誤,對(duì)于這道化學(xué)題,一本正經(jīng)地胡說八道。

GPT-4o1

退休年齡計(jì)算

最近關(guān)于漸進(jìn)式延遲法定退休年齡的辦法引起大家廣泛討論,退休規(guī)則比較復(fù)雜。

咱用 o1 試試,算一下具體的退休時(shí)間。假設(shè)阿琴是1978年6月出生的,她將會(huì)在哪年哪月退休?

o1 在一分鐘內(nèi)計(jì)算出了,阿琴將在2030年6月,也就是51周歲10個(gè)月時(shí)正式退休。對(duì)比退休年齡對(duì)照表,確實(shí)準(zhǔn)確無誤!

其他更有趣的例子放在了視頻里:1

三個(gè)其實(shí) o1-preview 的可玩性還是很高的

很多人不喜歡理科是因?yàn)榭菰锏母拍睿砂桶偷臄?shù)字,做實(shí)驗(yàn)有難度,根本學(xué)也學(xué)不明白,F(xiàn)在的通過引導(dǎo)AI一步步把實(shí)驗(yàn)可視化,想要實(shí)現(xiàn)需要邏輯推理、數(shù)學(xué)計(jì)算和大量編碼。在 o1 出來之前,很多大模型同時(shí)不具備這些能力。今天我們來嘗試一下。實(shí)驗(yàn)一:蛋白質(zhì)構(gòu)建模擬器記得以前上學(xué),生物學(xué)里生命的核心是蛋白質(zhì),它能進(jìn)行多種組合,但想要每個(gè)蛋白質(zhì)不太現(xiàn)實(shí),這時(shí)候AI可就能發(fā)揮大作用,我們做一個(gè)蛋白質(zhì)構(gòu)建模擬器。(提示詞放在文末,可自。﹐1 整個(gè)思考只用了6秒,理解了生物和編程結(jié)合的需求之后,開始梳理步驟,整個(gè)思路非常的清晰明了。

第一次提問后,我讓它幫我輸出完整完整可運(yùn)行的代碼,方便省事。

o1思考9秒后,直接生成了完整的代碼,我挺驚訝的,很難想象這是2次對(duì)話,幾分鐘就實(shí)現(xiàn)的效果。

要知道,這個(gè)效果涉及到編程的前端和后端,對(duì)于編程小白可真的太友好了!

在模擬器中,我們可以把不同的氨基酸添加組合形成新的氨基酸,效果初見雛形?梢,它一次性生成的代碼還是有點(diǎn)東西的,瞬間減輕不少蛋白質(zhì)名字記憶的難度,對(duì)于識(shí)別蛋白質(zhì)和創(chuàng)造新的蛋白質(zhì)真的很有用。實(shí)驗(yàn)二:太陽系運(yùn)轉(zhuǎn)先快速復(fù)習(xí)一下我們的太陽系:由 8 顆行星組成:水星、金星、地球、火星、木星、天王星、土星和海王星。太陽位于我們太陽系的中心,行星圍繞它旋轉(zhuǎn)。如果想要實(shí)現(xiàn)一個(gè)動(dòng)畫,通過改變行星的半徑或太陽的質(zhì)量,來可視化行星速度的變化。(提示詞放在文末,可自。┧伎蓟26秒,意識(shí)到需要使用與物理、數(shù)學(xué)和編碼相關(guān)的概念來生成輸出。

在幾輪對(duì)話明確想法后,o1 結(jié)合了提示詞每一步背后的邏輯,將物理和數(shù)學(xué)合并,把幾個(gè)視覺元素翻譯成合適的代碼。初步看來,運(yùn)行代碼后效果還不錯(cuò),八大行星和和恒星都有,行星軌跡若隱若現(xiàn)。

撥動(dòng)不同的滑塊,能看到不同的效果,對(duì)于做實(shí)驗(yàn)來說,妥妥夠用了。

乍一看以為是靜態(tài)的,過了幾分鐘后發(fā)現(xiàn)是動(dòng)態(tài)的,下面是幾分鐘運(yùn)行加速后的效果,可以看到八大行星都在正常運(yùn)轉(zhuǎn),每個(gè)的速度也不同,并且大小也不同。略顯不足的是,離太陽比較近的幾顆行星,運(yùn)行范圍太小了,以至于都太陽擋住看不清。

本想再優(yōu)化一下上面兩個(gè)實(shí)驗(yàn),看來只能能到一周后了。30分鐘得到這樣的效果,已經(jīng)非常滿意了。

1

最后

可能你也發(fā)現(xiàn)了,之前我們要一步步把一個(gè)問題拆分成很多步驟,精確到一步步引導(dǎo),GPT才能理解并精準(zhǔn)回答,F(xiàn)在不用,o1 出生自己就會(huì)。在編程、數(shù)學(xué)等領(lǐng)域,開始展現(xiàn)出接近人類的思維過程。

要我看,o1 學(xué)會(huì)思考后,越來越像人了,說不定,明年這個(gè)時(shí)候,我就被它完全打敗了,畢竟誰還不想有個(gè)會(huì)說能寫、思路清晰的 AI 腦子呢?在這些測(cè)試中,o1 展現(xiàn)出了強(qiáng)大的推理能力,但仍然存在輸出不穩(wěn)定的問題。盡管不穩(wěn)定、功能尚未全面上線,但o1 系列模型已經(jīng)為我們提供了強(qiáng)大的工具來解決復(fù)雜問題。未來,隨著進(jìn)一步的模型訓(xùn)練和功能完善,我們可以期待 AI 在更多領(lǐng)域?qū)崿F(xiàn)突破。提示詞參考實(shí)驗(yàn)一 蛋白質(zhì)構(gòu)建模擬器Create an interactive Protein Builder Simulation with the following features:User Interaction:

Provide a dropdown menu containing the 20 standard amino acids, displaying their full names, three-letter codes, and one-letter symbols.

Include buttons to Add Amino Acid to the chain, Remove Last Amino Acid, and Reset Chain.

Visual Representation:

Start with the most basic amino acid, Glycine, displayed by default.

Represent each amino acid as a uniquely colored helix and display their one-letter symbols below.

Visually connect amino acids with lines or bonds to represent peptide bonds as the chain grows horizontally.

Information Display:

As amino acids are added, display their names and basic information (properties, uses) below the simulation.

If the amino acid sequence matches a known protein or peptide, display detailed information including its name, description, and popular uses.

For sequences not matching known proteins, display the amino acid sequence and general information about peptides, indicating it may represent a novel or synthetic peptide.

實(shí)驗(yàn)二 太陽系運(yùn)轉(zhuǎn)I want to create a scientifically accurate simulation of our solar system with all 8 planets revolving around the Sun at their unique speeds. The simulation should include the following features:Adjustable Parameters:

Include sliders (drag bars) below the simulation to adjust the following for each planet and the Sun:

Mass

Radius

Adjusting the mass of the Sun should affect the orbital speeds of the planets.

Adjusting a planet’s mass and radius should change its representation in the simulation (size and possibly color), but its own mass doesn’t significantly affect its orbit due to the Sun’s dominant mass.

Visual Enhancements:

All planets and the Sun must be clearly labeled in the simulation with white text for visibility against the space background.

The orbits of the planets should be displayed as paths around the Sun.

When a parameter is adjusted, the corresponding planet (or Sun) should be highlighted in the simulation for a brief period (e.g., with a red rectangle) to indicate which celestial body was changed.

User Interface:

The text in front of each slider should be in black for readability.

The controls should be organized in clear rows in a table, following the order of the planets in the solar system

For each celestial body, the format should be:

Name of the planet or Sun

Mass slider

Radius slider

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港