天下苦 OpenAI 擠牙膏久矣。環(huán)顧宇內(nèi),能夠與 OpenAI 抗衡的對(duì)手屈指可數(shù),Anthropic 旗下的 Claude 模型算是一個(gè)靠譜的勁敵。盼星星,盼月亮,沒(méi)有等到「超大杯」Opus 的亮相,但好在也等來(lái)了全新升級(jí)的大杯 Claude 3.5 Sonnet。
X 網(wǎng)友 @skirano 梗圖簡(jiǎn)單總結(jié)這次更新的亮點(diǎn):拳打 GPT-4o,腳踢 Gemini 1.5 Pro,新版 Claude 3.5 Sonnet 表現(xiàn)遙遙領(lǐng)先Claude 3.5 Haiku 響應(yīng)速度最快,性能媲美 GPT-4o mini構(gòu)建 API,教 Claude 怎么玩電腦關(guān)注 AI 第一新媒體,率先獲取 AI 前沿資訊和洞察
教 Claude 玩電腦,AI 鍵盤(pán)俠來(lái)了?這次更新的重頭戲其實(shí)不是新模型,而是怎么教 AI 玩電腦。Anthropic 推出了一個(gè)公開(kāi)測(cè)試的革命性功能「computer use」:通過(guò) API 教 Claude 像個(gè)人一樣操作電腦,能看屏幕、動(dòng)光標(biāo)、點(diǎn)按鈕、打字……簡(jiǎn)單說(shuō)就是,Claude 現(xiàn)在能用人類(lèi)設(shè)計(jì)的標(biāo)準(zhǔn)工具和軟件了。而開(kāi)發(fā)者可以借此解放一些枯燥的重復(fù)性流程任務(wù),甚至進(jìn)行開(kāi)放式任務(wù),如研究。
為了讓 Claude 具備這種技能,Anthropic 專(zhuān)門(mén)打造了一個(gè) API,并使得 Claude 能夠感知并與計(jì)算機(jī)界面產(chǎn)生交互。具體來(lái)說(shuō),開(kāi)發(fā)者在交互過(guò)程中集成這一 API,讓 Claude 將指令(比如:「用我電腦上的數(shù)據(jù),結(jié)合網(wǎng)上信息填個(gè)表」)翻譯成計(jì)算機(jī)指令(比如:檢查個(gè)表格,動(dòng)動(dòng)鼠標(biāo)打開(kāi)個(gè)瀏覽器,導(dǎo)航到相關(guān)網(wǎng)頁(yè),然后用網(wǎng)上的數(shù)據(jù)把表格填滿(mǎn))。
案例展示,視頻由 APPSO 簡(jiǎn)單編譯OSWorld 是一個(gè)用于測(cè)試多模態(tài)智能體在真實(shí)計(jì)算機(jī)環(huán)境中執(zhí)行開(kāi)放式任務(wù)的能力的基準(zhǔn)測(cè)試平臺(tái),通常用來(lái)評(píng)估 AI 模型是否具備像人類(lèi)一樣使用計(jì)算機(jī)的能力。Claude 3.5 Sonnet 在僅用截圖的測(cè)試類(lèi)別中得分 14.9%,遠(yuǎn)超第二名的 7.8%。在允許使用更多步驟時(shí),Claude 的得分為 22.0%。一些公司的產(chǎn)品已經(jīng)提前用上了這一功能。例如,Replit 正在利用 Claude 3.5 Sonnet 的計(jì)算機(jī)操作與界面導(dǎo)航能力,為其 Replit 智能體產(chǎn)品開(kāi)發(fā)一項(xiàng)關(guān)鍵功能,用于評(píng)估正在構(gòu)建中的應(yīng)用程序。當(dāng)然,這種做法其實(shí)并不新鮮。因?yàn)樵诖酥,Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已經(jīng)開(kāi)始探索這些可能性,執(zhí)行需要幾十甚至上百步的任務(wù)。
案例展示,視頻由 APPSO 簡(jiǎn)單編譯不過(guò),理想很豐滿(mǎn),現(xiàn)實(shí)很骨感。官方也坦誠(chéng),當(dāng)前這一功能仍處于實(shí)驗(yàn)階段,在操作計(jì)算機(jī)時(shí)速度較慢,并且經(jīng)常會(huì)出現(xiàn)錯(cuò)誤。一些簡(jiǎn)單的操作比如滾動(dòng)、拖動(dòng)、縮放,看似人類(lèi)一揮手就能搞定的事兒,對(duì) Claude 來(lái)說(shuō)依然是個(gè)不小的挑戰(zhàn)。在錄制這些演示的過(guò)程中,我們遇到了一些有趣的插曲。有一次,Claude 不小心終止了一個(gè)正在進(jìn)行的長(zhǎng)時(shí)間屏幕錄制,結(jié)果所有的錄像素材都丟失了。之后,Claude 在我們的編碼演示間隙休息了一下,開(kāi)始欣賞黃石國(guó)家公園的照片。此外,Claude 通過(guò)截取屏幕的靜態(tài)圖像,然后將這些圖像組合起來(lái),以理解屏幕上發(fā)生的事情,但也正因此,它可能無(wú)法捕捉到屏幕上的短暫動(dòng)作或通知,比如彈出窗口或快速變化的圖標(biāo)。官方也說(shuō)了,之所以提前發(fā)布這項(xiàng)功能,是為了獲取開(kāi)發(fā)者的反饋,預(yù)計(jì)這功能隨著時(shí)間會(huì)逐漸有所改進(jìn)。
案例展示,由 APPSO 簡(jiǎn)單編譯Anthropic 開(kāi)發(fā)者關(guān)系主管 Alex Albert 還分享了一個(gè)有趣的經(jīng)歷。在開(kāi)發(fā)「computer use 」功能時(shí),他們組織了一次工程故障排查會(huì),目的是找出 API 中所有潛在的問(wèn)題。幾位工程師聚在一個(gè)房間里工作了幾個(gè)小時(shí),但自然很快就餓了。其中一位工程師發(fā)出的第一個(gè)「computer use 」請(qǐng)求,就是讓 Claude 導(dǎo)航到外賣(mài)平臺(tái) DoorDash 并訂購(gòu)足夠的食物來(lái)喂飽大家。Claude 思考了大約一分鐘后, 最后給工程師們訂了幾份披薩。
網(wǎng)友也很快挖出了 computer use 功能拒絕做的清單:在社交媒體或其他平臺(tái)上創(chuàng)建賬戶(hù)發(fā)送電子郵件或消息在社交媒體上發(fā)布評(píng)論進(jìn)行購(gòu)買(mǎi)訪(fǎng)問(wèn)私人信息完成驗(yàn)證碼(CAPTCHA)生成、編輯或修改圖片打電話(huà)訪(fǎng)問(wèn)受限內(nèi)容執(zhí)行需要個(gè)人身份驗(yàn)證的操作
真推理模型之王,新模型編碼遙遙領(lǐng)先再來(lái)看看升級(jí)版 Claude 3.5 Sonnet 交出的成績(jī)單。盡管現(xiàn)在大模型榜單的公信力已不如往日,但基于同一套考題的邏輯下,我們?nèi)匀荒軐?duì)新發(fā)布的模型有個(gè)初步了解。拳打 GPT-4o,腳踢 Gemini 1.5 Pro,Claude 3.5 Sonnet 在 GPQA、MMLU Pro、HumanEVal 等一系列基準(zhǔn)測(cè)試中表現(xiàn)亮眼,可謂是遙遙領(lǐng)先。特別是在編碼領(lǐng)域,Claude 3.5 Sonnet 更是進(jìn)一步拉大了領(lǐng)先優(yōu)勢(shì);蛟S你會(huì)好奇,為什么榜單里沒(méi)有出現(xiàn)與 OpenAI o1 模型的對(duì)比。
別急,Anthropic 預(yù)判了你的預(yù)判,官方給出的解釋是:我們的評(píng)估表格中之所以沒(méi)有包含 OpenAI 的 o1 模型系列,是因?yàn)樗鼈冊(cè)陧憫?yīng)前需要大量的計(jì)算時(shí)間,這與大多數(shù)模型不同。這種本質(zhì)上的區(qū)別使得進(jìn)行性能比較變得復(fù)雜。翻譯一下就是,我們想比但也不好比。不過(guò),在 SWE-bench Verified 的編碼測(cè)試中,Claude 3.5 Sonnet 的表現(xiàn)從 33.4% 提升到 49.0%,超過(guò)了包括 OpenAI o1-preview 在內(nèi)等推理模型,以及各種智能體編碼系統(tǒng)。Claude 3.5 Sonnet 真推理模型之王。此外,在 TAU-bench 智能體工具測(cè)試中,Claude 3.5 Sonnt 也表現(xiàn)不俗。TAU-bench 主要提供一個(gè)更接近真實(shí)世界應(yīng)用場(chǎng)景的評(píng)估環(huán)境。面對(duì)零售領(lǐng)域問(wèn)題,Claude 3.5 Sonnet 得分從 62.6% 提高至 69.2%,而面對(duì)航空方面的問(wèn)題,其成績(jī)也從 36.0% 上升至 46.0%。
更重要的是,這些改進(jìn)并未提高價(jià)格或降低速度,Claude 3.5 Sonnet 仍保持了與前代相同的性?xún)r(jià)比。官方博客中提到,編碼能力的改進(jìn)是 Claude 3.5 Sonnet 的最大亮點(diǎn)。GitLab 測(cè)試發(fā)現(xiàn)其推理能力提升了 10%,無(wú)額外延遲,非常適合多步驟的軟件開(kāi)發(fā)流程。The Browser Company 也指出,Claude 3.5 Sonnet 在自動(dòng)化網(wǎng)頁(yè)工作流程方面的表現(xiàn)超越了他們之前測(cè)試的所有模型。
作為追求極高安全系數(shù)的模型公司,Anthropic 自然也對(duì) Claude 3.5 Sonnet 進(jìn)行了災(zāi)難性風(fēng)險(xiǎn)評(píng)估,結(jié)果符合 ASL-2 標(biāo)準(zhǔn)。ASL-2 指的是顯示出危險(xiǎn)能力早期跡象的系統(tǒng)(例如能夠給出如何制造生物武器的指令),但這些信息由于可靠性不足或無(wú)法超越搜索引擎能提供的信息而沒(méi)有太多用處。簡(jiǎn)言之,Claude 3.5 Sonnet 再?gòu)?qiáng),也還沒(méi)有到威脅人類(lèi)的地步。
聊完性能最強(qiáng)的模型,接下來(lái)登場(chǎng)的是,響應(yīng)速度最快的全新升級(jí)模型Claude 3.5 Haiku。光看紙面參數(shù),中杯 Claude 3.5 Haiku 幾乎不遜色于 GPT-4o mini,甚至可以說(shuō),它已經(jīng)可以小贏(yíng)一把,整體表現(xiàn)也與前代 Claude 3 Opus 表現(xiàn)持平。但價(jià)格沒(méi)變,響應(yīng)速度也沒(méi)減,有種「加量不加價(jià)」的錯(cuò)位體驗(yàn)。類(lèi)似地,Claude 3.5 Haiku 在編碼任務(wù)的表現(xiàn)也尤為突出。它在 SWE-bench Verified 上的得分為 40.6%,超過(guò)了很多所謂的最先進(jìn)智能體,包括 Claude 3.5 Sonnet(舊版)和 GPT-4o。
低延遲、改進(jìn)的指令執(zhí)行能力以及更精準(zhǔn)的工具使用能力,這些特性都讓 Claude 3.5 Haiku 尤其適用于需要個(gè)性化服務(wù)的場(chǎng)景中。例如,根據(jù)你以前買(mǎi)東西的習(xí)慣來(lái)推薦商品,或者幫你決定商品的價(jià)格,甚至是幫你管理倉(cāng)庫(kù)里的存貨。最后,升級(jí)版的 Claude 3.5 Sonnet 現(xiàn)已面向所有用戶(hù)開(kāi)放。而 Claude 3.5 Haiku 將于本月晚些時(shí)候發(fā)布,初期只支持文本輸入,圖像輸入功能隨后推出。
實(shí)際上,如果你最近關(guān)注 AI 圈,你會(huì)發(fā)現(xiàn)行業(yè)里的幾位重要人物都當(dāng)起了「預(yù)言家」。Demis Hassabis、Sam Altman 和 Anthropic 的 Dario Amodei,都宣稱(chēng) AGI 將在未來(lái)幾年或幾千天內(nèi)實(shí)現(xiàn)。他們畫(huà)了一張又一張堪比烏托邦的 AGI 藍(lán)圖,如治愈大多數(shù)疾并解決氣候問(wèn)題、消除貧困等。如果匯總那幾篇長(zhǎng)文的核心思想,AI 幾乎成了包治百病的神藥。但話(huà)說(shuō)回來(lái),信心還得是靠實(shí)實(shí)在在的產(chǎn)品來(lái)證明。
在沒(méi)有可靠、可持續(xù)的商業(yè)模式下,行業(yè)只能靠對(duì) AGI 的「盲信」來(lái)維持高昂的投資和支出,就好像掛在驢前面的那根晃蕩的蘿卜。換個(gè)角度說(shuō),今天發(fā)布的 Claude 模型等一系列產(chǎn)品功能也是在讓我們重拾信心,而按照以往的產(chǎn)品發(fā)布節(jié)奏,OpenAI 預(yù)計(jì)也快要出手了。不同之處在于,OpenAI 的武器庫(kù)顯然更豐富,靠近年底,下一個(gè)亮相的會(huì)是 OpenAI o1 的正式版,還是「期貨」Sora 呢?接下來(lái),我們就拭目以待,看 OpenAI 如何「亮劍」了。