劃重點(diǎn)
01Anthropic發(fā)布了Claude 3.5 Haiku和Claude 3.5 Sonnet兩個(gè)版本,其中Sonnet版本具有更強(qiáng)的編程能力。
02Claude 3.5 Sonnet在研究生水平推理測(cè)試中準(zhǔn)確率為65.0%,本科生水平知識(shí)測(cè)試中準(zhǔn)確率為78.0%,表現(xiàn)出色。
03然而,Claude在操作電腦方面的能力仍有限,如拖拽、縮放等操作尚無(wú)法完成。
04此外,Claude在操作過(guò)程中可能會(huì)出錯(cuò),如在屏幕錄制中意外停止或編碼演示中分心瀏覽照片。
05盡管如此,許多人認(rèn)為Claude的新技術(shù)具有革命性,有望改變未來(lái)人工智能的開(kāi)發(fā)方式。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
出品|虎嗅科技組
作者|余楊
編輯|苗正卿
頭圖|視覺(jué)中國(guó)
10月22日,由Anthropic開(kāi)發(fā)的Claude 3.5迎來(lái)重磅升級(jí),發(fā)布了Claude 3.5 Haiku 和 Claude 3.5 Sonnet 。
Claude模型也被稱為“十四行詩(shī)”(Sonnet),Anthropic公司在為其模型命名時(shí),借鑒了文學(xué)藝術(shù)作品中的術(shù)語(yǔ),其中包括“俳句”(Haiku)、“十四行詩(shī)”(Sonnet)和“杰作”(Opus),這些名稱不僅代表了模型的不同版本,也反映了它們?cè)诠δ芎托阅苌系奶攸c(diǎn)。
Claude 3.5 Sonnet 有著更強(qiáng)的編程能力,全新功能的computer use(計(jì)算機(jī)使用),支持像人類一樣操作計(jì)算機(jī),可以遵循用戶的命令在計(jì)算機(jī)屏幕上移動(dòng)光標(biāo),點(diǎn)擊相關(guān)位置,并通過(guò)虛擬鍵盤(pán)輸入信息,模擬人們與自己計(jì)算機(jī)的交互方式。
目前,Claude 3.5 Sonnet 已投入使用。
Claude系列大語(yǔ)言模型,一直被廣泛認(rèn)為是OpenAI的ChatGPT和谷歌的Gemini的主要競(jìng)爭(zhēng)對(duì)手。Anthropic在X中發(fā)布了模型基準(zhǔn)測(cè)試結(jié)果,與GPT和Gemini在多個(gè)領(lǐng)域進(jìn)行橫向?qū)Ρ取?/strong>
這些領(lǐng)域包括研究生水平的推理能力(GPQA Diamond)、本科生水平的知識(shí)掌握(MMLUPro)、代碼編寫(xiě)能力(Code HumanEval)、數(shù)學(xué)問(wèn)題解決能力(MATH)、視覺(jué)問(wèn)答能力(MMMU)以及代理編碼(SWE-bench Verified)和代理工具使用(TAU-bench)。
在研究生水平推理測(cè)試(GPQA Diamond)中,Claude 3.5 Sonnet以65.0%的準(zhǔn)確率拔得頭籌,Claude 3.5 Haiku則以41.6%的準(zhǔn)確率則稍顯遜色。而Gemini 1.5 Pro 的準(zhǔn)確率為59.1%,居于第二。在本科生水平知識(shí)測(cè)試(MMLUPro)中,Claude 3.5 Sonnet再次以78.0%的準(zhǔn)確率領(lǐng)先,而Gemini 1.5 Pro 則以75.8%的準(zhǔn)確率緊隨其后。
在此次主打的代碼編寫(xiě)能力測(cè)試(Code HumanEval)中,Claude 3.5 Sonnet以93.7%的準(zhǔn)確率取得了最佳成績(jī),GPT-4o系列模型在這一測(cè)試中也展現(xiàn)了不錯(cuò)的性能,準(zhǔn)確率為90.2%和87.2%。
雖然在數(shù)學(xué)問(wèn)題解決測(cè)試(MATH)中,Claude 3.5系列稍顯遜色,Gemini 1.5 Pro 仍然碾壓全場(chǎng),但對(duì)于視覺(jué)問(wèn)答測(cè)試(MMMU)和代理編碼測(cè)試(SWE-bench Verified),Claude 3.5 Sonnet和Claude 3.5 Haiku仍有著不俗的表現(xiàn)。
而TO B的代理工具使用測(cè)試(TAU-bench),則直接關(guān)系到大模型的應(yīng)用能力,此次主要測(cè)試了零售和航空領(lǐng)域。Claude 3.5 Sonnet在零售和航空領(lǐng)域的準(zhǔn)確率分別為69.2%和46.0%,而Claude 3.5 Haiku在零售和航空領(lǐng)域的準(zhǔn)確率分別為51.0%和22.8%。
需要注意的是,OpenAI的o1模型家族由于其依賴于廣泛的預(yù)響應(yīng)計(jì)算時(shí)間,與典型模型存在根本差異,這使得性能比較變得困難,因此在本次評(píng)估中被排除在外。
這可能不夠具像化。
Anthropic提供了一個(gè)演示,在2分鐘的視頻中,研究員給Claude提出了一個(gè)指令:
我的朋友要來(lái)舊金山,我想明天早上和他一起在金門(mén)大橋看日出。我們將從太平洋高地出發(fā)。你能幫我們找到一個(gè)絕佳的觀賞地點(diǎn),查看一下開(kāi)車時(shí)間和日出時(shí)間,然后安排一個(gè)日歷活動(dòng),讓我們有足夠的時(shí)間到達(dá)那里嗎?
Claude的回應(yīng)首先是,“讓我搜索谷歌尋找最佳日出觀賞地點(diǎn)”,并自行打開(kāi)了Google開(kāi)始搜索。
Claude以用戶的居住地為出發(fā)點(diǎn),在地圖中check了駕駛時(shí)間,隨后,Claude不僅打開(kāi)了一個(gè)新的網(wǎng)頁(yè)確認(rèn)明天的日出時(shí)間,還在日歷中設(shè)置了行程提醒,并附上了Notes,URL和附件。
開(kāi)發(fā)者展示出Claude如何操控了自己的筆記本電腦,絲滑地完成了一個(gè)任務(wù)。
Anthropic表示,“我們并沒(méi)有制作特定工具來(lái)幫助 Claude 完成單個(gè)任務(wù),而是教它通用的計(jì)算機(jī)技能允許它使用為人類設(shè)計(jì)的各種標(biāo)準(zhǔn)工具和軟件程序。我們構(gòu)建了一個(gè) API,使 Claude 能夠感知計(jì)算機(jī)界面并與之交互。該 API 使 Claude 能夠?qū)⑻崾痉g成計(jì)算機(jī)命令。開(kāi)發(fā)人員可以使用它來(lái)自動(dòng)執(zhí)行重復(fù)性任務(wù)、進(jìn)行測(cè)試和 QA 以及進(jìn)行開(kāi)放式研究”。
在其他的demo中,開(kāi)發(fā)者還讓Claude填寫(xiě)了一份來(lái)自螞蟻設(shè)備公司的供應(yīng)商請(qǐng)求表,需要填寫(xiě)的數(shù)據(jù)散布在電腦的各個(gè)角落,Claude跨應(yīng)用進(jìn)行了搜索,切換到CRM系統(tǒng)中,滾動(dòng)頁(yè)面,查找填表所需的所有信息,然后提交了表格。
AI操作電腦的能力代表了一種全新的人工智能開(kāi)發(fā)方法,國(guó)內(nèi)開(kāi)發(fā)者也顯示出在該領(lǐng)域深入的努力。
10月23日,在榮耀MagicOS 9.0發(fā)布會(huì)上,新升級(jí)的YOYO智能體也展現(xiàn)出 AI 手機(jī)端操作能力的類似特質(zhì),不僅幫演示者提交了咖啡訂單,還填寫(xiě)了博物館場(chǎng)館預(yù)約信息。
一部分關(guān)注者對(duì)此滿懷期待,認(rèn)為這意味著工作中許多不得不做的繁瑣事項(xiàng),都可以交由AI 代勞了。
不過(guò),雖然Claude已經(jīng)取得了一些成績(jī),但我們?nèi)粘J褂秒娔X時(shí)的許多操作,如拖拽、縮放等,Claude都還無(wú)法做到。
并且,它的操作仍然相對(duì)緩慢,且像人類一樣會(huì)出錯(cuò)。在一次演示中,Claude不小心點(diǎn)擊停止了一個(gè)長(zhǎng)時(shí)間運(yùn)行的屏幕錄制,導(dǎo)致所有錄像都付諸東流。而在另一次編碼演示中,Claude則突然“走神”,開(kāi)始饒有興趣地瀏覽起黃石國(guó)家公園的照片。
但瑕不掩瑜,這并不妨礙我們像莎士比亞一樣,將Claude的新技術(shù)比作“夏日”。
本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表虎嗅立常未經(jīng)允許不得轉(zhuǎn)載,授權(quán)事宜請(qǐng)聯(lián)系 hezuo@huxiu.com
正在改變與想要改變世界的人,都在 虎嗅APP