亚洲第一无码专区久久久,亚洲视频在线观看一区,国产欧美另类在线视频

OpenAI最強(qiáng)競(jìng)對(duì)Claude再次出牌

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-26 11:12:14 瀏覽：2250次

導(dǎo)讀：劃重點(diǎn) 01Anthropic發(fā)布了Claude 3.5 Haiku和Claude 3.5 Sonnet兩個(gè)版本，其中Sonnet版本具有更強(qiáng)的編程能力。 02Claude 3.5 Sonnet在研究生水平推理測(cè)試中準(zhǔn)確率為65.0%，本科生水平知識(shí)測(cè)試中準(zhǔn)確率為78.0%，表現(xiàn)出色。 03然而，Claude在操作電腦方面的能...

劃重點(diǎn)

01Anthropic發(fā)布了Claude 3.5 Haiku和Claude 3.5 Sonnet兩個(gè)版本，其中Sonnet版本具有更強(qiáng)的編程能力。

02Claude 3.5 Sonnet在研究生水平推理測(cè)試中準(zhǔn)確率為65.0%，本科生水平知識(shí)測(cè)試中準(zhǔn)確率為78.0%，表現(xiàn)出色。

03然而，Claude在操作電腦方面的能力仍有限，如拖拽、縮放等操作尚無(wú)法完成。

04此外，Claude在操作過(guò)程中可能會(huì)出錯(cuò)，如在屏幕錄制中意外停止或編碼演示中分心瀏覽照片。

05盡管如此，許多人認(rèn)為Claude的新技術(shù)具有革命性，有望改變未來(lái)人工智能的開(kāi)發(fā)方式。

以上內(nèi)容由騰訊混元大模型生成，僅供參考

OpenAI最強(qiáng)競(jìng)對(duì)Claude再次出牌

出品｜虎嗅科技組

作者｜余楊

編輯｜苗正卿

頭圖｜視覺(jué)中國(guó)

10月22日，由Anthropic開(kāi)發(fā)的Claude 3.5迎來(lái)重磅升級(jí)，發(fā)布了Claude 3.5 Haiku 和 Claude 3.5 Sonnet 。

Claude模型也被稱為“十四行詩(shī)”（Sonnet），Anthropic公司在為其模型命名時(shí)，借鑒了文學(xué)藝術(shù)作品中的術(shù)語(yǔ)，其中包括“俳句”（Haiku）、“十四行詩(shī)”（Sonnet）和“杰作”（Opus），這些名稱不僅代表了模型的不同版本，也反映了它們?cè)诠δ芎托阅苌系奶攸c(diǎn)。

Claude 3.5 Sonnet 有著更強(qiáng)的編程能力，全新功能的computer use（計(jì)算機(jī)使用），支持像人類一樣操作計(jì)算機(jī)，可以遵循用戶的命令在計(jì)算機(jī)屏幕上移動(dòng)光標(biāo)，點(diǎn)擊相關(guān)位置，并通過(guò)虛擬鍵盤(pán)輸入信息，模擬人們與自己計(jì)算機(jī)的交互方式。

OpenAI最強(qiáng)競(jìng)對(duì)Claude再次出牌

目前，Claude 3.5 Sonnet 已投入使用。

Claude系列大語(yǔ)言模型，一直被廣泛認(rèn)為是OpenAI的ChatGPT和谷歌的Gemini的主要競(jìng)爭(zhēng)對(duì)手。Anthropic在X中發(fā)布了模型基準(zhǔn)測(cè)試結(jié)果，與GPT和Gemini在多個(gè)領(lǐng)域進(jìn)行橫向?qū)Ρ取?/strong>

這些領(lǐng)域包括研究生水平的推理能力（GPQA Diamond）、本科生水平的知識(shí)掌握（MMLUPro）、代碼編寫(xiě)能力（Code HumanEval）、數(shù)學(xué)問(wèn)題解決能力（MATH）、視覺(jué)問(wèn)答能力（MMMU）以及代理編碼（SWE-bench Verified）和代理工具使用（TAU-bench）。

在研究生水平推理測(cè)試（GPQA Diamond）中，Claude 3.5 Sonnet以65.0%的準(zhǔn)確率拔得頭籌，Claude 3.5 Haiku則以41.6%的準(zhǔn)確率則稍顯遜色。而Gemini 1.5 Pro 的準(zhǔn)確率為59.1%，居于第二。在本科生水平知識(shí)測(cè)試（MMLUPro）中，Claude 3.5 Sonnet再次以78.0%的準(zhǔn)確率領(lǐng)先，而Gemini 1.5 Pro 則以75.8%的準(zhǔn)確率緊隨其后。

在此次主打的代碼編寫(xiě)能力測(cè)試（Code HumanEval）中，Claude 3.5 Sonnet以93.7%的準(zhǔn)確率取得了最佳成績(jī)，GPT-4o系列模型在這一測(cè)試中也展現(xiàn)了不錯(cuò)的性能，準(zhǔn)確率為90.2%和87.2%。

雖然在數(shù)學(xué)問(wèn)題解決測(cè)試（MATH）中，Claude 3.5系列稍顯遜色，Gemini 1.5 Pro 仍然碾壓全場(chǎng)，但對(duì)于視覺(jué)問(wèn)答測(cè)試（MMMU）和代理編碼測(cè)試（SWE-bench Verified），Claude 3.5 Sonnet和Claude 3.5 Haiku仍有著不俗的表現(xiàn)。

而TO B的代理工具使用測(cè)試（TAU-bench），則直接關(guān)系到大模型的應(yīng)用能力，此次主要測(cè)試了零售和航空領(lǐng)域。Claude 3.5 Sonnet在零售和航空領(lǐng)域的準(zhǔn)確率分別為69.2%和46.0%，而Claude 3.5 Haiku在零售和航空領(lǐng)域的準(zhǔn)確率分別為51.0%和22.8%。

需要注意的是，OpenAI的o1模型家族由于其依賴于廣泛的預(yù)響應(yīng)計(jì)算時(shí)間，與典型模型存在根本差異，這使得性能比較變得困難，因此在本次評(píng)估中被排除在外。

這可能不夠具像化。

Anthropic提供了一個(gè)演示，在2分鐘的視頻中，研究員給Claude提出了一個(gè)指令：

我的朋友要來(lái)舊金山，我想明天早上和他一起在金門(mén)大橋看日出。我們將從太平洋高地出發(fā)。你能幫我們找到一個(gè)絕佳的觀賞地點(diǎn)，查看一下開(kāi)車時(shí)間和日出時(shí)間，然后安排一個(gè)日歷活動(dòng)，讓我們有足夠的時(shí)間到達(dá)那里嗎？

Claude的回應(yīng)首先是，“讓我搜索谷歌尋找最佳日出觀賞地點(diǎn)”，并自行打開(kāi)了Google開(kāi)始搜索。

Claude以用戶的居住地為出發(fā)點(diǎn)，在地圖中check了駕駛時(shí)間，隨后，Claude不僅打開(kāi)了一個(gè)新的網(wǎng)頁(yè)確認(rèn)明天的日出時(shí)間，還在日歷中設(shè)置了行程提醒，并附上了Notes，URL和附件。

開(kāi)發(fā)者展示出Claude如何操控了自己的筆記本電腦，絲滑地完成了一個(gè)任務(wù)。

Anthropic表示，“我們并沒(méi)有制作特定工具來(lái)幫助 Claude 完成單個(gè)任務(wù)，而是教它通用的計(jì)算機(jī)技能允許它使用為人類設(shè)計(jì)的各種標(biāo)準(zhǔn)工具和軟件程序。我們構(gòu)建了一個(gè) API，使 Claude 能夠感知計(jì)算機(jī)界面并與之交互。該 API 使 Claude 能夠?qū)⑻崾痉g成計(jì)算機(jī)命令。開(kāi)發(fā)人員可以使用它來(lái)自動(dòng)執(zhí)行重復(fù)性任務(wù)、進(jìn)行測(cè)試和 QA 以及進(jìn)行開(kāi)放式研究”。

在其他的demo中，開(kāi)發(fā)者還讓Claude填寫(xiě)了一份來(lái)自螞蟻設(shè)備公司的供應(yīng)商請(qǐng)求表，需要填寫(xiě)的數(shù)據(jù)散布在電腦的各個(gè)角落，Claude跨應(yīng)用進(jìn)行了搜索，切換到CRM系統(tǒng)中，滾動(dòng)頁(yè)面，查找填表所需的所有信息，然后提交了表格。

AI操作電腦的能力代表了一種全新的人工智能開(kāi)發(fā)方法，國(guó)內(nèi)開(kāi)發(fā)者也顯示出在該領(lǐng)域深入的努力。

10月23日，在榮耀MagicOS 9.0發(fā)布會(huì)上，新升級(jí)的YOYO智能體也展現(xiàn)出 AI 手機(jī)端操作能力的類似特質(zhì)，不僅幫演示者提交了咖啡訂單，還填寫(xiě)了博物館場(chǎng)館預(yù)約信息。

一部分關(guān)注者對(duì)此滿懷期待，認(rèn)為這意味著工作中許多不得不做的繁瑣事項(xiàng)，都可以交由AI 代勞了。

不過(guò)，雖然Claude已經(jīng)取得了一些成績(jī)，但我們?nèi)粘Ｊ褂秒娔X時(shí)的許多操作，如拖拽、縮放等，Claude都還無(wú)法做到。

并且，它的操作仍然相對(duì)緩慢，且像人類一樣會(huì)出錯(cuò)。在一次演示中，Claude不小心點(diǎn)擊停止了一個(gè)長(zhǎng)時(shí)間運(yùn)行的屏幕錄制，導(dǎo)致所有錄像都付諸東流。而在另一次編碼演示中，Claude則突然“走神”，開(kāi)始饒有興趣地瀏覽起黃石國(guó)家公園的照片。

但瑕不掩瑜，這并不妨礙我們像莎士比亞一樣，將Claude的新技術(shù)比作“夏日”。

本內(nèi)容為作者獨(dú)立觀點(diǎn)，不代表虎嗅立常未經(jīng)允許不得轉(zhuǎn)載，授權(quán)事宜請(qǐng)聯(lián)系 hezuo@huxiu.com

正在改變與想要改變世界的人，都在虎嗅APP

贊助本站