起猛了!一覺醒來,AI學(xué)會(huì)像人類一樣操作電腦了!
當(dāng)?shù)貢r(shí)間10月22號(hào),知名AI初創(chuàng)公司Anthropic發(fā)布了Claude 3.5模型家族的更新:新模型Claude 3.5 Haiku發(fā)布,同時(shí)現(xiàn)有模型Claude 3.5 Sonnet獲得了升級(jí)。
最為驚喜的是,升級(jí)版Claude 3.5 Sonnet不僅在各項(xiàng)性能指標(biāo)上取得顯著提升,更是獲得了一項(xiàng)革命性的新技能:能夠像人類一樣操作電腦。
盡管我們現(xiàn)在幾乎每天都能看到AI技術(shù)的更新,但這一新突破足以刷新人們的認(rèn)知,也標(biāo)志著AI技術(shù)在實(shí)際應(yīng)用領(lǐng)域邁出了關(guān)鍵性的一步。
這項(xiàng)功能名為Computer Use(計(jì)算機(jī)使用),目前處于Beta公測(cè)階段,僅支持開發(fā)者通過API配置和調(diào)用。網(wǎng)頁(yè)端的Claude版本雖然已經(jīng)更新到了Claude 3.5 Sonnet (New),但并沒有這項(xiàng)功能。
具體來說,Claude能夠通過觀看屏幕截圖,實(shí)現(xiàn)移動(dòng)光標(biāo)、點(diǎn)擊按鈕、使用虛擬鍵盤輸入文本等操作,真正模擬人類與計(jì)算機(jī)交互的方式。
圖 | Claude演示視頻,它正在操作電腦,debug一段代碼(來源:Anthropic)
“這對(duì)于 AI 模型來說是一項(xiàng)全新的能力。”Anthropic開發(fā)者關(guān)系負(fù)責(zé)人亞歷克斯艾伯特(Alex Albert)在X平臺(tái)上寫道,“我們不是為單個(gè)任務(wù)開發(fā)定制工具,而是向 Claude 傳授基本的計(jì)算機(jī)技能,讓它能夠自然地使用人們?nèi)粘J褂玫南嗤浖凸ぞ摺?rdquo;
這意味著AI助手終于可以突破傳統(tǒng)框架的束縛,直接使用為人類設(shè)計(jì)的各類軟件,而不再局限于專門定制的工具。這將為AI在現(xiàn)實(shí)世界中的應(yīng)用開辟全新的可能。
在demo演示中,亞歷克斯展示了如何讓Claude使用Computer Use功能打開Claude網(wǎng)頁(yè),然后使用Artifact功能編寫代碼:
Claude 還能找到并打開電腦上的其他軟件,比如VSCode:
在多個(gè)演示視頻中,我們可以看到,Claude能夠絲滑地操作電腦執(zhí)行打開軟件、網(wǎng)頁(yè)搜索、文本輸入、編寫代碼、下載文件、debug、查找網(wǎng)頁(yè)表格并填入信息等任務(wù),甚至還能打開外賣平臺(tái)訂餐。
圖 | Claude 點(diǎn)的外賣(來源:亞歷克斯)
據(jù)介紹,Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 等多家公司已經(jīng)在探索Claude的新功能,執(zhí)行原本需要數(shù)十步甚至數(shù)百步才能完成的任務(wù)。
在研究人員的測(cè)試過程中,Claude也出現(xiàn)過一些令人忍俊不禁的失誤。比如,它曾意外地終止了一次長(zhǎng)時(shí)間的屏幕錄制,導(dǎo)致所有錄像丟失;另一次在進(jìn)行代碼演示時(shí),它突然對(duì)黃石國(guó)家公園產(chǎn)生了濃厚興趣,于是打開瀏覽器開始悠閑地搜索起來。
這些失誤說明該技術(shù)仍存在很大的提升空間。
數(shù)據(jù)顯示,盡管Claude在使用電腦方面的表現(xiàn)已經(jīng)達(dá)到了業(yè)界領(lǐng)先水平:它在OSWorld電腦操作評(píng)估測(cè)試中獲得了14.9%的成績(jī),遠(yuǎn)超其他AI模型的7.8%最高分,但與人類的70-75%的水平相比仍有相當(dāng)大的差距。
當(dāng)用戶提供更多完成任務(wù)所需的步驟時(shí),Claude的得分可以提升到22.0%。
目前,一些對(duì)人類來說輕而易舉的電腦操作,如滾動(dòng)、拖拽和縮放等,對(duì)Claude來說仍具有相當(dāng)?shù)奶魬?zhàn)性。此外,由于它是通過連續(xù)的截圖來“觀察”屏幕,而不是更細(xì)粒度的視頻流,這使得它可能會(huì)錯(cuò)過一些間隔較短的操作或通知。
升級(jí)版Claude 3.5 Sonnet性能如何?
在各種基準(zhǔn)測(cè)試的考驗(yàn)下,新版Claude 3.5 Sonnet的表現(xiàn)依舊亮眼。
在軟件工程方面,它在SWE-bench Verified評(píng)測(cè)中的得分從33.4%大幅躍升至49.0%,一舉超越了包括OpenAI o1-preview在內(nèi)的所有公開可用模型。
(來源:Anthropic,亞歷克斯)
在零售領(lǐng)域的TAU-bench測(cè)試中,其表現(xiàn)從62.6%提升到69.2%,在難度更高的航空領(lǐng)域測(cè)試中也從36.0%提升至46.0%。這些數(shù)據(jù)充分證明了其在復(fù)雜任務(wù)處理方面的顯著進(jìn)步。
在推理方面,新版Claude 3.5 Sonnet的推理測(cè)試基準(zhǔn)GPQA (Diamond) 成績(jī)?yōu)?5%,超過了GPT-4o的53.6%。不過OpenAI o1-preview并不在對(duì)比之列,Anthropic給出的理由是,“該系列模型依賴大規(guī)模回復(fù)前計(jì)算時(shí)間,與一般模型不同”。
知名開發(fā)平臺(tái)GitLab對(duì)新版Claude進(jìn)行的測(cè)試顯示,在DevSecOps任務(wù)中,模型的推理能力提升了10%,且沒有增加任何延遲。Browser Company在使用該模型實(shí)現(xiàn)網(wǎng)頁(yè)工作流自動(dòng)化時(shí)也發(fā)現(xiàn),新版Claude的表現(xiàn)超越了他們之前測(cè)試過的所有模型。
與此同時(shí),新版Claude 3.5 Sonnet的價(jià)格并未改變:每百萬(wàn)輸入Token 3美元,每百萬(wàn)輸出Token 15美元。
此次更新中,Anthropic還正式推出了Claude 3.5 Haiku。它是Claude 3.5系列里體積最小,但響應(yīng)速度最快的模型。
與前輩Claude 3 Haiku相比,它的各項(xiàng)技能都得到了全面提升,甚至在多個(gè)智能基準(zhǔn)測(cè)試中超越了上一代最強(qiáng)模型Claude 3 Opus。
在SWE-bench Verified測(cè)試中,Haiku獲得了40.6%的高分,超過了許多使用最先進(jìn)模型的AI智能代理。
Anthropic表示,憑借其低延遲、更準(zhǔn)確的指令執(zhí)行能力和工具使用能力,Haiku特別適合需要大量交互的面向用戶的產(chǎn)品,以及使用海量數(shù)據(jù)生成個(gè)性化體驗(yàn)。
Claude 3.5 Haiku預(yù)計(jì)將于本月晚些時(shí)候推出,可用平臺(tái)包括Anthropic API、Amazon Bedrock和谷歌云Vertex AI。起初它僅支持純文本輸入,未來將加入圖像輸入功能。
Claude 3.5 Haiku的定價(jià)是每百萬(wàn)輸入Token 0.25美元,每百萬(wàn)輸出Token 1.25美元。
值得注意的是,目前Claude 3.5模型系列仍有Opus尚未亮相。這應(yīng)該是其中體積最大、性能最強(qiáng)的模型。
考慮到AI技術(shù)可能被濫用于制造垃圾信息、傳播錯(cuò)誤信息或?qū)嵤┢墼p等行為,而且它現(xiàn)在還能直接操控用戶電腦,Anthropic在放出更新的同時(shí),格外強(qiáng)調(diào)了對(duì)模型安全性的重視。
該公司專門開發(fā)了新的分類器和其他方法來識(shí)別和減輕潛在的濫用風(fēng)險(xiǎn)。特別是考慮到即將到來的美國(guó)大選,他們加強(qiáng)了對(duì)相關(guān)活動(dòng)的監(jiān)控力度并建立了相應(yīng)機(jī)制,引導(dǎo)Claude避開某些敏感電腦操作,如在社交媒體發(fā)布內(nèi)容、注冊(cè)網(wǎng)站域名或與政府網(wǎng)站交互等。
安全性驗(yàn)證方面,新版Claude 3.5 Sonnet已經(jīng)通過了美國(guó)AI安全研究所(US AISI)和英國(guó)安全研究所(UK AISI)的聯(lián)合測(cè)試。
根據(jù)Anthropic的負(fù)責(zé)任擴(kuò)展政策(Responsible Scaling Policy),新版Claude 3.5 Sonnet仍然保持在AI安全等級(jí)2級(jí)(ASL-2),這表明現(xiàn)有的安全和安保措施足以應(yīng)對(duì)其帶來的風(fēng)險(xiǎn)。
該公司特別強(qiáng)調(diào),他們不會(huì)將用戶提交的數(shù)據(jù)(包括Claude接收到的屏幕截圖)用于訓(xùn)練生成式AI模型。
對(duì)于“提示注入”類網(wǎng)絡(luò)攻擊,Anthropic也采取了防范措施。由于Claude能夠解釋來自互聯(lián)網(wǎng)的屏幕截圖,因此可能會(huì)接觸到包含惡意指令的內(nèi)容,這些指令可能會(huì)導(dǎo)致原有指令被覆蓋或執(zhí)行與用戶原意相違背的操作。
圖 | Anthropic提醒開發(fā)者注意風(fēng)險(xiǎn)(來源:Anthropic)
為此,該公司為開發(fā)者提供了詳細(xì)的實(shí)施參考指南,幫助他們采取相應(yīng)的預(yù)防措施,其中包括:
1.使用具有最小權(quán)限的專用虛擬機(jī)或容器,以防止直接的系統(tǒng)攻擊或事故。
2.避免讓模型訪問敏感數(shù)據(jù),例如帳戶登錄信息,以防止信息盜竊。
3.將互聯(lián)網(wǎng)訪問限制在域名允許列表中,以減少接觸惡意內(nèi)容的機(jī)會(huì)。
4.要求人類確認(rèn)可能導(dǎo)致有意義的現(xiàn)實(shí)世界后果的決定,以及任何需要征求同意(授權(quán))的任務(wù),例如接受 cookie、執(zhí)行金融交易或同意服務(wù)條款。
盡管AI直接操作電腦的技術(shù)仍有局限性和隱藏風(fēng)險(xiǎn),但它所代表的突破性進(jìn)展仍然令人興奮。它預(yù)示著AI技術(shù)正在向著更加實(shí)用和智能的方向邁進(jìn)。通過不斷改進(jìn)和完善,我們有理由相信,AI助手將在未來變得更快、更可靠,能更好地滿足用戶的各種需求。
正如Anthropic開發(fā)者關(guān)系負(fù)責(zé)人所說:“Computer Use功能是邁向全新人機(jī)交互形式的第一步。再過幾年,我們與計(jì)算機(jī)交互的方式將與今天完全不同。”
參考資料:
https://www.anthropic.com/news/3-5-models-and-computer-use
https://docs.anthropic.com/en/docs/build-with-claude/computer-use
https://www.anthropic.com/news/developing-computer-use
https://techcrunch.com/2024/10/22/anthropics-new-ai-can-control-your-pc/