當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能應(yīng)用 > 谷歌版賈維斯即將問世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時代來臨

谷歌版賈維斯即將問世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時代來臨
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-28 09:38:52 瀏覽：668次

導(dǎo)讀：劃重點(diǎn) 01谷歌正開發(fā)同類Project Jarvis項(xiàng)目，預(yù)計(jì)年底亮相，將AI技術(shù)應(yīng)用于電腦操作。 02Project Jarvis將由未來版Gemini 2.0驅(qū)動，實(shí)現(xiàn)Chrome網(wǎng)頁任務(wù)自動化。 03除此之外，微軟推出OmniParser工具，將屏幕截圖轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)，幫助AI精準(zhǔn)理解用戶意圖。...

劃重點(diǎn)

01谷歌正開發(fā)同類Project Jarvis項(xiàng)目，預(yù)計(jì)年底亮相，將AI技術(shù)應(yīng)用于電腦操作。

02Project Jarvis將由未來版Gemini 2.0驅(qū)動，實(shí)現(xiàn)Chrome網(wǎng)頁任務(wù)自動化。

03除此之外，微軟推出OmniParser工具，將屏幕截圖轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)，幫助AI精準(zhǔn)理解用戶意圖。

04OpenAI內(nèi)部已有AI智能體雛形，可操控計(jì)算機(jī)完成在線訂餐、自動查詢等任務(wù)。

05未來，AI技術(shù)將在電腦操作領(lǐng)域發(fā)揮更大作用，提升人機(jī)交互體驗(yàn)。

以上內(nèi)容由騰訊混元大模型生成，僅供參考

谷歌版賈維斯即將問世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時代來臨

新智元報道

編輯：桃子 LRS

【新智元導(dǎo)讀】科幻中的賈維斯，已經(jīng)離我們不遠(yuǎn)了。Claude 3.5接管人類電腦掀起了人機(jī)交互全新范式，爆料稱谷歌同類Project Jarvis預(yù)計(jì)年底亮相。AI操控電腦已成為微軟、蘋果等巨頭，下一個發(fā)力的戰(zhàn)常

AI接管人類電腦，就是下一個未來！

幾天前，Antropic向所有人展示了，Claude 3.5自主看屏幕操作光標(biāo)完成復(fù)雜任務(wù)，足以驚掉下巴。

剛剛，Information獨(dú)家爆料稱，谷歌正開發(fā)同類新項(xiàng)目「Project Jarvis」，能將Chrome網(wǎng)頁任務(wù)自動化。

谷歌「賈維斯」將由未來版Gemini 2.0驅(qū)動，預(yù)計(jì)在12月亮相。

谷歌版賈維斯即將問世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時代來臨

起這個名字，是為了向鋼鐵俠中的J.A.R.V.I.S致敬。

谷歌版賈維斯即將問世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時代來臨

無獨(dú)有偶，微軟團(tuán)隊(duì)悄悄放出的OmniParser，也在篤定AI智能體操控屏幕的未來。

谷歌版賈維斯即將問世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時代來臨

論文地址：https://arxiv.org/pdf/2408.00203

OmniParser主要是一個屏幕解析的工具，可以將截圖轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)，幫助AI精準(zhǔn)理解用戶意圖。

谷歌版賈維斯即將問世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時代來臨

不僅如此，OpenAI內(nèi)部已有了AI智能體雛形，可以操控計(jì)算機(jī)完成在線訂餐、自動查詢解決編程難題等任務(wù)。

包括蘋果在內(nèi)，預(yù)計(jì)在明年發(fā)布跨多個APP屏幕識別能力。最新迭代的Ferret-UI 2，就是通用UI模型。

可見，「Computer use」已經(jīng)成為科技大廠們，重點(diǎn)發(fā)力的下一個戰(zhàn)常

谷歌版賈維斯即將問世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時代來臨

谷歌「賈維斯」年底出世，最強(qiáng)Gemini 2加持

代號為Jarvis Project項(xiàng)目，本質(zhì)上是一個大動作模型（LAM），也是谷歌一直以來在做的大模型方向。

它專門針對谷歌Chrome瀏覽器，進(jìn)行了優(yōu)化。

具體操作原理，與Claude 3.5類似，通過截屏、解析屏幕內(nèi)容，然后自動點(diǎn)擊按鈕，或輸入文本，最終幫助人們完成基于網(wǎng)頁的日常任務(wù)。

不論是收集研究信息、購物，或是預(yù)定航班等任務(wù)，谷歌「賈維斯」均可實(shí)現(xiàn)。

不過，它在執(zhí)行不同操作時，中間會有幾秒鐘的思考時間。

因此，在終端設(shè)備中運(yùn)行還不太現(xiàn)實(shí)，仍然需要云上操作。

5月的谷歌I/O大會上，谷歌CEO劈柴曾展示了，Gemini和Chrome如何協(xié)同工作的樣貌。

谷歌版賈維斯即將問世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時代來臨

如前所述，谷歌「賈維斯」將由Gemini 2.0加持，也就意味著年底我們可以看到進(jìn)步版Gemini模型。

谷歌版賈維斯即將問世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時代來臨

盡管Sam Altman否認(rèn)了Orion模型的發(fā)布，但外媒猜測，預(yù)計(jì)年底OpenAI也將放出新核彈

微軟OmniParser也下場了

緊接著Claude「計(jì)算機(jī)使用」發(fā)布之后，微軟就開源了AI框架OmniParser。

谷歌版賈維斯即將問世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時代來臨

假設(shè)你想要去布賴斯峽谷國家公園，不知是否需要訂票入園，這時OmniParser可以帶你查詢。

它會解析屏幕后，自動點(diǎn)擊「permits」按鈕，然后再截屏找到「布賴斯峽谷國家公園」，最后就可以完成用戶任務(wù)。

谷歌版賈維斯即將問世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時代來臨

可見，想要把類似GPT-4V的多模態(tài)大模型應(yīng)用于操作系統(tǒng)上，模型還需要具備強(qiáng)大的屏幕解析能力，主要包括兩方面：

1、準(zhǔn)確地識別用戶界面中的可交互圖標(biāo)；

2、理解屏幕截圖中各種元素的語義，并準(zhǔn)確將預(yù)期動作與屏幕上的相應(yīng)區(qū)域關(guān)聯(lián)起來。

基于上述思路，微軟最新提出的OmniParser模型，可以將用戶界面截圖解析為結(jié)構(gòu)化元素，顯著增強(qiáng)了GPT-4V在對應(yīng)界面區(qū)域預(yù)測行動的能力。

方法

一個復(fù)雜的操作任務(wù)通�？梢苑纸獬啥鄠€子行動步驟，在執(zhí)行過程中，模型需要具備以下能力：

1、理解當(dāng)前步驟的用戶界面，即分析屏幕內(nèi)容中大體上在展示什么、檢測到的圖標(biāo)功能是什么等；

2、預(yù)測當(dāng)前屏幕上的下一個動作，來幫助完成整個任務(wù)。

谷歌版賈維斯即將問世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時代來臨

研究人員發(fā)現(xiàn)，將這兩個目標(biāo)分解開，比如在屏幕解析階段只提取語義信息等，可以減輕GPT-4V的負(fù)擔(dān)；模型也能夠從解析后的屏幕中利用更多信息，動作預(yù)測準(zhǔn)確率更高。

谷歌版賈維斯即將問世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時代來臨

因此，OmniParser結(jié)合了微調(diào)后的可交互圖標(biāo)檢測模型、微調(diào)后的圖標(biāo)描述模型以及光學(xué)字符識別（OCR）模塊的輸出，可以生成用戶界面的結(jié)構(gòu)化表示，類似于文檔對象模型（DOM），以及一個疊加潛在可交互元素邊界框的屏幕截圖。

可交互區(qū)域檢測（Interactable Region Detection）

從用戶界面屏幕中識別出「可交互區(qū)域」非常關(guān)鍵，也是預(yù)測下一步行動來完成用戶任務(wù)的基矗

研究人員并沒有直接提示GPT-4V來預(yù)測屏幕中操作范圍的xy坐標(biāo)值，而是遵循先前的工作，使用標(biāo)記集合方法在用戶界面截圖上疊加可交互圖標(biāo)的邊界框，并要求GPT-4V生成要執(zhí)行動作的邊界框ID。

為了提高準(zhǔn)確性，研究人員構(gòu)造了一個用于可交互圖標(biāo)檢測的微調(diào)數(shù)據(jù)集，包含6.7萬個不重復(fù)的屏幕截圖，其中所有圖像都使用從DOM樹派生的可交互圖標(biāo)的邊界框進(jìn)行標(biāo)記。

為了構(gòu)造數(shù)據(jù)集，研究人員首先從網(wǎng)絡(luò)上公開可用的網(wǎng)址中提取了10萬個均勻樣本，并從每個URL的DOM樹中收集網(wǎng)頁的可交互區(qū)域的邊界框。

谷歌版賈維斯即將問世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時代來臨

除了可交互區(qū)域檢測，還引有一個OCR模塊來提取文本的邊界框。

然后合并OCR檢測模塊和圖標(biāo)檢測模塊的邊界框，同時移除重疊度很高的框（閾值為重疊超過90%）。

對于每個邊界框，使用一個簡單的算法在邊框旁邊標(biāo)記一個ID，以最小化數(shù)字標(biāo)簽和其他邊界框之間的重疊。

谷歌版賈維斯即將問世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時代來臨

整合功能的局部語義（Incorporating Local Semantics of Functionality）

研究人員發(fā)現(xiàn)，在很多情況下，如果僅輸入疊加了邊界框和相關(guān)ID的用戶界面截圖可能會對GPT-4V造成誤導(dǎo)，這種局限性可能源于GPT-4V無法「同時」執(zhí)行「識別圖標(biāo)的語義信息」和「預(yù)測特定圖標(biāo)框上的下一個動作」的復(fù)合任務(wù)。

為了解決這個問題，研究人員將功能局部語義整合到提示中，即對于可交互區(qū)域檢測模型檢測到的圖標(biāo)，使用一個微調(diào)過的模型為圖標(biāo)生成功能描述；對于文本框，使用檢測到的文本及其標(biāo)簽。

谷歌版賈維斯即將問世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時代來臨

然而，目前還沒有專門為用戶界面圖標(biāo)描述而訓(xùn)練的公共模型，但這類模型非常適合目標(biāo)場景，即能夠?yàn)橛脩艚缑娼貓D提供快速準(zhǔn)確的局部語義。

研究人員使用GPT-4o構(gòu)造了一個包含7000對「圖標(biāo)-描述」的數(shù)據(jù)集，并在數(shù)據(jù)集上微調(diào)了一個BLIP-v2模型，結(jié)果也證明了該模型在描述常見應(yīng)用圖標(biāo)時更加可靠。

谷歌版賈維斯即將問世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時代來臨

實(shí)驗(yàn)評估

SeeAssign任務(wù)

為了測試GPT-4V模型正確預(yù)測邊界框描述所對應(yīng)的標(biāo)簽ID的能力，研究人員手工制作了一個名為SeeAssign的數(shù)據(jù)集，其中包含了來自3個不同平臺（移動設(shè)備、桌面電腦和網(wǎng)絡(luò)瀏覽器）的112個任務(wù)樣本，每個樣本都包括一段簡潔的任務(wù)描述和一個屏幕截圖。

根據(jù)難度，任務(wù)被分為三類：簡單（少于10個邊界框）、中等（10-40個邊界框）和困難（超過40個邊界框）。

GPT-4V不帶局部語義的提示：

Here is a UI screenshot image with bounding boxes and corresponding labeled ID overlayed on top of it, your task is {task}. Which icon box label you should operate on? Give a brief analysis, then put your answer in the format of \n‘‘‘ Box with label ID: [xx]‘‘‘\n

帶局部語義的提示：

Here is a UI screenshot image with bounding boxes and corresponding labeled ID overlayed on top of it, and here is a list of icon/text box description: {parsed_local_semantics}. Your task is {task}. Which bounding box label you should operate on? Give a brief analysis, then put your answer in the format of \n‘‘‘Box with label ID: [xx]‘‘‘\n

從結(jié)果來看，GPT-4V經(jīng)常錯誤地將數(shù)字ID分配給表格，特別是當(dāng)屏幕上有很多邊界框時；通過添加包括框內(nèi)文本和檢測到的圖標(biāo)的簡短描述在內(nèi)的局部語義，GPT-4V正確分配圖標(biāo)的能力從0.705提高到0.938

谷歌版賈維斯即將問世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時代來臨

ScreenSpot評估

ScreenSpot數(shù)據(jù)集是一個基準(zhǔn)測試數(shù)據(jù)集，包含了來自移動設(shè)備（iOS、Android）、桌面電腦（macOS、Windows）和網(wǎng)絡(luò)平臺的600多個界面截圖，其中任務(wù)指令是人工創(chuàng)建的，以確保每個指令都對應(yīng)用戶界面屏幕上的一個可操作元素。

谷歌版賈維斯即將問世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時代來臨

結(jié)果顯示，在三個不同的平臺上，OmniParser顯著提高了GPT-4V的基線性能，甚至超過了專門在圖形用戶界面（GUI）數(shù)據(jù)集上微調(diào)過的模型，包括SeeClick、CogAgent和Fuyu，并且超出的幅度很大。

還可以注意到，加入局部語義（表中的OmniParser w. LS）可以進(jìn)一步提高整體性能，即在文本格式中加入用戶界面截圖的局部語義（OCR文本和圖標(biāo)邊界框的描述），可以幫助GPT-4V準(zhǔn)確識別要操作的正確元素。

Mind2Web評估

測試集中有3種不同類型的任務(wù)：跨領(lǐng)域、跨網(wǎng)站和跨任務(wù)，可以測試OmniParser在網(wǎng)頁導(dǎo)航場景中的輔助能力。

谷歌版賈維斯即將問世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時代來臨

結(jié)果顯示，即使沒有使用網(wǎng)頁的HTML信息，OmniParser也能大幅提高智能體的性能，甚至超過了一些使用HTML信息的模型，表明通過解析屏幕截圖提供的語義信息非常有用，特別是在處理跨網(wǎng)站和跨領(lǐng)域任務(wù)時，模型的表現(xiàn)尤為出色。

AITW評估

研究人員還在移動設(shè)備導(dǎo)航基準(zhǔn)測試AITW上對OmniParser進(jìn)行了評估，測試包含3萬條指令和71.5萬條軌跡。

谷歌版賈維斯即將問世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時代來臨

結(jié)果顯示，用自己微調(diào)的模型替換了原有的IconNet模型，并加入了圖標(biāo)功能的局部語義信息后，OmniParser在大多數(shù)子類別中的表現(xiàn)都有了顯著提升，整體得分也比之前最好的GPT-4V智能體提高了4.7%。

這表明了，模型能夠很好地理解和處理移動設(shè)備上的用戶界面，即使在沒有額外訓(xùn)練數(shù)據(jù)的情況下也能表現(xiàn)出色。

參考資料：

https://microsoft.github.io/OmniParser/

https://x.com/Prashant_1722/status/1850265364158124192

相關(guān)熱詞： 谷歌版賈維斯即將問世最強(qiáng) Gemini 2.0 加

上一篇：OpenAI語音轉(zhuǎn)錄工具Whisper被曝重大缺陷：憑空生成大段虛假內(nèi)容

下一篇：AI產(chǎn)品觀察：以后不需要實(shí)習(xí)生做數(shù)據(jù)看板了—Graphy

谷歌版賈維斯即將問世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時代來臨
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-28 09:38:52 瀏覽：668次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

谷歌版賈維斯即將問世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時代來臨 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-28 09:38:52 瀏覽：668次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

谷歌版賈維斯即將問世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時代來臨
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-28 09:38:52 瀏覽：668次