中文字日产幕码三区,真实的国产乱xxxx在线,精品亚洲AV无码国产一区在线

超越GPT-4V，蘋果多模態(tài)大模型上新！

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-11 09:04:58 瀏覽：6387次

導(dǎo)讀：新智元報(bào)道編輯：flynne 【新智元導(dǎo)讀】蘋果開發(fā)的多模態(tài)模型Ferret-UI增強(qiáng)了對(duì)屏幕的理解和交互，在引用、基礎(chǔ)和推理方面表現(xiàn)出了卓越的性能，這些增強(qiáng)功能的出現(xiàn)預(yù)示著巨大的進(jìn)步。一句話Siri就能幫忙打開美團(tuán)外賣下訂單的日子看來(lái)不遠(yuǎn)啦！ 4月8日，蘋果...

新智元報(bào)道

編輯：flynne

【新智元導(dǎo)讀】蘋果開發(fā)的多模態(tài)模型Ferret-UI增強(qiáng)了對(duì)屏幕的理解和交互，在引用、基礎(chǔ)和推理方面表現(xiàn)出了卓越的性能，這些增強(qiáng)功能的出現(xiàn)預(yù)示著巨大的進(jìn)步。

一句話Siri就能幫忙打開美團(tuán)外賣下訂單的日子看來(lái)不遠(yuǎn)啦！

4月8日，蘋果發(fā)布了其最新的多模態(tài)大語(yǔ)言模型（MLLM ）Ferret-UI，能夠更有效地理解和與屏幕信息進(jìn)行交互，在所有基本UI任務(wù)上都超過(guò)了GPT-4V！

論文地址：https://arxiv.org/pdf/2404.05719.pdf

雖然蘋果前段時(shí)間經(jīng)歷了泰坦項(xiàng)目的沉沒，但看目前的形式，這是又要開卷的節(jié)奏呀~

不少人十分期待，這項(xiàng)技術(shù)如果在蘋果的Siri上，Siri豈不是要變得聰明絕頂了！

眾所周知，通用域多模態(tài)大型語(yǔ)言模型（MLLM ）在理解和有效交互的能力方面往往不足。

而Ferret-UI被稱之為是一種新的MLLM，專為理解移動(dòng)UI屏幕而量身定制，具備指向、定位和推理等多種能力。

Ferret-UI能夠通過(guò)靈活的輸入格式（點(diǎn)、框、涂鴉）和基礎(chǔ)任務(wù)（例如：查找小部件、查找圖標(biāo)、查找文本、小部件列表）在移動(dòng)用戶界面屏幕上執(zhí)行引用任務(wù)（例如：小部件分類、圖標(biāo)識(shí)別、OCR））。

Ferret-UI的一個(gè)關(guān)鍵特點(diǎn)是「任何分辨率」（anyres），該技術(shù)通過(guò)放大細(xì)節(jié)來(lái)解決UI屏幕中小型對(duì)象的識(shí)別問題，從而提高模型對(duì)UI元素的理解精度。

這些基本任務(wù)為模型提供了豐富的視覺和空間知識(shí)，使其能夠在粗略和精細(xì)級(jí)別上區(qū)分 UI 類型，例如區(qū)分各種圖標(biāo)或文本元素。

具體來(lái)說(shuō)，F(xiàn)erret-UI 不僅能夠在詳細(xì)描述和感知對(duì)話中討論視覺元素，還能在交互對(duì)話中提出目標(biāo)導(dǎo)向的動(dòng)作并通過(guò)函數(shù)推理來(lái)推斷屏幕的整體功能。

網(wǎng)友直呼：泰褲辣！

雖然Ferret-UI-base緊密遵循Ferret的架構(gòu)，但Ferret-UI-anyres融入了額外的細(xì)粒度圖像功能。

特別是，預(yù)先訓(xùn)練的圖像編碼器和投影層可以為整個(gè)屏幕生成圖像特征，對(duì)于基于原始圖像長(zhǎng)寬比獲得的每個(gè)子圖像，生成附加圖像特征。

為了增強(qiáng)模型的推理能力，研究人員編譯了用于高級(jí)任務(wù)的數(shù)據(jù)集，包括詳細(xì)描述、感知/交互對(duì)話和函數(shù)推理。

在基礎(chǔ)任務(wù)性能的比較上， Ferret-UI展現(xiàn)出了對(duì)UI屏幕的出色理解能力以及執(zhí)行開放式指令的能力，表現(xiàn)可謂亮眼！

掌握應(yīng)用程序屏幕并使AI像人類一樣進(jìn)行交互，蘋果未來(lái)或許將改變MLLM的游戲規(guī)則！

論文細(xì)節(jié)

方法

Ferret-UI建立在Ferret的基礎(chǔ)上。

Ferret是一種MLLM，擅長(zhǎng)在形狀和細(xì)節(jié)各異的自然圖像中進(jìn)行空間參照和定位。

它可以解釋區(qū)域或?qū)ο蟛⑴c之交互，無(wú)論這些區(qū)域或?qū)ο蟊恢付槿魏巫杂尚螤睿c(diǎn)、方框等）。

它包含一個(gè)預(yù)先訓(xùn)練好的視覺編碼器和一個(gè)純解碼器語(yǔ)言模型，并采用一種獨(dú)特的混合表示技術(shù)，將指定區(qū)域轉(zhuǎn)換為適合LLM處理的格式。

為了向Ferret灌輸U(kuò)I專業(yè)知識(shí)，他們對(duì)Ferret-UI進(jìn)行了兩個(gè)擴(kuò)展：

1. UI參照和定位的定義與構(gòu)建

2. 模型架構(gòu)調(diào)整以更好地處理屏幕數(shù)據(jù)

與之前需要外部檢測(cè)模塊或屏幕視圖文件的MLLM不同， Ferret-UI 是自給自足的。

它將原始屏幕像素作為模型輸入，這種方法不僅促進(jìn)了高級(jí)單屏交互，還為新應(yīng)用程序鋪平道路，例如：提高可訪問性。

數(shù)據(jù)集

他們對(duì)iPhone和安卓設(shè)備的屏幕進(jìn)行了研究。

對(duì)于安卓屏幕，研究人員使用RICO數(shù)據(jù)集的一個(gè)子集，具體來(lái)說(shuō)，他們考慮了Spotlight中的任務(wù)，其數(shù)據(jù)是公開的，包括 screen2words、widgetcaptions 和 taperception。

對(duì)于iPhone屏幕，研究人員使用AMP數(shù)據(jù)集，它涵蓋了廣泛的應(yīng)用程序。

在收集 Android 和 iPhone 屏幕后，他們使用預(yù)先訓(xùn)練好的基于像素的UI檢測(cè)模型進(jìn)一步從屏幕收集細(xì)粒度元素注釋。

對(duì)于每個(gè)檢測(cè)到的用戶界面元素，輸出結(jié)果都包括用戶界面類型（按鈕、文本、圖標(biāo)、圖片等）、相應(yīng)的邊界框，以及由Apple Vision Framework識(shí)別的顯示在其上的文本（如果有的話）。

任務(wù)制定

首先從現(xiàn)有的Spotlight任務(wù)中獲取screen2words、widgetcaptions和taperception，并將它們格式化為會(huì)話QA 對(duì)。

對(duì)于每個(gè)訓(xùn)練示例，他們都會(huì)對(duì)相應(yīng)任務(wù)的提示進(jìn)行采樣，并將其與原始源圖像和真實(shí)答案配對(duì)。

基礎(chǔ)任務(wù)數(shù)據(jù)生成

除了Spotlight任務(wù)之外，他們將referring任務(wù)定義為輸入中帶有邊界框的任務(wù)，而基礎(chǔ)任務(wù)則是輸出中帶有邊界框的任務(wù)。

對(duì)于每個(gè)任務(wù)，他們還使用GPT-3.5 Turbo來(lái)擴(kuò)展基本提示以引入任務(wù)問題的變體。

數(shù)據(jù)生成的詳細(xì)信息如下圖所示。

高級(jí)任務(wù)數(shù)據(jù)生成

為了將推理能力融入到該模型中，他們使用LLaVA方法，并用GPT-4收集另外4種格式的數(shù)據(jù)。

首先對(duì)檢測(cè)輸出中的邊界框坐標(biāo)進(jìn)行標(biāo)準(zhǔn)化，然后將檢測(cè)、提示和可選的一次性示例發(fā)送到GPT-4。

為了詳細(xì)描述和功能推理，他們將生成的響應(yīng)與預(yù)選的提示配對(duì)來(lái)訓(xùn)練Ferret-UI。

下圖說(shuō)明了高級(jí)任務(wù)的訓(xùn)練數(shù)據(jù)生成過(guò)程。

以上數(shù)據(jù)的生成主要為4個(gè)任務(wù)，分別是：詳細(xì)描述、對(duì)話感知、對(duì)話交互和功能推理。

其中，他們擴(kuò)展了詳細(xì)描述和函數(shù)推理的基本提示，將它們與GPT-4響應(yīng)配對(duì)，作為模型訓(xùn)練中的輸入數(shù)據(jù)。

對(duì)于對(duì)話任務(wù)，他們?yōu)镚PT-4提供了一個(gè)上下文示例，以更好地遵循其輸出中的邊界框格式。

實(shí)驗(yàn)結(jié)果

初級(jí)任務(wù)的性能細(xì)分如下表所示。

可以看到，與Spotlight相比，F(xiàn)erret-UI在S2W和 WiC方面表現(xiàn)出了優(yōu)越的性能，盡管Spotlight使用了80M網(wǎng)頁(yè)截圖和269M手機(jī)截圖進(jìn)行預(yù)訓(xùn)練。Ferret-UI性能雖然低于TaP，但仍然具有競(jìng)爭(zhēng)力。

高級(jí)任務(wù)性能的結(jié)果如下表所示。

盡管Ferret-UI的訓(xùn)練數(shù)據(jù) 集中缺少Android特定數(shù)據(jù)，但它在兩個(gè)平臺(tái)的高級(jí)任務(wù)上都表現(xiàn)出了值得稱贊的性能。

這表明用戶界面知識(shí)在不同操作系統(tǒng)之間具有顯著的可轉(zhuǎn)移性。

消融研究

研究發(fā)現(xiàn)，當(dāng)僅使用高級(jí)任務(wù)數(shù)據(jù)，兩個(gè)平臺(tái)的性能均為64%。添加iPhone或Android基本任務(wù) 后，iPhone上高級(jí)任務(wù)的性能持續(xù)提高5%。

同樣，從iPhone添加基本任務(wù)可將Android在高級(jí)任務(wù)上的性能提高約4%，而合并Android基本任務(wù)可將這一性能提高9%。

包含iPhone和Android基本任務(wù)后，iPhone 和 Android 高級(jí)任務(wù)的性能分別進(jìn)一步提高了3%和5%，超出了單組基本任務(wù)所帶來(lái)的改進(jìn)。

這些觀察結(jié)果支持他們的假設(shè)，即：基本任務(wù)為模型提供了增強(qiáng)的視覺和空間理解，從而促進(jìn)了高級(jí)任務(wù)。

為了探索不同數(shù)據(jù)配置對(duì)Spotlight Tasks性能的影響，他們特別研究了添加初級(jí)任務(wù)數(shù)據(jù)是否能提高模型性能，因?yàn)檫@些任務(wù)的目的是為了提高對(duì)屏幕的視覺和空間理解能力。

如下表所示，添加基本任務(wù)數(shù)據(jù)（無(wú)論是僅來(lái)自Android、iPhone還是兩者的組合）都不會(huì)顯著改變?nèi)齻€(gè)Spotlight任務(wù)的性能。

在分析Ferret-UI 的參照功能時(shí)，他們特別關(guān)注OCR和小部件分類預(yù)測(cè)，如下圖所示。

OCR分析揭示了三個(gè)值得注意的觀察結(jié)果：

1. 模型預(yù)測(cè)相鄰文本而不是目標(biāo)區(qū)域中的文本

2. 該模型表現(xiàn)出預(yù)測(cè)實(shí)際單詞的傾向，而不僅僅是破譯屏幕上顯示的字符。

3. Ferret-UI展示了準(zhǔn)確預(yù)測(cè)部分被截?cái)嗟奈谋镜哪芰�，即使在OCR模型返回不正確文本的情況下也是如此。

參考資料：

https://arxiv.org/abs/2404.05719

相關(guān)熱詞： 超越 GPT-4V 蘋果模態(tài) 大模型新智元報(bào)道編輯

超越GPT-4V，蘋果多模態(tài)大模型上新！
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-11 09:04:58 瀏覽：6387次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

超越GPT-4V，蘋果多模態(tài)大模型上新！ 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-11 09:04:58 瀏覽：6387次