當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > AI手機(jī)的未來(lái)，蘋果和谷歌選擇走同一條路

AI手機(jī)的未來(lái)，蘋果和谷歌選擇走同一條路
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-11 09:15:37 瀏覽：6202次

導(dǎo)讀：文/騰訊科技郝博陽(yáng) 離WWDC還有兩個(gè)月，蘋果的AI大計(jì)劃也越來(lái)越清晰了。 4月9日，蘋果發(fā)布了一篇最新的論文，推出了一個(gè)叫Ferret UI的新模型。這一模型的技術(shù)本身并不復(fù)雜，但是它所指向的是一場(chǎng)真正的手機(jī)AI革命。在AI異軍突起的2023年，很多人都在猜測(cè)生...

文/科技新聞郝博陽(yáng)

離WWDC還有兩個(gè)月，蘋果的“AI大計(jì)劃”也越來(lái)越清晰了。

4月9日，蘋果發(fā)布了一篇最新的論文，推出了一個(gè)叫Ferret UI的新模型。這一模型的技術(shù)本身并不復(fù)雜，但是它所指向的是一場(chǎng)真正的手機(jī)AI革命。

在AI異軍突起的2023年，很多人都在猜測(cè)生成式AI會(huì)對(duì)智能硬件市場(chǎng)帶來(lái)什么變局。甚至懷疑智能手機(jī)還能否適應(yīng)AI時(shí)代的新交互模式。

也由此應(yīng)運(yùn)而生了Rabitt R1， AI Pin等多種所謂AI native的硬件。他們通過(guò)更好地利用了AI的交互特性和Agent能力試圖挑戰(zhàn)智能手機(jī)的霸權(quán)，用取消手機(jī)的方式去替代手機(jī)。

反觀智能手機(jī)一側(cè)，卻只能以功能寥寥的端側(cè)模型，可有可無(wú)的應(yīng)用來(lái)做無(wú)力的反擊。其霸主蘋果甚至一度被認(rèn)為完全落后于AI時(shí)代。

但現(xiàn)在它回到了主場(chǎng)，還準(zhǔn)備好了智能手機(jī)可能用來(lái)面對(duì)AI時(shí)代的答案：AI Native的手機(jī)系統(tǒng)。

蘋果發(fā)了篇新論文，漏出了它的整套計(jì)劃

這次蘋果新發(fā)布的Ferret UI是建立在蘋果在其Ferret多模態(tài)模型之上的。

相較于其他多模態(tài)模型，F(xiàn)erret在發(fā)布時(shí)展示出的主要長(zhǎng)項(xiàng)是對(duì)于圖像具體區(qū)域和定位點(diǎn)的認(rèn)知遠(yuǎn)遠(yuǎn)強(qiáng)于其他多模態(tài)模型，包括GPT-4 ROI。

在這個(gè)模型里，蘋果提出了一個(gè)有著圖像編碼器、空間感知的視覺(jué)采樣器和語(yǔ)言模型（LLM）的新架構(gòu)。它有能力夠處理不同形狀之間的稀疏性差異，因此可以分辨出來(lái)自區(qū)域的形狀（比如點(diǎn)、線和邊框）。用戶可以基于畫面中具體的區(qū)域與大模型展開(kāi)更深入的對(duì)話。

Ferret在十月剛剛發(fā)布時(shí)，業(yè)界對(duì)其反響并不熱烈，一來(lái)因?yàn)樗膮^(qū)域識(shí)別長(zhǎng)處并非當(dāng)時(shí)大模型領(lǐng)域所最關(guān)注的問(wèn)題，二來(lái)它只有7B和13B兩個(gè)大小，相對(duì)于主流大模型太小了。10月中，硅谷的模型公司還在卷上下文，行內(nèi)只把它當(dāng)成蘋果在大模型上的一場(chǎng)試水。

但隨著Ferret UI的推出，F(xiàn)erret的定位和目標(biāo)就顯得清晰多了：它就是蘋果準(zhǔn)備在新IOS上裝載的模型，至少是其中一個(gè)主要模型。

Ferret UI所做的事情就是將Ferret模型本來(lái)就很強(qiáng)大的圖片區(qū)域識(shí)別能力應(yīng)用在手機(jī)UI之中，通過(guò)優(yōu)化，使它能夠更好的識(shí)別手機(jī)應(yīng)用的界面。并將自然語(yǔ)言翻譯為界面操作點(diǎn)。

簡(jiǎn)單來(lái)講，就是當(dāng)你和AI去聊關(guān)于手機(jī)界面的情況時(shí)，它能懂你在說(shuō)什么，并找到具體的元素了。

在之前，多模態(tài)大模型（MLMM）去理解手機(jī)UI經(jīng)常會(huì)出現(xiàn)錯(cuò)誤。這主要是因?yàn)椋?/p>

UI界面通常具有更長(zhǎng)的縱橫比，基于正常圖片（16:9 / 4:3）訓(xùn)練的大模型無(wú)法抓住其圖像全貌。

并且包含許多小的感興趣對(duì)象(如圖標(biāo)和文本)，直接應(yīng)用現(xiàn)有模型可能會(huì)丟失理解UI界面所需的重要細(xì)節(jié)。

為解決UI不常見(jiàn)的問(wèn)題，F(xiàn)erret UI以Ferret模型為基礎(chǔ)，在其上集成了"any resolution"(anyres)技術(shù)來(lái)靈活適應(yīng)各種屏幕縱橫比。整個(gè)流程如下:

UI界面大，那就把它分割成幾個(gè)小的子圖像，以更好地捕捉UI界面的細(xì)節(jié)特征。

分割出來(lái)的所有子圖像都使用相同的圖像編碼器單獨(dú)編碼，以獲取最大的信息度。

最后，把這些子圖像的特征和全局圖像的特征都輸入到核心的大語(yǔ)言模型(LLM)中。

靠著這種“用放大鏡分別觀察”的模式，最終Ferret UI模型就能夠更好地捕捉UI界面的細(xì)節(jié)信息。

解決第二個(gè)問(wèn)題更簡(jiǎn)單，缺數(shù)據(jù)識(shí)別不了，那就在訓(xùn)練階段狂喂相關(guān)數(shù)據(jù)。

Ferret UI收集了各種初級(jí)UI任務(wù)的訓(xùn)練數(shù)據(jù)，如圖標(biāo)識(shí)別、查找文本、組件列表等。這些任務(wù)數(shù)據(jù)訓(xùn)練模型精確定位和理解UI組件。同時(shí)它還收集了與AI交互相關(guān)的高級(jí)任務(wù)數(shù)據(jù)集，包括詳細(xì)描述、感知/交互對(duì)話和功能推理，來(lái)增強(qiáng)模型和UI相關(guān)的推理能力。

經(jīng)過(guò)了這樣的UI強(qiáng)化訓(xùn)練，最終的結(jié)果就是，13B的Ferret UI在完成初級(jí)和高級(jí)的UI相關(guān)對(duì)話后的能力，iPhone環(huán)境下在初級(jí)UI任務(wù)中超越了GPT4-V，在包含高級(jí)任務(wù)的全任務(wù)平均得分非常相近。雖然在安卓環(huán)境下Ferret UI表現(xiàn)略差，但是這對(duì)蘋果來(lái)說(shuō)有什么關(guān)系呢？

經(jīng)過(guò)了Ferret UI的升級(jí)，F(xiàn)erret模型可以完成簡(jiǎn)單的定位類任務(wù)(Referring Tasks):識(shí)別UI的邊框，圖標(biāo)和其中的文字內(nèi)容。識(shí)別類任務(wù)(Grounding Tasks):給定一個(gè)UI相關(guān)的查詢，模型需要在界面上定位并標(biāo)注出相關(guān)的元素。

（簡(jiǎn)單UI任務(wù)一覽）

同時(shí)它也可以完成更復(fù)雜的詳細(xì)描述UI構(gòu)成的任務(wù)；根據(jù)UI與用戶進(jìn)行感知對(duì)話、交互對(duì)話，可以告訴用戶相應(yīng)位置具體的UI內(nèi)容是什么，如何去和該UI進(jìn)行交互的任務(wù)；以及根據(jù)UI元素推斷這個(gè)軟件功能的功能推理任務(wù)。

這就意味著Ferret UI已經(jīng)建立起了對(duì)于手機(jī)應(yīng)用的功能，操作的相對(duì)完整的理解。而且是GPT4級(jí)別的理解。

如果僅僅停留在理解這個(gè)層面上，F(xiàn)erret UI的應(yīng)用其實(shí)是有限的。比如視障用戶可以用語(yǔ)言交互來(lái)了解UI的位置，或者整合到蘋果自身的圖形識(shí)別系統(tǒng)中增強(qiáng)識(shí)別能力。

但這種理解如果結(jié)合上Agent的功能，讓Ferret UI模型可以去基于用戶的自然語(yǔ)言交互操作手機(jī)，那一個(gè)AI Native的手機(jī)系統(tǒng)雛形就誕生了。

AI Native 的手機(jī)，而不是AI 手機(jī)

在過(guò)去的一年里，如何將AI大模型應(yīng)用到手機(jī)里已經(jīng)成了不論是芯片廠商，還是手機(jī)制造商最重要的議題。端側(cè)大模型，AI手機(jī)的概念層出不窮。然而時(shí)至今日，芯片廠商和手機(jī)廠商們展示的AI大模型能力都還僅僅停留在手機(jī)系統(tǒng)之外。

一種方式就是硬塞一個(gè)大模型進(jìn)去，通過(guò)云端或本地算力驅(qū)動(dòng)。其體驗(yàn)和Kimi助手，GPT app沒(méi)有什么本質(zhì)區(qū)別，最多就是可以讀取手機(jī)上的相應(yīng)數(shù)據(jù)，應(yīng)用相對(duì)方便一點(diǎn)。

另一種方式就是將AI能力賦能在其預(yù)裝應(yīng)用之中，轉(zhuǎn)變成如魔法修圖，短信回復(fù)自動(dòng)生成這種完全無(wú)需大模型就能在一定程度上實(shí)現(xiàn)的功能。

這樣的應(yīng)用方式讓AI手機(jī)這個(gè)概念顯得不倫不類，更像是裝了AI大模型應(yīng)用的手機(jī)。

而真正能夠應(yīng)對(duì)來(lái)勢(shì)洶洶的AI新硬件的，至少應(yīng)該是一個(gè)適應(yīng)AI新交互的完全的手機(jī)系統(tǒng)。

現(xiàn)在Ferret UI的出現(xiàn)，使得這件事成為了可能。

一個(gè)14B以下的，可以直接在手機(jī)本地運(yùn)行的大模型，可以讓你用自然語(yǔ)言控制UI，進(jìn)行相關(guān)操作。如果這項(xiàng)功能整合在Siri上，那Siri就可以成為一切App的新入口，只要一句話你就可以控制手機(jī)的一切功能，以及所有App的相關(guān)功能。這其實(shí)和Rabitt R1所設(shè)想的一樣。

而且這一次，你并不用犧牲屏幕本身了。在體驗(yàn)Humane 的AI Pin和其他AI智能設(shè)備時(shí)，雖然它們確實(shí)可以通過(guò)自然語(yǔ)言完成幾乎所有的交互，但他們沒(méi)有屏幕。沒(méi)有屏幕這對(duì)于生活在視頻時(shí)代的人類來(lái)講幾乎是無(wú)法忍耐的。另外，缺乏聲音之外的交互方式也使得它們?cè)谀銓?duì)面有人的時(shí)候根本不好意思用。

但如果手機(jī)能做到這種交互，而且還有屏幕的話。我們?yōu)槭裁催€會(huì)需要一個(gè)新的所謂AI智能設(shè)備去完成這一切呢？

因此，兜兜轉(zhuǎn)轉(zhuǎn)了一年，蘋果應(yīng)該是找到了AI 手機(jī)的真意。如果情況順利，也許我們?cè)趦蓚€(gè)月后的WWDC上就能看到原生AI的蘋果手機(jī)系統(tǒng)了。而且很有可能是第一款Native AI 手機(jī)系統(tǒng)。

Google和蘋果，一場(chǎng)新競(jìng)爭(zhēng)正式開(kāi)賽

之所以說(shuō)可能，是因?yàn)樘O果在系統(tǒng)上的老對(duì)頭谷歌，其實(shí)也做了一樣的路線判斷。

在半個(gè)月前的3月19日，谷歌發(fā)表了一個(gè)新模型ScreenAI，它和Ferret UI一樣，都是直指 UI 理解的多模態(tài)模型。它的架構(gòu)相對(duì)簡(jiǎn)單，基于Pali，包含兩個(gè)組成部分，一個(gè)視覺(jué)變換器 (ViT），用來(lái)理解UI視覺(jué)；一個(gè)T5圖文編碼器，用于對(duì)應(yīng)用戶提問(wèn)的文字和圖像信息。

為解決UI問(wèn)題，基本上谷歌的操作和蘋果沒(méi)什么差別，它把UI界面分割成5*7的小塊去識(shí)別細(xì)節(jié)，并利用UI相關(guān)的訓(xùn)練集加強(qiáng)模型對(duì)UI元素的認(rèn)知。

雖然沒(méi)有像蘋果一樣和GPT4進(jìn)行比較，但它也和自家的Gemini Ultra在UI任務(wù)上進(jìn)行了比對(duì)，也是相差無(wú)多。值得注意的是ScreenAI比蘋果的Ferret更小，僅有不到5B。谷歌還嘗試著用ScreenAI串聯(lián) Palm2完成高級(jí)UI任務(wù)，能力足以超過(guò)Gemini Ultra。