展會(huì)信息港展會(huì)大全

AI手機(jī)的未來(lái),蘋果和谷歌選擇走同一條路
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-04-11 09:15:37   瀏覽:6202次  

導(dǎo)讀:文/騰訊科技 郝博陽(yáng) 離WWDC還有兩個(gè)月,蘋果的AI大計(jì)劃也越來(lái)越清晰了。 4月9日,蘋果發(fā)布了一篇最新的論文,推出了一個(gè)叫Ferret UI的新模型。這一模型的技術(shù)本身并不復(fù)雜,但是它所指向的是一場(chǎng)真正的手機(jī)AI革命。 在AI異軍突起的2023年,很多人都在猜測(cè)生...

文/科技新聞 郝博陽(yáng)

離WWDC還有兩個(gè)月,蘋果的“AI大計(jì)劃”也越來(lái)越清晰了。

4月9日,蘋果發(fā)布了一篇最新的論文,推出了一個(gè)叫Ferret UI的新模型。這一模型的技術(shù)本身并不復(fù)雜,但是它所指向的是一場(chǎng)真正的手機(jī)AI革命。

在AI異軍突起的2023年,很多人都在猜測(cè)生成式AI會(huì)對(duì)智能硬件市場(chǎng)帶來(lái)什么變局。甚至懷疑智能手機(jī)還能否適應(yīng)AI時(shí)代的新交互模式。

也由此應(yīng)運(yùn)而生了Rabitt R1, AI Pin等多種所謂AI native的硬件。他們通過(guò)更好地利用了AI的交互特性和Agent能力試圖挑戰(zhàn)智能手機(jī)的霸權(quán),用取消手機(jī)的方式去替代手機(jī)。

反觀智能手機(jī)一側(cè),卻只能以功能寥寥的端側(cè)模型,可有可無(wú)的應(yīng)用來(lái)做無(wú)力的反擊。其霸主蘋果甚至一度被認(rèn)為完全落后于AI時(shí)代。

但現(xiàn)在它回到了主場(chǎng),還準(zhǔn)備好了智能手機(jī)可能用來(lái)面對(duì)AI時(shí)代的答案:AI Native的手機(jī)系統(tǒng)。

蘋果發(fā)了篇新論文,漏出了它的整套計(jì)劃

這次蘋果新發(fā)布的Ferret UI是建立在蘋果在其Ferret多模態(tài)模型之上的。

相較于其他多模態(tài)模型,F(xiàn)erret在發(fā)布時(shí)展示出的主要長(zhǎng)項(xiàng)是對(duì)于圖像具體區(qū)域和定位點(diǎn)的認(rèn)知遠(yuǎn)遠(yuǎn)強(qiáng)于其他多模態(tài)模型,包括GPT-4 ROI。

在這個(gè)模型里,蘋果提出了一個(gè)有著圖像編碼器、空間感知的視覺(jué)采樣器和語(yǔ)言模型(LLM)的新架構(gòu)。它有能力夠處理不同形狀之間的稀疏性差異,因此可以分辨出來(lái)自區(qū)域的形狀(比如點(diǎn)、線和邊框)。用戶可以基于畫面中具體的區(qū)域與大模型展開(kāi)更深入的對(duì)話。

Ferret在十月剛剛發(fā)布時(shí),業(yè)界對(duì)其反響并不熱烈,一來(lái)因?yàn)樗膮^(qū)域識(shí)別長(zhǎng)處并非當(dāng)時(shí)大模型領(lǐng)域所最關(guān)注的問(wèn)題,二來(lái)它只有7B和13B兩個(gè)大小,相對(duì)于主流大模型太小了。10月中,硅谷的模型公司還在卷上下文,行內(nèi)只把它當(dāng)成蘋果在大模型上的一場(chǎng)試水。

但隨著Ferret UI的推出,F(xiàn)erret的定位和目標(biāo)就顯得清晰多了:它就是蘋果準(zhǔn)備在新IOS上裝載的模型,至少是其中一個(gè)主要模型。

Ferret UI所做的事情就是將Ferret模型本來(lái)就很強(qiáng)大的圖片區(qū)域識(shí)別能力應(yīng)用在手機(jī)UI之中,通過(guò)優(yōu)化,使它能夠更好的識(shí)別手機(jī)應(yīng)用的界面。并將自然語(yǔ)言翻譯為界面操作點(diǎn)。

簡(jiǎn)單來(lái)講,就是當(dāng)你和AI去聊關(guān)于手機(jī)界面的情況時(shí),它能懂你在說(shuō)什么,并找到具體的元素了。

在之前,多模態(tài)大模型(MLMM)去理解手機(jī)UI經(jīng)常會(huì)出現(xiàn)錯(cuò)誤。這主要是因?yàn)椋?/p>

UI界面通常具有更長(zhǎng)的縱橫比 ,基于正常圖片(16:9 / 4:3)訓(xùn)練的大模型無(wú)法抓住其圖像全貌。

并且包含許多小的感興趣對(duì)象(如圖標(biāo)和文本),直接應(yīng)用現(xiàn)有模型可能會(huì)丟失理解UI界面所需的重要細(xì)節(jié)。

為解決UI不常見(jiàn)的問(wèn)題,F(xiàn)erret UI以Ferret模型為基礎(chǔ),在其上集成了"any resolution"(anyres)技術(shù)來(lái)靈活適應(yīng)各種屏幕縱橫比。整個(gè)流程如下:

UI界面大,那就把它分割成幾個(gè)小的子圖像,以更好地捕捉UI界面的細(xì)節(jié)特征。

分割出來(lái)的所有子圖像都使用相同的圖像編碼器單獨(dú)編碼,以獲取最大的信息度。

最后,把這些子圖像的特征和全局圖像的特征都輸入到核心的大語(yǔ)言模型(LLM)中。

靠著這種“用放大鏡分別觀察”的模式,最終Ferret UI模型就能夠更好地捕捉UI界面的細(xì)節(jié)信息。

解決第二個(gè)問(wèn)題更簡(jiǎn)單,缺數(shù)據(jù)識(shí)別不了, 那就在訓(xùn)練階段狂喂相關(guān)數(shù)據(jù)。

Ferret UI收集了各種初級(jí)UI任務(wù)的訓(xùn)練數(shù)據(jù),如圖標(biāo)識(shí)別、查找文本、組件列表等。這些任務(wù)數(shù)據(jù)訓(xùn)練模型精確定位和理解UI組件。同時(shí)它還收集了與AI交互相關(guān)的高級(jí)任務(wù)數(shù)據(jù)集,包括詳細(xì)描述、感知/交互對(duì)話和功能推理,來(lái)增強(qiáng)模型和UI相關(guān)的推理能力。

經(jīng)過(guò)了這樣的UI強(qiáng)化訓(xùn)練,最終的結(jié)果就是,13B的Ferret UI在完成初級(jí)和高級(jí)的UI相關(guān)對(duì)話后的能力,iPhone環(huán)境下在初級(jí)UI任務(wù)中超越了GPT4-V,在包含高級(jí)任務(wù)的全任務(wù)平均得分非常相近。 雖然在安卓環(huán)境下Ferret UI表現(xiàn)略差,但是這對(duì)蘋果來(lái)說(shuō)有什么關(guān)系呢?

經(jīng)過(guò)了Ferret UI的升級(jí),F(xiàn)erret模型可以完成簡(jiǎn)單的定位類任務(wù)(Referring Tasks):識(shí)別UI的邊框,圖標(biāo)和其中的文字內(nèi)容。識(shí)別類任務(wù)(Grounding Tasks):給定一個(gè)UI相關(guān)的查詢,模型需要在界面上定位并標(biāo)注出相關(guān)的元素。

(簡(jiǎn)單UI任務(wù)一覽)

同時(shí)它也可以完成更復(fù)雜的詳細(xì)描述UI構(gòu)成的任務(wù);根據(jù)UI與用戶進(jìn)行感知對(duì)話、交互對(duì)話,可以告訴用戶相應(yīng)位置具體的UI內(nèi)容是什么,如何去和該UI進(jìn)行交互的任務(wù);以及根據(jù)UI元素推斷這個(gè)軟件功能的功能推理任務(wù)。

這就意味著Ferret UI已經(jīng)建立起了對(duì)于手機(jī)應(yīng)用的功能,操作的相對(duì)完整的理解。而且是GPT4級(jí)別的理解。

如果僅僅停留在理解這個(gè)層面上,F(xiàn)erret UI的應(yīng)用其實(shí)是有限的。比如視障用戶可以用語(yǔ)言交互來(lái)了解UI的位置,或者整合到蘋果自身的圖形識(shí)別系統(tǒng)中增強(qiáng)識(shí)別能力。

但這種理解如果結(jié)合上Agent的功能,讓Ferret UI模型可以去基于用戶的自然語(yǔ)言交互操作手機(jī),那一個(gè)AI Native的手機(jī)系統(tǒng)雛形就誕生了。

AI Native 的手機(jī),而不是AI 手機(jī)

在過(guò)去的一年里,如何將AI大模型應(yīng)用到手機(jī)里已經(jīng)成了不論是芯片廠商,還是手機(jī)制造商最重要的議題。端側(cè)大模型,AI手機(jī)的概念層出不窮。然而時(shí)至今日,芯片廠商和手機(jī)廠商們展示的AI大模型能力都還僅僅停留在手機(jī)系統(tǒng)之外。

一種方式就是硬塞一個(gè)大模型進(jìn)去,通過(guò)云端或本地算力驅(qū)動(dòng)。其體驗(yàn)和Kimi助手,GPT app沒(méi)有什么本質(zhì)區(qū)別,最多就是可以讀取手機(jī)上的相應(yīng)數(shù)據(jù),應(yīng)用相對(duì)方便一點(diǎn)。

另一種方式就是將AI能力賦能在其預(yù)裝應(yīng)用之中,轉(zhuǎn)變成如魔法修圖,短信回復(fù)自動(dòng)生成這種完全無(wú)需大模型就能在一定程度上實(shí)現(xiàn)的功能。

這樣的應(yīng)用方式讓AI手機(jī)這個(gè)概念顯得不倫不類,更像是裝了AI大模型應(yīng)用的手機(jī)。

而真正能夠應(yīng)對(duì)來(lái)勢(shì)洶洶的AI新硬件的,至少應(yīng)該是一個(gè)適應(yīng)AI新交互的完全的手機(jī)系統(tǒng)。

現(xiàn)在Ferret UI的出現(xiàn),使得這件事成為了可能。

一個(gè)14B以下的,可以直接在手機(jī)本地運(yùn)行的大模型,可以讓你用自然語(yǔ)言控制UI,進(jìn)行相關(guān)操作。如果這項(xiàng)功能整合在Siri上,那Siri就可以成為一切App的新入口,只要一句話你就可以控制手機(jī)的一切功能,以及所有App的相關(guān)功能。這其實(shí)和Rabitt R1所設(shè)想的一樣。

而且這一次,你并不用犧牲屏幕本身了。在體驗(yàn)Humane 的AI Pin和其他AI智能設(shè)備時(shí),雖然它們確實(shí)可以通過(guò)自然語(yǔ)言完成幾乎所有的交互,但他們沒(méi)有屏幕。沒(méi)有屏幕這對(duì)于生活在視頻時(shí)代的人類來(lái)講幾乎是無(wú)法忍耐的。另外,缺乏聲音之外的交互方式也使得它們?cè)谀銓?duì)面有人的時(shí)候根本不好意思用。

但如果手機(jī)能做到這種交互,而且還有屏幕的話。我們?yōu)槭裁催會(huì)需要一個(gè)新的所謂AI智能設(shè)備去完成這一切呢?

因此,兜兜轉(zhuǎn)轉(zhuǎn)了一年,蘋果應(yīng)該是找到了AI 手機(jī)的真意。如果情況順利,也許我們?cè)趦蓚(gè)月后的WWDC上就能看到原生AI的蘋果手機(jī)系統(tǒng)了。而且很有可能是第一款Native AI 手機(jī)系統(tǒng)。

Google和蘋果,一場(chǎng)新競(jìng)爭(zhēng)正式開(kāi)賽

之所以說(shuō)可能,是因?yàn)樘O果在系統(tǒng)上的老對(duì)頭谷歌,其實(shí)也做了一樣的路線判斷。

在半個(gè)月前的3月19日,谷歌發(fā)表了一個(gè)新模型ScreenAI,它和Ferret UI一樣,都是直指 UI 理解的多模態(tài)模型。它的架構(gòu)相對(duì)簡(jiǎn)單,基于Pali,包含兩個(gè)組成部分,一個(gè)視覺(jué)變換器 (ViT),用來(lái)理解UI視覺(jué);一個(gè)T5圖文編碼器,用于對(duì)應(yīng)用戶提問(wèn)的文字和圖像信息。

為解決UI問(wèn)題,基本上谷歌的操作和蘋果沒(méi)什么差別,它把UI界面分割成5*7的小塊去識(shí)別細(xì)節(jié),并利用UI相關(guān)的訓(xùn)練集加強(qiáng)模型對(duì)UI元素的認(rèn)知。

雖然沒(méi)有像蘋果一樣和GPT4進(jìn)行比較,但它也和自家的Gemini Ultra在UI任務(wù)上進(jìn)行了比對(duì),也是相差無(wú)多。值得注意的是ScreenAI比蘋果的Ferret更小,僅有不到5B。谷歌還嘗試著用ScreenAI串聯(lián) Palm2完成高級(jí)UI任務(wù),能力足以超過(guò)Gemini Ultra。

所以,2024年春天,智能手機(jī)OS屆的兩大霸主,在AI手機(jī)這件事上殊途同歸。強(qiáng)于AI的谷歌和強(qiáng)于系統(tǒng)的蘋果走到了同樣的起跑線上。

現(xiàn)在的問(wèn)題,只剩誰(shuí)跑得快了。

谷歌 I / O大會(huì)在5月14日,蘋果的WWDC在6月。爭(zhēng)分奪秒的戰(zhàn)爭(zhēng)已經(jīng)開(kāi)始了。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港