當(dāng)前位置：人工智能實(shí)驗(yàn)室> 可穿戴/智能硬件 > 密歇根大學(xué)團(tuán)隊(duì)打造多模態(tài)大模型，能用于可穿戴設(shè)備和具身AI智能體

密歇根大學(xué)團(tuán)隊(duì)打造多模態(tài)大模型，能用于可穿戴設(shè)備和具身AI智能體
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-06-03 08:47:23 瀏覽：3490次

導(dǎo)讀：近期，大語(yǔ)言模型（Large Language Models，LLMs）已經(jīng)在理解和生成自然語(yǔ)言上取得了空前的成功。但是，人類依靠自己的大腦不僅僅可以讀寫(xiě)文字，還可以看圖、看視頻、聽(tīng)音樂(lè)等。所以，為了讓 AI 更接近真實(shí)世界，將額外的模態(tài)比如圖像輸入，融入大語(yǔ)言模型...

近期，大語(yǔ)言模型（Large Language Models，LLMs）已經(jīng)在理解和生成自然語(yǔ)言上取得了空前的成功。

但是，人類依靠自己的大腦不僅僅可以讀寫(xiě)文字，還可以看圖、看視頻、聽(tīng)音樂(lè)等。

所以，為了讓 AI 更接近真實(shí)世界，將額外的模態(tài)比如圖像輸入，融入大語(yǔ)言模型從而打造多模態(tài)大模型（MLLMs，Multi-modal LLMs），被認(rèn)為是 AI 發(fā)展的一個(gè)關(guān)鍵新領(lǐng)域。

相比純文本數(shù)據(jù)，多模態(tài)數(shù)據(jù)更加難以獲取，而從零開(kāi)始直接訓(xùn)練多模態(tài)模型也比較困難。

因此，目前的主流方法是基于預(yù)訓(xùn)練好的大語(yǔ)言模型，為其配備一個(gè)視覺(jué)感知模塊，來(lái)獲取多模態(tài)感知能力。典型的該類模型有 Flamingo、BLIP、LLaVA、MiniGPT4 等。

這些模型可以處理圖片輸入，根據(jù)用戶的問(wèn)題生成相應(yīng)的文本回復(fù)。

然而，研究發(fā)現(xiàn)盡管這些模型表現(xiàn)出不錯(cuò)的多模態(tài)理解能力，但是存在嚴(yán)重的視覺(jué)幻覺(jué)問(wèn)題。

具體表現(xiàn)為：幻想圖片中不存在的物體、回答中對(duì)圖片內(nèi)容的描述與事實(shí)嚴(yán)重不符等。

該問(wèn)題的本質(zhì)其實(shí)是：現(xiàn)有模型在細(xì)粒度文本圖像匹配能力上存在缺失。

近期，Kosmos、Shikra 和 Ferret 等模型，將 Grounding 能力引入了 MLLM（即 Grounding MLLM）。

它指的是當(dāng)模型在輸出文本時(shí)，可以同時(shí)輸出名詞短語(yǔ)所對(duì)應(yīng)物體的邊界框坐標(biāo)，以表示該物體在圖片中的位置。

實(shí)驗(yàn)結(jié)果證明，此類模型具備更可靠的性能，能顯著減少視覺(jué)幻覺(jué)的發(fā)生。

此外，由于模型可以更全面地呈現(xiàn)輸出文本和文本所指物體在圖片中的位置關(guān)系，因此可以給用戶提供信息量更多、也更容易理解的內(nèi)容輸出。

然而，目前基于邊界框的 Grounded MLLM 模型仍然存在幾個(gè)問(wèn)題：

首先，受限于長(zhǎng)方形物體邊界框的表達(dá)能力，現(xiàn)有模型無(wú)法進(jìn)行更精細(xì)的文本實(shí)體定位。

例如，當(dāng)文本所指物體是不規(guī)則的背景形狀（如天空、樹(shù)林）時(shí)，或者和其他物體有部分重疊或位置交錯(cuò)等，邊界框無(wú)法準(zhǔn)確表達(dá)所表示物體的位置，以至于容易產(chǎn)生歧義。

其次，受限于模型訓(xùn)練數(shù)據(jù)的多樣性，現(xiàn)有模型僅限于指代單個(gè)物體，而很難生成物體局部區(qū)域、多個(gè)物體組成的整體、以及圖片中文本的指代。

最后，現(xiàn)有模型是基于圖像的隱式特征，來(lái)直接預(yù)測(cè)物體的邊界框坐標(biāo)。

而這一過(guò)程并不透明，當(dāng)出現(xiàn)物體指代錯(cuò)誤時(shí)，很難診斷問(wèn)題是出在檢測(cè)上即沒(méi)有成功檢測(cè)到目標(biāo)物體，還是出在識(shí)別上即成功檢測(cè)到物體但是識(shí)別錯(cuò)誤。

圖 | GROUNDHOG 支持的任務(wù)示例（來(lái)源：arXiv）

針對(duì)這些問(wèn)題，美國(guó)密歇根大學(xué)博士生張亦弛和所在團(tuán)隊(duì)提出了 GROUNDHOG，這是一個(gè)可以支持大型語(yǔ)言模型與視覺(jué)實(shí)體進(jìn)行像素級(jí)語(yǔ)義對(duì)齊的 Grounded MLLM 模型。

圖 | 張亦弛（來(lái)源：張亦弛）

對(duì)于已有的 MLLM 模型來(lái)說(shuō)，其采用輸入 patch-level 視覺(jué)特征后直接輸出定位坐標(biāo)的黑盒架構(gòu)。

而 GROUNDHOG 的關(guān)鍵思想是將 Language Grounding（語(yǔ)言接地）解藕成兩個(gè)階段：定位和識(shí)別。

在定位階段：

首先，由一個(gè)可以提出各種不同實(shí)體區(qū)域分割的專家模型，提供圖像中所有實(shí)體的分割。

然后，通過(guò)一個(gè)掩碼特征提取器，提取每個(gè)實(shí)體的視覺(jué)特征，以此作為多模態(tài)語(yǔ)言模型的輸入。

在識(shí)別階段：

當(dāng)大語(yǔ)言模型解碼出可進(jìn)行視覺(jué)錨定的短語(yǔ)時(shí)，就會(huì)從輸入的所有實(shí)體中，選擇相應(yīng)的實(shí)體分割進(jìn)行融合，借此得到文本對(duì)應(yīng)的視覺(jué)分割區(qū)域。

這種分離的設(shè)計(jì)不僅允許獨(dú)立優(yōu)化實(shí)體分割模型和多模態(tài)語(yǔ)言模型，還提高了錯(cuò)誤分析的可解釋性，并允許 MLLM 與多種視覺(jué)專家模型靈活結(jié)合，從而提高整體性能。

圖 | GROUNDHOG 架構(gòu)（來(lái)源：arXiv）

此外，GROUNDHOG 的這種設(shè)計(jì)模式可以自然拓展到區(qū)域級(jí)的圖像理解任務(wù)，能夠靈活地接受任何圖像中的位置和區(qū)域指代方式來(lái)作為輸入。

另?yè)?jù)悉，不同于 GPT4ROI、Ferret 等現(xiàn)有模型需要引入額外的 spatial prompt encoder，GROUNDHOG 可以直接和 SAM（Segment Anything）等預(yù)訓(xùn)練專家模型結(jié)合，從而處理位置的指代輸入，進(jìn)而極大拓展應(yīng)用場(chǎng)景。

圖 | 與 SAM 無(wú)縫銜接處理各種形式的位置提示輸入（來(lái)源：arXiv）

據(jù)了解，為了訓(xùn)練 GROUNDHOG，課題組整合了 27 個(gè)現(xiàn)有數(shù)據(jù)集的 2.5M 文本-圖像對(duì)，并進(jìn)行了衍生和增強(qiáng)。

通過(guò)此，他們組成一個(gè)名為 M3G2 的新數(shù)據(jù)集，以便用于學(xué)習(xí)多模態(tài)多粒度的視覺(jué)文本對(duì)齊能力。

M3G2 包括圖文錨定描述、指代物體分割、圖文錨定問(wèn)答、視覺(jué)指代對(duì)話 4 大類任務(wù)，涵蓋 36 種子任務(wù)，具備豐富的視覺(jué)文本對(duì)齊標(biāo)注能力。

圖 | M3G2 數(shù)據(jù)集的 4 種任務(wù)示例及數(shù)據(jù)統(tǒng)計(jì)（來(lái)源：arXiv）

通過(guò)相關(guān)實(shí)驗(yàn)，該團(tuán)隊(duì)證明 GROUNDHOG 在各種視覺(jué)文本對(duì)齊任務(wù)上，都能達(dá)到很好的性能，且無(wú)需針對(duì)特定任務(wù)進(jìn)行微調(diào)。

此外，GROUNDHOG 能顯著減少視覺(jué)幻覺(jué)現(xiàn)象的出現(xiàn)，并在失敗案例中提供了易于理解的診斷信息，為需要精確視覺(jué)理解和自然語(yǔ)言處理的領(lǐng)域的發(fā)展奠定了一定基矗

（來(lái)源：arXiv）

GROUNDHOG 模型的一個(gè)典型應(yīng)用場(chǎng)景，便是在可穿戴設(shè)備中，推動(dòng)多模態(tài) AI 助手的發(fā)展。

試想這樣一個(gè)情境：當(dāng)顧客佩戴智能眼鏡在商場(chǎng)購(gòu)物時(shí)，對(duì)著某個(gè)品牌的商品詢問(wèn) AI 助手：“這個(gè)商品好嗎，有更好評(píng)價(jià)的嗎？”

AI 助手不僅能精確地識(shí)別顧客所指商品并能提供相關(guān)評(píng)價(jià)信息，還能智能推薦貨架上其他評(píng)價(jià)更高的商品。

以及能在眼鏡屏幕上通過(guò)增強(qiáng)現(xiàn)實(shí)技術(shù)，高亮地顯示這些商品，便于顧客查找和比較。

在顧客與多模態(tài) AI 助手的互動(dòng)中，這種結(jié)合視線追蹤理解用戶意圖的能力，加上視覺(jué)錨定增強(qiáng)輸出文本的效果，不僅可以提升交互的自然性，也能極大增強(qiáng)用戶體驗(yàn)。

“也就是說(shuō)，GROUNDHOG 模型正是在這兩個(gè)關(guān)鍵能力上表現(xiàn)出色，從而能為推動(dòng)下一代多模態(tài) AI 助手的革新奠定基矗”研究人員表示。

GROUNDHOG 的另一個(gè)應(yīng)用前景，在于能夠驅(qū)動(dòng)具身 AI 智能體。

比如，可以設(shè)計(jì)一個(gè)網(wǎng)絡(luò)瀏覽機(jī)器人，它通過(guò)接收網(wǎng)頁(yè)截圖和用戶意圖描述作為輸入，并輸出相應(yīng)的鼠標(biāo)操作或鍵盤(pán)操作。

在這個(gè)場(chǎng)景中，點(diǎn)擊網(wǎng)頁(yè)元素可被視作結(jié)合輸出文本（動(dòng)作）和網(wǎng)頁(yè)交互元素位置的交互行為。

比如，智能體輸出的動(dòng)作為“點(diǎn)擊‘提交’按鈕”，然后識(shí)別并定位到截圖中的“提交”按鈕，并執(zhí)行實(shí)際的點(diǎn)擊操作。

研究人員表示：“GROUNDHOG 所提供的 Grounding 能力在這種視覺(jué)語(yǔ)言理解與動(dòng)作執(zhí)行相結(jié)合的應(yīng)用場(chǎng)景中至關(guān)重要，進(jìn)一步拓寬了多模態(tài)語(yǔ)言模型在用于 AI 智能體決策中的應(yīng)用范圍。”

事實(shí)上，該團(tuán)隊(duì)最開(kāi)始的研究動(dòng)機(jī)是因?yàn)橛^察到了多模態(tài)大語(yǔ)言模型中普遍存在的視覺(jué)幻覺(jué)現(xiàn)象，希望探索緩解這個(gè)問(wèn)題的解決方案。

經(jīng)過(guò)深入思考之后，他們認(rèn)為幻覺(jué)現(xiàn)象出現(xiàn)的根源還是在于模型視覺(jué)文本對(duì)齊能力的缺失。

而現(xiàn)有模型由于架構(gòu)上的限制，很難支持精細(xì)的像素級(jí)文本對(duì)齊。

由此便想到：為何不打造一款新模型去解決這個(gè)問(wèn)題呢？

于是研究重心就從緩解視覺(jué)幻覺(jué)轉(zhuǎn)移到開(kāi)發(fā)一款具備較強(qiáng)像素級(jí)視覺(jué)文本對(duì)齊能力的模型。

幸運(yùn)的是，當(dāng)他們的架構(gòu)能夠運(yùn)營(yíng)之后，該團(tuán)隊(duì)在實(shí)驗(yàn)中發(fā)現(xiàn)確實(shí)極大緩解了大模型的視覺(jué)幻覺(jué)問(wèn)題，因此也算完成了他們的初衷。

與此同時(shí)，在確定研究問(wèn)題之后，很快他們就發(fā)現(xiàn)了現(xiàn)有模型存在可解釋性較差的問(wèn)題，于是便確定了“先定位后識(shí)別”的主要框架。

隨后，課題組開(kāi)始尋找具體的實(shí)體分割模型。期間遇到了一些困難：其希望這個(gè)實(shí)體分割模型可以提供語(yǔ)義豐富、粒度多樣、高質(zhì)量的實(shí)體分割圖片標(biāo)簽。

然而，在已有的預(yù)訓(xùn)練分割模型中，要么只能給出有限的實(shí)體類別，要么無(wú)法很好地支持他們想要的多粒度分割�？傊](méi)有可以滿足研究人員全部需求的模型。

因此，他們通過(guò)整合 COCO、LVIS、PACO、Entity-V2、TextOCR 等現(xiàn)有的分割數(shù)據(jù)集，基于一個(gè)修改后的 Mask2Former 架構(gòu)自行訓(xùn)練了一個(gè)支持多樣、全面分割的模型 Mask2Former+，以此作為他們的實(shí)體分割模型。

而在當(dāng)時(shí)，另一個(gè)重要問(wèn)題就是構(gòu)建訓(xùn)練模型的數(shù)據(jù)集。

構(gòu)建這種具備較為復(fù)雜的細(xì)粒度圖像文本對(duì)齊標(biāo)注的數(shù)據(jù)集一般有兩種方式：要么通過(guò)重新整合現(xiàn)有數(shù)據(jù)集，要么通過(guò)現(xiàn)有的大模型對(duì)圖像進(jìn)行標(biāo)注加工。

出于對(duì)任務(wù)豐富性和數(shù)據(jù)質(zhì)量的考慮，他們選擇了前者，并盡可能地收集了學(xué)術(shù)界已有的能夠納入本次任務(wù)框架的數(shù)據(jù)集。

隨后，該團(tuán)隊(duì)通過(guò) ChatGPT 生成了對(duì)話模板，將所有數(shù)據(jù)整合為了人機(jī)對(duì)話的形式。

最后，他們選擇在視覺(jué)文本對(duì)齊任務(wù)中一些比較有代表性的 benchmark，對(duì)本次模型加以量化評(píng)測(cè)與分析。

日前，相關(guān)論文以《GROUNDHOG：將大型語(yǔ)言模型建立在整體分割的基礎(chǔ)上》（GROUNDHOG：Grounding Large Language Models to Holistic Segmentation）為題發(fā)在 arXiv[1]。

圖 | 相關(guān)論文（來(lái)源：arXiv）

關(guān)于上述數(shù)據(jù)集和本次模型的詳細(xì)介紹，可以參考本次論文的附錄。之后，他們也會(huì)將這部分?jǐn)?shù)據(jù)處理和模型訓(xùn)練的代碼一并公開(kāi)。

后續(xù)，他們希望能將 GROUDHOG 拓展到第一視角視頻，打造一個(gè)能夠處理視頻輸入的 Grounded MLLM 個(gè)人助手。

參考資料：

1.https://arxiv.org/pdf/2402.16846

排版：初嘉實(shí)

上一篇：毫末顧維灝：AI大模型是自動(dòng)駕駛實(shí)現(xiàn)的唯一路徑

下一篇：如何避免業(yè)務(wù)提“離譜的AI需求”

AiLab云推薦

密歇根大學(xué)團(tuán)隊(duì)打造多模態(tài)大模型，能用于可穿戴設(shè)備和具身AI智能體
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-06-03 08:47:23 瀏覽：3490次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

密歇根大學(xué)團(tuán)隊(duì)打造多模態(tài)大模型，能用于可穿戴設(shè)備和具身AI智能體 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-06-03 08:47:23 瀏覽：3490次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

密歇根大學(xué)團(tuán)隊(duì)打造多模態(tài)大模型，能用于可穿戴設(shè)備和具身AI智能體
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-06-03 08:47:23 瀏覽：3490次