展會(huì)信息港展會(huì)大全

GPT-4V暴露致命缺陷?JHU等發(fā)布首個(gè)多模態(tài)ToM 測(cè)試集
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-12 19:47:49   瀏覽:1233次  

導(dǎo)讀:AIxiv專(zhuān)欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,機(jī)器之心AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.c...

AIxiv專(zhuān)欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,機(jī)器之心AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文第一作者為 Chuanyang Jin (金川楊),本科畢業(yè)于紐約大學(xué),即將前往 JHU 讀博。本文為他本科期間在 MIT 訪(fǎng)問(wèn)時(shí)的工作,他是最年輕的杰出論文獎(jiǎng)獲得者之一。本文的指導(dǎo)老師為 Tianmin Shu (舒天民),JHU 助理教授,Social Cognitive AI Lab 的主任。博士師從 UCLA 朱松純教授,在 MIT 完成博后,致力于構(gòu)建能夠在現(xiàn)實(shí)世界中理解、推理和與人類(lèi)互動(dòng)的社會(huì)智能系統(tǒng),從而推進(jìn)以人為中心的 AI。本文另外兩位指導(dǎo)老師 Joshua B. Tenenbaum、Antonio Torralba 為 MIT 著名教授,google scholar 引用量均在 10 萬(wàn)以上。

心智能力(Theory of Mind,ToM),即理解人們思維的能力,是開(kāi)發(fā)具有類(lèi)人社會(huì)智能的 AI 模型的重要基矗

近日,來(lái)自 JHU, NYU, MIT, Harvard 等機(jī)構(gòu)的研究團(tuán)隊(duì)開(kāi)創(chuàng)了第一個(gè)多模態(tài)的 ToM 測(cè)試基準(zhǔn),發(fā)現(xiàn)現(xiàn)有的多模態(tài)模型和 LLM 都表現(xiàn)存在系統(tǒng)性缺陷,同時(shí)他們提出了一種有效的新方法。在剛結(jié)束的 ACL 2024 會(huì)議中,這篇論文獲得杰出論文獎(jiǎng)。

論文標(biāo)題:MMToM-QA: Multimodal Theory of Mind Question Answering

論文地址: https://arxiv.org/abs/2401.08743

網(wǎng)站: https://chuanyangjin.com/mmtom-qa

代碼: https://github.com/chuanyangjin/MMToM-QA

MMToM-QA

第一個(gè)多模態(tài)的 ToM benchmark

先前所有心智能力的測(cè)試基準(zhǔn)都是單一模態(tài)的。MMToM-QA 是第一個(gè)多模態(tài)的心智能力測(cè)試基準(zhǔn)。其中每個(gè)問(wèn)題包含三部分:一個(gè)人的活動(dòng)視頻,環(huán)境和人類(lèi)動(dòng)作的文字描述與一個(gè) ToM 問(wèn)題。

視頻鏈接:https://mp.weixin.qq.com/s/fRa138rmFsv8W8JOYcsAPA

此前,大部分的心智能力測(cè)試基準(zhǔn)都使用較簡(jiǎn)單的模版,文字或視頻的長(zhǎng)度很短。MMToM-QA 要求在更長(zhǎng)的上下文下,更復(fù)雜多樣的環(huán)境下系統(tǒng)性衡量模型的心智能力。既考察 belief(人們所認(rèn)為的),也考察 goal(人們的目標(biāo))。

為了生成這些視頻,該團(tuán)隊(duì)使用 VirtualHome-Social 模擬器來(lái)中生成一系列人物動(dòng)作,并渲染合成視頻。接下來(lái),使用一個(gè)模型來(lái)跟蹤記錄在視頻的每個(gè)時(shí)刻中 agent 所有可能的目標(biāo)和想法,據(jù)此生成問(wèn)題,并使用 GPT-4 生成改進(jìn)問(wèn)題的描述。

Meta、MIT、CMU、JHU 的眾多團(tuán)隊(duì)已使用 MMToM-QA 來(lái)研發(fā)與人合作的大模型、機(jī)器人等。

大模型集體翻車(chē)

GPT-4V 存在致命缺陷

在 MMToM-QA 上的實(shí)驗(yàn)結(jié)果顯示,當(dāng)人們可以使用不同模態(tài)的信息時(shí),他們理解他人的能力會(huì)有所提升。在這種多模態(tài)條件下,在每個(gè)問(wèn)題上大多數(shù)參與者都達(dá)成了一致意見(jiàn),這驗(yàn)證了基準(zhǔn)設(shè)計(jì)的有效性。

相比之下,多模態(tài)模型和 LLM 的表現(xiàn)遠(yuǎn)不如人類(lèi)。它們?cè)谒袉?wèn)題類(lèi)型上表現(xiàn)得像隨機(jī)猜測(cè)一樣。唯一的例外是 GPT-4V,當(dāng)人們的信念與現(xiàn)實(shí)一致時(shí)它表現(xiàn)良好,但當(dāng)涉及到人們持有錯(cuò)誤信念或更新信念時(shí),GPT-4V 會(huì)系統(tǒng)性犯錯(cuò),并且在判斷目標(biāo)時(shí)表現(xiàn)較差。

以下是 GPT-4V 的一個(gè)失敗案例。從視頻和文本中可以看出,柜子里沒(méi)有蛋糕,但女人卻朝柜子走去,準(zhǔn)備打開(kāi)它。因此,正確答案應(yīng)該是 「女人認(rèn)為柜子里有一個(gè)蛋糕。」然而,GPT-4V 錯(cuò)誤地使用了真實(shí)世界的狀態(tài)來(lái)推斷女人的想法,這表明 GPT-4V 無(wú)法區(qū)分信念和真實(shí)世界狀態(tài)。

BIP-ALM

小模型 + 逆向規(guī)劃超過(guò) GPT-4V

那么,我們?cè)撊绾慰s小 AI 模型和人類(lèi)表現(xiàn)之間的差距?

該團(tuán)隊(duì)提出了一種新方法:BIP-ALM (Bayesian Inverse Planning Accelerated by Language Models)。該方法首先從視頻和文字中提取出相同的符號(hào)表示,接著對(duì)這些表示進(jìn)行對(duì)齊和融合,再使用逆向結(jié)合語(yǔ)言模型來(lái)推斷各種心理狀態(tài)的概率。

以下是融合符號(hào)表示的方法。模型將從視頻中提取特定時(shí)刻的場(chǎng)景關(guān)系圖,識(shí)別人物與物體之間的關(guān)系,例如他們正在經(jīng)過(guò)哪些物體或他們正朝哪些物品前進(jìn)。由于攝像頭視角的限制和遮擋,文本提供了這些可能無(wú)法直接從視頻中觀察的這些信息。

貝葉斯逆向規(guī)劃(Bayesian inverse planning)可以根據(jù)觀察到的 agent 的行為來(lái)推斷其心理狀態(tài)與潛在的信念和目標(biāo)。先前的研究表明,貝葉斯逆向規(guī)劃可以在簡(jiǎn)單情景下成功。然而,當(dāng)狀態(tài)空間變得很大時(shí),計(jì)算每個(gè)可能信念和目標(biāo)的概率變得非常復(fù)雜,導(dǎo)致計(jì)算瓶頸。下圖中藍(lán)色標(biāo)出的部分就是一個(gè)計(jì)算瓶頸。為了加速這一過(guò)程,該團(tuán)隊(duì)使用了語(yǔ)言模型來(lái)估計(jì)每個(gè)時(shí)刻的心理狀態(tài)的概率。

先前的大模型和各種方法無(wú)論是在文本、視頻、還是多模態(tài)版本的 MMToM-QA 上都表現(xiàn)較差,而 BIP-ALM 則展現(xiàn)了較好的結(jié)果。論文作者認(rèn)為 BIP-ALM 得益于:(1) 使用適用于不同模態(tài)信息的符號(hào)表示,(2) 模仿人類(lèi)心智推理的逆向規(guī)劃方法具有很強(qiáng)的魯棒性和可解釋性,(3) 語(yǔ)言模型具有很好的靈活性和可擴(kuò)展性。

后續(xù)工作

走向多智能體的多模態(tài)心智模型

該團(tuán)隊(duì)提出了后續(xù)研究 MuMA-ToM: Multi-modal Multi-Agent Theory of Mind,將 MMToM-QA 的測(cè)試基準(zhǔn)和方法拓展到了多個(gè)智能體的領(lǐng)域。

論文標(biāo)題:MuMA-ToM: Multi-modal Multi-Agent Theory of Mind

論文地址: https://arxiv.org/abs/2408.12574

網(wǎng)站: https://scai.cs.jhu.edu/projects/MuMA-ToM

代碼: https://github.com/SCAI-JHU/MuMA-ToM

MuMA-ToM 關(guān)注多智能體的互動(dòng),考察它們的信念、社會(huì)目標(biāo)、和對(duì)他人目標(biāo)的信念,發(fā)現(xiàn)大型多模態(tài)模型 GPT-4o、Gemini-1.5 Pro 等依然表現(xiàn)糟糕。針對(duì)這些發(fā)現(xiàn),研究團(tuán)隊(duì)進(jìn)一步提出了改進(jìn)的方法 LIMP (Language model-based Inverse Multi-agent Planning)。相比之前的方法,LIMP 使用自然語(yǔ)言而不是符號(hào)表示來(lái)提高通用性,并且能夠利用任何預(yù)訓(xùn)練的大型語(yǔ)言模型,而 BIP-ALM 則要求開(kāi)放權(quán)重的大型語(yǔ)言模型。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港