久久久97精品国产不卡,99久久精品国产都在这里,在线看av网站啊?

GPT-4V暴露致命缺陷？JHU等發(fā)布首個(gè)多模態(tài)ToM 測(cè)試集

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-12 19:47:49 瀏覽：1233次

導(dǎo)讀：AIxiv專(zhuān)欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年，機(jī)器之心AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.c...

AIxiv專(zhuān)欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年，機(jī)器之心AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文第一作者為 Chuanyang Jin (金川楊)，本科畢業(yè)于紐約大學(xué)，即將前往 JHU 讀博。本文為他本科期間在 MIT 訪(fǎng)問(wèn)時(shí)的工作，他是最年輕的杰出論文獎(jiǎng)獲得者之一。本文的指導(dǎo)老師為 Tianmin Shu (舒天民)，JHU 助理教授，Social Cognitive AI Lab 的主任。博士師從 UCLA 朱松純教授，在 MIT 完成博后，致力于構(gòu)建能夠在現(xiàn)實(shí)世界中理解、推理和與人類(lèi)互動(dòng)的社會(huì)智能系統(tǒng)，從而推進(jìn)以人為中心的 AI。本文另外兩位指導(dǎo)老師 Joshua B. Tenenbaum、Antonio Torralba 為 MIT 著名教授，google scholar 引用量均在 10 萬(wàn)以上。

心智能力（Theory of Mind，ToM），即理解人們思維的能力，是開(kāi)發(fā)具有類(lèi)人社會(huì)智能的 AI 模型的重要基矗

近日，來(lái)自 JHU, NYU, MIT, Harvard 等機(jī)構(gòu)的研究團(tuán)隊(duì)開(kāi)創(chuàng)了第一個(gè)多模態(tài)的 ToM 測(cè)試基準(zhǔn)，發(fā)現(xiàn)現(xiàn)有的多模態(tài)模型和 LLM 都表現(xiàn)存在系統(tǒng)性缺陷，同時(shí)他們提出了一種有效的新方法。在剛結(jié)束的 ACL 2024 會(huì)議中，這篇論文獲得杰出論文獎(jiǎng)。

論文標(biāo)題：MMToM-QA: Multimodal Theory of Mind Question Answering

論文地址: https://arxiv.org/abs/2401.08743

網(wǎng)站: https://chuanyangjin.com/mmtom-qa

代碼: https://github.com/chuanyangjin/MMToM-QA

MMToM-QA

第一個(gè)多模態(tài)的 ToM benchmark

先前所有心智能力的測(cè)試基準(zhǔn)都是單一模態(tài)的。MMToM-QA 是第一個(gè)多模態(tài)的心智能力測(cè)試基準(zhǔn)。其中每個(gè)問(wèn)題包含三部分：一個(gè)人的活動(dòng)視頻，環(huán)境和人類(lèi)動(dòng)作的文字描述與一個(gè) ToM 問(wèn)題。

視頻鏈接：https://mp.weixin.qq.com/s/fRa138rmFsv8W8JOYcsAPA

此前，大部分的心智能力測(cè)試基準(zhǔn)都使用較簡(jiǎn)單的模版，文字或視頻的長(zhǎng)度很短。MMToM-QA 要求在更長(zhǎng)的上下文下，更復(fù)雜多樣的環(huán)境下系統(tǒng)性衡量模型的心智能力。既考察 belief（人們所認(rèn)為的），也考察 goal（人們的目標(biāo)）。

為了生成這些視頻，該團(tuán)隊(duì)使用 VirtualHome-Social 模擬器來(lái)中生成一系列人物動(dòng)作，并渲染合成視頻。接下來(lái)，使用一個(gè)模型來(lái)跟蹤記錄在視頻的每個(gè)時(shí)刻中 agent 所有可能的目標(biāo)和想法，據(jù)此生成問(wèn)題，并使用 GPT-4 生成改進(jìn)問(wèn)題的描述。

Meta、MIT、CMU、JHU 的眾多團(tuán)隊(duì)已使用 MMToM-QA 來(lái)研發(fā)與人合作的大模型、機(jī)器人等。

大模型集體翻車(chē)

GPT-4V 存在致命缺陷

在 MMToM-QA 上的實(shí)驗(yàn)結(jié)果顯示，當(dāng)人們可以使用不同模態(tài)的信息時(shí)，他們理解他人的能力會(huì)有所提升。在這種多模態(tài)條件下，在每個(gè)問(wèn)題上大多數(shù)參與者都達(dá)成了一致意見(jiàn)，這驗(yàn)證了基準(zhǔn)設(shè)計(jì)的有效性。

相比之下，多模態(tài)模型和 LLM 的表現(xiàn)遠(yuǎn)不如人類(lèi)。它們?cè)谒袉?wèn)題類(lèi)型上表現(xiàn)得像隨機(jī)猜測(cè)一樣。唯一的例外是 GPT-4V，當(dāng)人們的信念與現(xiàn)實(shí)一致時(shí)它表現(xiàn)良好，但當(dāng)涉及到人們持有錯(cuò)誤信念或更新信念時(shí)，GPT-4V 會(huì)系統(tǒng)性犯錯(cuò)，并且在判斷目標(biāo)時(shí)表現(xiàn)較差。

以下是 GPT-4V 的一個(gè)失敗案例。從視頻和文本中可以看出，柜子里沒(méi)有蛋糕，但女人卻朝柜子走去，準(zhǔn)備打開(kāi)它。因此，正確答案應(yīng)該是「女人認(rèn)為柜子里有一個(gè)蛋糕。」然而，GPT-4V 錯(cuò)誤地使用了真實(shí)世界的狀態(tài)來(lái)推斷女人的想法，這表明 GPT-4V 無(wú)法區(qū)分信念和真實(shí)世界狀態(tài)。

BIP-ALM

小模型 + 逆向規(guī)劃超過(guò) GPT-4V

那么，我們?cè)撊绾慰s小 AI 模型和人類(lèi)表現(xiàn)之間的差距？

該團(tuán)隊(duì)提出了一種新方法：BIP-ALM (Bayesian Inverse Planning Accelerated by Language Models)。該方法首先從視頻和文字中提取出相同的符號(hào)表示，接著對(duì)這些表示進(jìn)行對(duì)齊和融合，再使用逆向結(jié)合語(yǔ)言模型來(lái)推斷各種心理狀態(tài)的概率。

以下是融合符號(hào)表示的方法。模型將從視頻中提取特定時(shí)刻的場(chǎng)景關(guān)系圖，識(shí)別人物與物體之間的關(guān)系，例如他們正在經(jīng)過(guò)哪些物體或他們正朝哪些物品前進(jìn)。由于攝像頭視角的限制和遮擋，文本提供了這些可能無(wú)法直接從視頻中觀察的這些信息。

貝葉斯逆向規(guī)劃（Bayesian inverse planning）可以根據(jù)觀察到的 agent 的行為來(lái)推斷其心理狀態(tài)與潛在的信念和目標(biāo)。先前的研究表明，貝葉斯逆向規(guī)劃可以在簡(jiǎn)單情景下成功。然而，當(dāng)狀態(tài)空間變得很大時(shí)，計(jì)算每個(gè)可能信念和目標(biāo)的概率變得非常復(fù)雜，導(dǎo)致計(jì)算瓶頸。下圖中藍(lán)色標(biāo)出的部分就是一個(gè)計(jì)算瓶頸。為了加速這一過(guò)程，該團(tuán)隊(duì)使用了語(yǔ)言模型來(lái)估計(jì)每個(gè)時(shí)刻的心理狀態(tài)的概率。

先前的大模型和各種方法無(wú)論是在文本、視頻、還是多模態(tài)版本的 MMToM-QA 上都表現(xiàn)較差，而 BIP-ALM 則展現(xiàn)了較好的結(jié)果。論文作者認(rèn)為 BIP-ALM 得益于：(1) 使用適用于不同模態(tài)信息的符號(hào)表示，(2) 模仿人類(lèi)心智推理的逆向規(guī)劃方法具有很強(qiáng)的魯棒性和可解釋性，(3) 語(yǔ)言模型具有很好的靈活性和可擴(kuò)展性。

后續(xù)工作

走向多智能體的多模態(tài)心智模型

該團(tuán)隊(duì)提出了后續(xù)研究 MuMA-ToM: Multi-modal Multi-Agent Theory of Mind，將 MMToM-QA 的測(cè)試基準(zhǔn)和方法拓展到了多個(gè)智能體的領(lǐng)域。

論文標(biāo)題：MuMA-ToM: Multi-modal Multi-Agent Theory of Mind

論文地址: https://arxiv.org/abs/2408.12574

網(wǎng)站: https://scai.cs.jhu.edu/projects/MuMA-ToM

代碼: https://github.com/SCAI-JHU/MuMA-ToM

MuMA-ToM 關(guān)注多智能體的互動(dòng)，考察它們的信念、社會(huì)目標(biāo)、和對(duì)他人目標(biāo)的信念，發(fā)現(xiàn)大型多模態(tài)模型 GPT-4o、Gemini-1.5 Pro 等依然表現(xiàn)糟糕。針對(duì)這些發(fā)現(xiàn)，研究團(tuán)隊(duì)進(jìn)一步提出了改進(jìn)的方法 LIMP (Language model-based Inverse Multi-agent Planning)。相比之前的方法，LIMP 使用自然語(yǔ)言而不是符號(hào)表示來(lái)提高通用性，并且能夠利用任何預(yù)訓(xùn)練的大型語(yǔ)言模型，而 BIP-ALM 則要求開(kāi)放權(quán)重的大型語(yǔ)言模型。