當前位置：人工智能實驗室> 人工智能應(yīng)用 > 科學家提出模仿學習算法，用GPT-4跨模態(tài)訓(xùn)練具身智能體，讓智能體與現(xiàn)實世界有效對齊

科學家提出模仿學習算法，用GPT-4跨模態(tài)訓(xùn)練具身智能體，讓智能體與現(xiàn)實世界有效對齊
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-24 22:03:32 瀏覽：3465次

導(dǎo)讀：擁有多模態(tài)能力的具身智能體，是實現(xiàn)通用人工智能的最重要組成部分，人們希望它能夠落地，幫助完成日常生活中的任務(wù)，例如，常見的家務(wù)勞動、自動駕駛和機器人操作等。目前，領(lǐng)域內(nèi)還沒有一種公認的技術(shù)方案，能夠有效地訓(xùn)練多模態(tài)具身智能體。在大語言模...

擁有多模態(tài)能力的具身智能體，是實現(xiàn)通用人工智能的最重要組成部分，人們希望它能夠落地，幫助完成日常生活中的任務(wù)，例如，常見的家務(wù)勞動、自動駕駛和機器人操作等。

目前，領(lǐng)域內(nèi)還沒有一種公認的技術(shù)方案，能夠有效地訓(xùn)練多模態(tài)具身智能體。

在大語言模型中存在著名的 Scaling Laws 理論，簡單來理解，模型越大，數(shù)據(jù)越多，最終得到的性能也會越好。但是，在訓(xùn)練具身智能體任務(wù)中，很難復(fù)刻大語言模型的成功。

主要原因有：

第一，與訓(xùn)練大語言模型使用的的海量語料不同，具身智能相關(guān)的數(shù)據(jù)十分單一和昂貴（數(shù)百萬元級別）；第二，缺乏像監(jiān)督學習那樣有效的訓(xùn)練方法。

基于此，南方科技大學與美國馬里蘭大學帕克分校、澳大利亞悉尼科技大學、京東探索研究院等團隊合作，針對多模態(tài)具身智能體的訓(xùn)練與環(huán)境變化之間存在不對齊（misalignment）的問題，提出一種新型具身智能體訓(xùn)練框架。

通過大語言模型在模仿學習中為智能體提供經(jīng)驗反饋和指導(dǎo)，顯著提升了家務(wù)機器人任務(wù)完成的成功率。

以往的研究中，人們通常認為在訓(xùn)練具身智能體時，只要離線數(shù)據(jù)集做得足夠大，它的性能就會變得更好。

該研究為領(lǐng)域提供了一個全新的視角：即便數(shù)據(jù)集做得足夠大，但未來世界的變化是無窮多的，也很難窮舉和泛化出所有的可能性。因此，需要實時收集環(huán)境的反饋數(shù)據(jù)，再不斷地交互學習。

近日，相關(guān)論文以《由平行文本世界中的大語言模型訓(xùn)練的多模態(tài)智能體》（Embodied Multi-Modal Agent trained by an LLM from a Parallel TextWorld）為題發(fā)表在預(yù)印本網(wǎng)站 arXiv[1]，并且已被 CVPR 2024 會議接收。

南方科技大學博士生楊一君為第一作者，南方科技大學講席教授史玉回和京東探索研究院沈力博士（現(xiàn)中山大學副教授）擔任共同通訊作者。

圖丨相關(guān)論文（來源：arXiv）

關(guān)鍵問題：智能體與環(huán)境動態(tài)不對齊

研究人員希望從視覺輸入狀態(tài)，來訓(xùn)練跟隨語言指令的具身智能體。但是，在現(xiàn)有的框架下，這樣的具身智能體往往是從離線、固定的數(shù)據(jù)集中進行訓(xùn)練和學習，這會導(dǎo)致幻覺、分布偏移、稀疏獎勵等一系列問題。

具體來說：

第一，幻覺，也稱與人類目標不對齊。

智能體在固定、離線的數(shù)據(jù)集訓(xùn)練的條件下，它只能反映出某一個時間節(jié)點之前的世界發(fā)生的事情。

但世界是動態(tài)發(fā)生變化的，如果智能體遇到此前數(shù)據(jù)集中從未出現(xiàn)過的場景或情況，它會執(zhí)行一些在人看來不合常理的操作或動作，也就是人們常說的“幻覺現(xiàn)象”，具體表現(xiàn)為：智能體執(zhí)行了錯誤、不合理、以及危險的行為。

楊一君指出，“想徹底解決智能體的幻覺的問題，最直接的方式是，讓智能體不斷地與環(huán)境進行交互，實時收集環(huán)境的反饋數(shù)據(jù)，再不斷地交互學習，如此一直循環(huán)下去。”

（來源：南方科技大學）

第二，分布偏移，也稱與環(huán)境動態(tài)不對齊。

分布偏移問題與幻覺類似，它指的是原來學到的數(shù)據(jù)分布與未來的數(shù)據(jù)分布不同。隨著時間的推移，在做決策時，數(shù)據(jù)分布也在不斷地變化，因此會產(chǎn)生偏移，進而導(dǎo)致在原來數(shù)據(jù)集上充分訓(xùn)練過智能體在做決策時，出現(xiàn)一些異常的動作或模型的輸出。

第三，稀疏獎勵。實際上，用一個類似強化學習的方式，通過與環(huán)境的交互來訓(xùn)練智能體，可以得到的環(huán)境反饋非常稀疏。

楊一君解釋說道：“一項任務(wù)的成功完成，需要多步?jīng)Q策累加在一起。但是，智能體可能在中間的某些步驟或在所有步驟都得不到任何有價值的反饋，只有最終任務(wù)完成后，才得到成功的反潰”

因此，如果任務(wù)的中間步驟過長，智能體沒有被一步步地反饋指導(dǎo)，可能會導(dǎo)致其很難實現(xiàn)最終的目標。

用大語言模型跨模態(tài)訓(xùn)練具身智能體

在該研究中，馬里蘭大學帕克分校助理教授周天翼總結(jié)出上述智能體與環(huán)境動態(tài)不對齊的關(guān)鍵問題。

之后，經(jīng)過團隊討論，楊一君提出，通過不斷地與環(huán)境進行交互，再利用大語言模型根據(jù)環(huán)境反饋提供一步步指導(dǎo)，來更高效地訓(xùn)練智能體的策略。

“實際上，我們是領(lǐng)域內(nèi)比較早意識到智能體與環(huán)境動態(tài)不對齊問題的團隊，這一點在 CVPR 2024 會議審稿時也得到了審稿人的肯定。”他說。

研究人員提出一種跨模態(tài)模仿學習的算法框架，以得到關(guān)于環(huán)境的實時反潰需要了解的是，在模仿學習中，有兩個關(guān)鍵的角色，分別為：教師/專家（Teacher）和學生/具身智能體（Student）。

在得到環(huán)境的狀態(tài)信息后，先把其輸入給大語言模型“教師”，然后“教師”在總結(jié)反饋后輸出一個更容易學習的目標，讓“學生”進行模仿。

楊一君表示：“教師的輸出解決了之前存在的稀疏獎勵的問題，這樣，每一步環(huán)境反饋，教師都可以為學生提供指導(dǎo)，解決了需要在所有任務(wù)完成后才能知道是否成功的問題。”

（來源：arXiv）

在模仿學習方面，傳統(tǒng)的方法是用人的標注進行訓(xùn)練和學習的指導(dǎo)。例如，在每一步提供幾個選項，然后由人選擇在執(zhí)行上最有助于完成最終目標的選項。

需要了解的是，從人的反饋中進行學習的方式，不僅費時、費力，還要求進行反饋的人需要具備專業(yè)的學科知識，特別是與機器人相關(guān)的問題，這會提高標注的成本。

目前，大語言模型已經(jīng)能夠完成很多種類的任務(wù)，甚至包括一些決策的任務(wù)。因此，該課題組創(chuàng)新性地提出，用大語言模型代替人來提供模仿學習過程中的反饋信號。

他們調(diào)用 GPT-4 模型，讓它在每一步的可選動作中選擇，作為環(huán)境反饋更合適的文本動作，并進一步指導(dǎo)“學生”達成最終的目標。

圖丨豐富的測試場景，智能體被要求在不同的場景下完成各種各樣的家務(wù)勞動（來源：ProcTHOR）

由人根據(jù)場景進行標注操作，成功率大約在 91% 左右。在沒有人的干預(yù)，只包含機器人攝像頭看到場景條件下，成功率在 20% 左右。

該團隊基于 Unity3D 渲染的仿真環(huán)境 ALFWorld，在包含幾千種不同的家務(wù)勞動場景下，要求機器人完成洗盤子、拿蘋果、倒垃圾等指令任務(wù)。通過這種新方法訓(xùn)練的智能體，任務(wù)成功率顯著提升 20%-70%，最終實現(xiàn)了 88% 的成功率。

“這也是目前唯一一個接近人類成功率的方法。未來，如果我們的方法進一步實現(xiàn)規(guī)模效應(yīng)，有希望用更大的模型在測試環(huán)境下達到或超越 91% 成功率。”楊一君說。

圖丨ALFWorld 中視覺環(huán)境下三種基于視覺-語言模型的智能體的比較圖（來源：arXiv）

將繼續(xù)擴展具身智能體訓(xùn)練框架

在大語言模型出現(xiàn)之前，楊一君的研究方向是強化學習，所做的研究包括離線強化學習、持續(xù)強化學習等。這些探索也為本次研究奠定了堅實的基礎(chǔ)，并具有一定的啟發(fā)和促進作用。

“基于將技術(shù)應(yīng)用到實際問題的考慮，隨著大語言模型的出現(xiàn)，我的研究方向逐漸轉(zhuǎn)向利用大語言模型的先驗知識，幫助提升強化學習算法的效率。”他說。

圖丨楊一君（來源：楊一君）

不可忽視的是，強化學習最大的問題在于，通過與環(huán)境不斷地交互試錯，需要巨大的數(shù)據(jù)量，才能學習到較為理想的策略，但是具身智能中的數(shù)據(jù)昂貴，這也是最難解決的問題之一。

下一步，該課題組計劃繼續(xù)擴展該方法，以實現(xiàn)更高的性能。楊一君表示：“我們將嘗試把人的反饋引入到算法框架中來。并且，可以把人的反饋與大語言模型的反饋混合在一起，來解決成本高昂的問題。”

另一方面，他們還打算從優(yōu)化模仿學習算法的角度，嘗試解決數(shù)據(jù)與環(huán)境交互次數(shù)過多的問題。實際上，智能體與環(huán)境交互的次數(shù)和成本息息相關(guān)。研究人員希望，在達到相同學習性能的條件下，盡可能地限制與環(huán)境交互的次數(shù)。

例如，使用元學習的方式，能夠讓機器人復(fù)用與此前訓(xùn)練過的、常識性和通用性的先驗知識，來幫助加速完成與之類似的任務(wù)（持續(xù)強化學習），通過該方法，在很大程度上能夠減少環(huán)境的交互部署。

楊一君舉例說道：“比如，機器人之前已經(jīng)學習過洗盤子，讓它再去學習洗碗時，從本質(zhì)上和洗盤子是類似的。”

從前很多人認為算法設(shè)計得足夠精巧，才能夠真正地解決某個問題，但是，隨著大語言模型的出現(xiàn)和發(fā)展，逐漸改變了人們看待解決人工智能問題的方式。

現(xiàn)階段的情況是，算法可以足夠簡單，但所需要的計算資源和數(shù)據(jù)量需要足夠大。也就是說，相較于算法，數(shù)據(jù)和算力資源變得更加重要。

之前人工智能的研究主要集中在感知問題，它解決的是能夠認識物體的問題或功能，比如用計算機視覺做檢測分割、深度估計、目標識別等。

談及人工智能的下一步可能的發(fā)展，楊一君表示：“人工智能的下一步，應(yīng)該是從感知問題轉(zhuǎn)化到?jīng)Q策問題。”

未來，希望能夠借助大語言模型解決問題的方式，以更多的數(shù)據(jù)、更大的算力以及更大的模型，來解決決策的問題。

“在決策問題上，我們期待能夠出現(xiàn)通用的決策模型，以解決各種各樣的決策問題，我覺得這可能是未來的一個里程碑式的進展。”楊一君最后說道。

參考資料：

1.Yijun Yang et al. Embodied Multi-Modal Agent trained by an LLM from a Parallel TextWorld. arXiv:2311.16714v2(2024). https://arxiv.org/abs/2311.16714

2.https://procthor.allenai.org/

運營/排版：何晨龍