一張桌子放著兩個碗:一個是塑料的,另一個是金屬的。你讓機器人拿起其中一個,然后把它放進微波爐里。你覺得它會選擇哪一個?
面對這類要求,人類可能會再確認一遍,但如果是機器人,得到這樣模糊的指令,它可能會將金屬碗放入微波爐中引起爆炸。
現(xiàn)在,有一種被稱為“KnowNo”的新訓練模型,旨在通過教機器人在命令不明確時尋求人類的幫助來解決這個問題。描述這項研究的論文發(fā)表在 2023 年 11 月機器人學習會議上。
該模型會確保機器人只在必要時尋求二次確認,最大限度地減少不必要的來回詢問。
這樣就得到了一個聰明的機器人助手,它會努力理解你究竟想要什么,而不會過多地打擾你。
(來源:arXiv)
谷歌 DeepMind 的研究科學家 Andy Zeng 幫助開發(fā)了這項新技術,他說雖然機器人在許多特定場景中都很強大,但它們往往不擅長需要常識的通用任務。
例如,當被要求給你拿一瓶可樂時,機器人需要首先明白它需要走進廚房,找打冰箱,然后打開冰箱門取出可樂。
按照慣例,這些較小的子步驟必須提前編好,因為否則機器人不會知道人們通常把飲料放在廚房里。
Zeng 說,這是大型語言模型(LLM,large language model)可以幫助解決的問題,因為它們有很多常識。
現(xiàn)在,當機器人被要求拿一瓶可樂時,對世界有著廣泛了解的大語言模型可以為機器人生成一套循序漸進的指令。
然而,大模型的問題在于,它無法保證機器人能夠執(zhí)行給出的指令。也許這個人的廚房里沒有冰箱,或者冰箱門把手壞了。在這種情況下,機器人需要向人類求助。
KnowNo 通過將大型語言模型與量化置信水平的統(tǒng)計工具相結合,實現(xiàn)了這一點。
當有人給出一個模棱兩可的指令,比如“把碗放進微波爐”時,KnowNo 首先使用語言模型生成多個可能的下一個動作,然后它會創(chuàng)建一個置信度得分,預測每個選擇成為最佳選擇的可能性。
這些置信度估值是根據(jù)預定的確定性閾值來確定的,該閾值規(guī)定了用戶希望機器人在其動作中有多自信或保守。例如,一個成功率為 80% 的機器人至少在 80% 的情況下都應該做出正確的決定。
美國普林斯頓大學機械和航空航天工程助理教授、該研究的高級作者阿尼魯達馬宗達(Anirudha Majumdar)說,這在不同風險程度的任務中是有用的。
你可能希望你的掃地機器人更獨立一些,盡管會犯一些錯誤,但你不必過于密切地監(jiān)督它。但對于醫(yī)療應用,機器人必須極其謹慎,盡可能保證任務成功。
當有不止一個選項可供選擇時,機器人會停下來要求澄清,而不是盲目地繼續(xù):“我應該拿起哪個碗,金屬的還是塑料的?”
Knowno 在三個機器人上進行了 150 多種不同場景的測試。結果顯示,與那些沒有進行過相同統(tǒng)計計算訓練的機器人相比,經(jīng)過 KnowNo 訓練的機器人在需要更少人力幫助的情況下,成功率更高。
由于人類語言往往模棱兩可,教機器人識別和應對不確定性可以提高它們的表現(xiàn)。
美國弗吉尼亞理工大學專門研究人機交互的助理教授迪倫洛西(Dylan Losey)表示,研究表明,人們更喜歡會提問的機器人,他沒有參與這項研究。
他說,當機器人尋求幫助時,會增加他們如何決定做什么的透明度,從而帶來更好的互動。
美國普林斯頓大學博士生、該研究的主要作者 Allen Ren 表示,有幾種方法可以改善 KnowNo,F(xiàn)在,它假設機器人的視覺總是可靠的,而現(xiàn)實里傳感器可能出現(xiàn)故障。此外,模型也可以進一步優(yōu)化,以考慮人們在提供幫助時可能帶來的錯誤。
馬宗達說,人工智能表達不確定性的能力將使我們更加信任機器人。“量化不確定性是我們許多系統(tǒng)中缺失的一部分。”他說,“這讓我們對機器人的安全性和完善度更有信心。”
作者簡介:我是一名報道氣候、能源和技術交叉點的研究員。我熱衷于使用數(shù)據(jù)和圖形來講述引人入勝的人類故事。此前,我曾在美國和韓國的多家媒體機構制作廣播和多媒體新聞,涵蓋從移民到音樂再到公共衛(wèi)生等主題。
支持:Ren