展會(huì)信息港展會(huì)大全

類人神經(jīng)網(wǎng)絡(luò)再進(jìn)一步!DeepMind最新50頁(yè)論文提出AligNet框架:用層次化視覺(jué)概念「對(duì)齊」人類
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-23 10:49:05   瀏覽:1183次  

導(dǎo)讀:新智元報(bào)道 編輯:LRS 【新智元導(dǎo)讀】 DeepMind最近的研究提出了一種新框架AligNet,通過(guò)模擬人類判斷來(lái)訓(xùn)練教師模型,并將類人結(jié)構(gòu)遷移到預(yù)訓(xùn)練的視覺(jué)基礎(chǔ)模型中,從而提高模型在多種任務(wù)上的表現(xiàn),增強(qiáng)了模型的泛化性和魯棒性,為實(shí)現(xiàn)更類人的人工智能系統(tǒng)...

新智元報(bào)道

編輯:LRS【新智元導(dǎo)讀】DeepMind最近的研究提出了一種新框架AligNet,通過(guò)模擬人類判斷來(lái)訓(xùn)練教師模型,并將類人結(jié)構(gòu)遷移到預(yù)訓(xùn)練的視覺(jué)基礎(chǔ)模型中,從而提高模型在多種任務(wù)上的表現(xiàn),增強(qiáng)了模型的泛化性和魯棒性,為實(shí)現(xiàn)更類人的人工智能系統(tǒng)鋪平了道路。

近年來(lái),深度學(xué)習(xí)在人工智能領(lǐng)域,如自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)方面取得了快速進(jìn)展,但即便是最強(qiáng)大的模型,也經(jīng)常會(huì)在那些,對(duì)于人類說(shuō)非常簡(jiǎn)單的case上折戟。

人類感知對(duì)環(huán)境變化具有魯棒性,并能在不同的視覺(jué)設(shè)置中泛化,相比之下,對(duì)于深度學(xué)習(xí)模型來(lái)說(shuō),如果訓(xùn)練和測(cè)試數(shù)據(jù)集之間的分布發(fā)生偏移,其性能往往會(huì)急劇下降。

人類在判斷視覺(jué)相似性時(shí)往往能夠很好地校準(zhǔn)自己的判斷,即人類對(duì)某個(gè)問(wèn)題的確定性往往與預(yù)測(cè)準(zhǔn)確率成正比,而AI系統(tǒng)則過(guò)于自信,即使在預(yù)測(cè)錯(cuò)誤時(shí)也表現(xiàn)出高度的確定性。

所以說(shuō),在真正實(shí)現(xiàn)通用人工智能之前,深度學(xué)習(xí)模型和人類之間仍然存在諸多差異需要調(diào)和、對(duì)齊。

值得思考的是,神經(jīng)網(wǎng)絡(luò)訓(xùn)練和人類學(xué)習(xí)在根本上有所不同,其無(wú)法像人類一樣穩(wěn)健地泛化,是否是因?yàn)槠涞讓颖碚鞯南嗨菩缘膯?wèn)題?現(xiàn)代學(xué)習(xí)系統(tǒng)要表現(xiàn)出更像人類的行為,還缺少什么?深度學(xué)習(xí)模型在概念層次結(jié)構(gòu)的各個(gè)層次上缺乏這種全局組織,是否可能導(dǎo)致了這些模型的前述弱點(diǎn)?

最近,DeepMind等機(jī)構(gòu)的研究人員聯(lián)合發(fā)布了一篇長(zhǎng)達(dá)50頁(yè)的論文,提出了一個(gè)可能導(dǎo)致AI模型與人類表現(xiàn)存在差異的原因:人類概念知識(shí)是從精細(xì)到粗尺度進(jìn)行分層組織的,而深度學(xué)習(xí)模型表征無(wú)法捕捉到人類感知的多層次概念結(jié)構(gòu)。

雖然說(shuō)模型表征在一定程度上可以對(duì)局部視覺(jué)和語(yǔ)義特征(例如,不同犬種的紋理或顏色)進(jìn)行編碼,共享實(shí)體之間的人類感知相似性結(jié)構(gòu),但對(duì)于在視覺(jué)和語(yǔ)義上更為不同的概念之間的全局關(guān)系(例如,狗和魚(yú)都是有生命的,但在視覺(jué)上根本不相似)的建模則遠(yuǎn)沒(méi)有那么系統(tǒng)化。

然而,人類的神經(jīng)表示是由全局特征(如生命性)組織起來(lái)的,并且在多個(gè)更細(xì)的尺度上捕捉微妙的語(yǔ)義關(guān)系。

為了解決這種不一致問(wèn)題,研究人員提出了一個(gè)新的框架,通過(guò)模擬大量類似人類的相似性判斷數(shù)據(jù)集,來(lái)提高模型與人類的對(duì)齊度。

首先訓(xùn)練一個(gè)教師模型來(lái)模仿人類的判斷,然后將這種類人的結(jié)構(gòu)(human-link structure)表征遷移到預(yù)訓(xùn)練后的視覺(jué)基礎(chǔ)模型中,從而使這些與人類對(duì)齊的模型在包括一個(gè)新的跨越多個(gè)語(yǔ)義抽象層次的人類判斷數(shù)據(jù)集在內(nèi)的一系列相似性任務(wù)中,更準(zhǔn)確地近似人類的行為和不確定性。

結(jié)果顯示,該模型在各種機(jī)器學(xué)習(xí)任務(wù)上表現(xiàn)更好,提高了泛化性和分布外的魯棒性,此外,將額外的人類知識(shí)注入神經(jīng)網(wǎng)絡(luò)后,學(xué)習(xí)到的表征更符合人類認(rèn)知,也更實(shí)用,為更強(qiáng)大、可解釋和類人的AI系統(tǒng)鋪平了道路。

此外,文中還提供了一套開(kāi)源的視覺(jué)模型,通過(guò)軟對(duì)齊編碼了分層的人類知識(shí),其普遍意義在于使科學(xué)、醫(yī)學(xué)和工業(yè)能夠使用更類人和魯棒的視覺(jué)模型進(jìn)行下游應(yīng)用,任何研究人員或從業(yè)者都可以無(wú)限制地使用。

總的來(lái)說(shuō),這項(xiàng)工作不僅有助于更好地理解人工智能與人類智能之間的主要差異,而且還提出了一種可能對(duì)實(shí)現(xiàn)類似人類智能的人工智能至關(guān)重要的原則,即關(guān)注人類知識(shí)中的多分辨率關(guān)系結(jié)構(gòu)。

AligNet框架

研究人員首先使用仿射變換來(lái)對(duì)齊神經(jīng)網(wǎng)絡(luò)模型表示與人類在三元組異類任務(wù)中的語(yǔ)義判斷,利用THINGS數(shù)據(jù)集開(kāi)發(fā)了一個(gè)人類判斷的教師模型;

與此同時(shí),通過(guò)保持模型的局部表征結(jié)構(gòu)來(lái)規(guī)范對(duì)齊過(guò)程,并額外利用人類恢復(fù)的不確定性度量來(lái)改善模型校準(zhǔn)。

然后將該模型應(yīng)用于ImageNet,將其潛在表示聚類到語(yǔ)義上有意義的類別,從而能夠生成大量的語(yǔ)義相似性三元組,研究人員將該數(shù)據(jù)集稱為AligNet。

為了將這種精心構(gòu)造的類人相似性結(jié)構(gòu)信息遷移到預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)基礎(chǔ)模型中,研究人員引入了一種基于Kullback-Leibler散度的新目標(biāo)函數(shù),將語(yǔ)義信息蒸餾到一個(gè)學(xué)生視覺(jué)基礎(chǔ)模型(VFM)中。

實(shí)驗(yàn)結(jié)果

為了驗(yàn)證AligNet框架的有效性,即是否有助于提高模型與人類之間的對(duì)齊度,研究人員驗(yàn)證了模型在THINGS三元組異類(triplet odd-one-out )數(shù)據(jù)上的表現(xiàn)接近人類噪聲上限的66.67%。在對(duì)教師模型表示應(yīng)用不確定性蒸餾優(yōu)化后,可以觀察到在THINGS數(shù)據(jù)中的所有三元組中,三元組異類響應(yīng)與人類響應(yīng)的一致性達(dá)到了61.7%

此外,研究人員還發(fā)現(xiàn),在模型生成的三元組異類響應(yīng)數(shù)據(jù)上微調(diào)視覺(jué)基礎(chǔ)模型后,所有模型的表現(xiàn)都有了顯著的提升,無(wú)論預(yù)訓(xùn)練任務(wù)和用于訓(xùn)練基礎(chǔ)模型的目標(biāo)函數(shù)是什么,或是其他認(rèn)知相似性任務(wù)和相似性度量方式,軟對(duì)齊技術(shù)都能夠提高模型在特定任務(wù)上的表現(xiàn),使模型的行為更加接近人類的思維方式。

為了驗(yàn)證軟對(duì)齊技術(shù)是否能夠使模型的內(nèi)部表示更好地反映人類概念知識(shí)的層次結(jié)構(gòu),研究人員利用眾包方式收集了一個(gè)全新的人類語(yǔ)義判斷評(píng)估數(shù)據(jù)集Levels,設(shè)計(jì)了三種不同難度級(jí)別的三元組異類任務(wù),包括需要在大類別間判斷異類的全局粗粒度語(yǔ)義任務(wù),需要在相同類別內(nèi)識(shí)別微妙差異的局部細(xì)粒度語(yǔ)義任務(wù),以及測(cè)試識(shí)別不同類別邊界的能力的類別邊界任務(wù)。

實(shí)驗(yàn)結(jié)果正如預(yù)期,研究人員發(fā)現(xiàn)模型在預(yù)測(cè)涉及視覺(jué)或語(yǔ)義重疊較少的實(shí)體之間關(guān)系(即更抽象的)時(shí)表現(xiàn)最差。

軟對(duì)齊技術(shù)也能顯著改變了模型的內(nèi)部表示,使其在對(duì)齊后更加相似,更好地反映了人類對(duì)語(yǔ)義類別層次結(jié)構(gòu)的理解。

這種變化的原因在于兩個(gè)主要因素:首先,模型在對(duì)齊過(guò)程中生成的標(biāo)簽更貼近人類的判斷和不確定性,尤其是在處理更抽象的類別層次時(shí);其次,用于生成三元組的聚類過(guò)程也考慮了這種層次結(jié)構(gòu),傾向于將來(lái)自相同下位或基本級(jí)別類別的圖像配對(duì),而將來(lái)自不同基本級(jí)別或上位類別的圖像作為異類項(xiàng)。

因此,軟對(duì)齊不僅在聚類過(guò)程中,也在標(biāo)記過(guò)程中,以多種方式嵌入了全局結(jié)構(gòu),從而提高了模型的一致性和類人行為。

研究人員還探討了軟對(duì)齊技術(shù)如何影響模型在機(jī)器學(xué)習(xí)任務(wù)中的泛化能力和面對(duì)未知分布數(shù)據(jù)時(shí)的魯棒性。

為了評(píng)估模型表示的質(zhì)量,首先固定神經(jīng)網(wǎng)絡(luò)模型的權(quán)重,并在這些固定權(quán)重之上訓(xùn)練一個(gè)線性分類器,而不是對(duì)整個(gè)模型進(jìn)行訓(xùn)練或微調(diào),從而可以更直接地評(píng)估模型的內(nèi)部表示,而不受模型其他部分的影響。

研究者們特別關(guān)注了模型在以下三個(gè)方面的表現(xiàn):?jiǎn)未畏诸惾蝿?wù),考驗(yàn)了模型在只有極少量樣本的情況下對(duì)新類別的識(shí)別能力;分布偏移,即模型在面對(duì)與訓(xùn)練數(shù)據(jù)分布不同的數(shù)據(jù)時(shí)的表現(xiàn);以及分布外魯棒性,即模型在面對(duì)完全未知類型的數(shù)據(jù)時(shí)的穩(wěn)定性和魯棒性。

結(jié)果顯示,將人類和神經(jīng)網(wǎng)絡(luò)模型的表示對(duì)齊有助于更好地泛化、轉(zhuǎn)移到新任務(wù)和數(shù)據(jù)上,并增強(qiáng)了模型的魯棒性,即對(duì)齊對(duì)于實(shí)際改善深度學(xué)習(xí)是非常有幫助的。

總之,該工作有助于更好地理解人工與自然智能之間的關(guān)鍵差異,實(shí)驗(yàn)結(jié)果也展示了對(duì)齊模型和人類的原則,即專注于人類知識(shí)的多分辨率關(guān)系結(jié)構(gòu),可能對(duì)于解決實(shí)現(xiàn)類人AI的更一般問(wèn)題至關(guān)重要。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港