當(dāng)前位置：人工智能實(shí)驗(yàn)室> 神經(jīng)網(wǎng)絡(luò) > 類人神經(jīng)網(wǎng)絡(luò)再進(jìn)一步！DeepMind最新50頁(yè)論文提出AligNet框架：用層次化視覺(jué)概念「對(duì)齊」人類

類人神經(jīng)網(wǎng)絡(luò)再進(jìn)一步！DeepMind最新50頁(yè)論文提出AligNet框架：用層次化視覺(jué)概念「對(duì)齊」人類
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-23 10:49:05 瀏覽：1183次

導(dǎo)讀：新智元報(bào)道編輯：LRS 【新智元導(dǎo)讀】 DeepMind最近的研究提出了一種新框架AligNet，通過(guò)模擬人類判斷來(lái)訓(xùn)練教師模型，并將類人結(jié)構(gòu)遷移到預(yù)訓(xùn)練的視覺(jué)基礎(chǔ)模型中，從而提高模型在多種任務(wù)上的表現(xiàn)，增強(qiáng)了模型的泛化性和魯棒性，為實(shí)現(xiàn)更類人的人工智能系統(tǒng)...

新智元報(bào)道

編輯：LRS【新智元導(dǎo)讀】DeepMind最近的研究提出了一種新框架AligNet，通過(guò)模擬人類判斷來(lái)訓(xùn)練教師模型，并將類人結(jié)構(gòu)遷移到預(yù)訓(xùn)練的視覺(jué)基礎(chǔ)模型中，從而提高模型在多種任務(wù)上的表現(xiàn)，增強(qiáng)了模型的泛化性和魯棒性，為實(shí)現(xiàn)更類人的人工智能系統(tǒng)鋪平了道路。

近年來(lái)，深度學(xué)習(xí)在人工智能領(lǐng)域，如自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)方面取得了快速進(jìn)展，但即便是最強(qiáng)大的模型，也經(jīng)常會(huì)在那些，對(duì)于人類說(shuō)非常簡(jiǎn)單的case上折戟。

人類感知對(duì)環(huán)境變化具有魯棒性，并能在不同的視覺(jué)設(shè)置中泛化，相比之下，對(duì)于深度學(xué)習(xí)模型來(lái)說(shuō)，如果訓(xùn)練和測(cè)試數(shù)據(jù)集之間的分布發(fā)生偏移，其性能往往會(huì)急劇下降。

人類在判斷視覺(jué)相似性時(shí)往往能夠很好地校準(zhǔn)自己的判斷，即人類對(duì)某個(gè)問(wèn)題的確定性往往與預(yù)測(cè)準(zhǔn)確率成正比，而AI系統(tǒng)則過(guò)于自信，即使在預(yù)測(cè)錯(cuò)誤時(shí)也表現(xiàn)出高度的確定性。

所以說(shuō)，在真正實(shí)現(xiàn)通用人工智能之前，深度學(xué)習(xí)模型和人類之間仍然存在諸多差異需要調(diào)和、對(duì)齊。

值得思考的是，神經(jīng)網(wǎng)絡(luò)訓(xùn)練和人類學(xué)習(xí)在根本上有所不同，其無(wú)法像人類一樣穩(wěn)健地泛化，是否是因?yàn)槠涞讓颖碚鞯南嗨菩缘膯?wèn)題？現(xiàn)代學(xué)習(xí)系統(tǒng)要表現(xiàn)出更像人類的行為，還缺少什么？深度學(xué)習(xí)模型在概念層次結(jié)構(gòu)的各個(gè)層次上缺乏這種全局組織，是否可能導(dǎo)致了這些模型的前述弱點(diǎn)？

最近，DeepMind等機(jī)構(gòu)的研究人員聯(lián)合發(fā)布了一篇長(zhǎng)達(dá)50頁(yè)的論文，提出了一個(gè)可能導(dǎo)致AI模型與人類表現(xiàn)存在差異的原因：人類概念知識(shí)是從精細(xì)到粗尺度進(jìn)行分層組織的，而深度學(xué)習(xí)模型表征無(wú)法捕捉到人類感知的多層次概念結(jié)構(gòu)。

雖然說(shuō)模型表征在一定程度上可以對(duì)局部視覺(jué)和語(yǔ)義特征（例如，不同犬種的紋理或顏色）進(jìn)行編碼，共享實(shí)體之間的人類感知相似性結(jié)構(gòu)，但對(duì)于在視覺(jué)和語(yǔ)義上更為不同的概念之間的全局關(guān)系（例如，狗和魚(yú)都是有生命的，但在視覺(jué)上根本不相似）的建模則遠(yuǎn)沒(méi)有那么系統(tǒng)化。

然而，人類的神經(jīng)表示是由全局特征（如生命性）組織起來(lái)的，并且在多個(gè)更細(xì)的尺度上捕捉微妙的語(yǔ)義關(guān)系。

為了解決這種不一致問(wèn)題，研究人員提出了一個(gè)新的框架，通過(guò)模擬大量類似人類的相似性判斷數(shù)據(jù)集，來(lái)提高模型與人類的對(duì)齊度。

首先訓(xùn)練一個(gè)教師模型來(lái)模仿人類的判斷，然后將這種類人的結(jié)構(gòu)（human-link structure）表征遷移到預(yù)訓(xùn)練后的視覺(jué)基礎(chǔ)模型中，從而使這些與人類對(duì)齊的模型在包括一個(gè)新的跨越多個(gè)語(yǔ)義抽象層次的人類判斷數(shù)據(jù)集在內(nèi)的一系列相似性任務(wù)中，更準(zhǔn)確地近似人類的行為和不確定性。

結(jié)果顯示，該模型在各種機(jī)器學(xué)習(xí)任務(wù)上表現(xiàn)更好，提高了泛化性和分布外的魯棒性，此外，將額外的人類知識(shí)注入神經(jīng)網(wǎng)絡(luò)后，學(xué)習(xí)到的表征更符合人類認(rèn)知，也更實(shí)用，為更強(qiáng)大、可解釋和類人的AI系統(tǒng)鋪平了道路。

此外，文中還提供了一套開(kāi)源的視覺(jué)模型，通過(guò)軟對(duì)齊編碼了分層的人類知識(shí)，其普遍意義在于使科學(xué)、醫(yī)學(xué)和工業(yè)能夠使用更類人和魯棒的視覺(jué)模型進(jìn)行下游應(yīng)用，任何研究人員或從業(yè)者都可以無(wú)限制地使用。

總的來(lái)說(shuō)，這項(xiàng)工作不僅有助于更好地理解人工智能與人類智能之間的主要差異，而且還提出了一種可能對(duì)實(shí)現(xiàn)類似人類智能的人工智能至關(guān)重要的原則，即關(guān)注人類知識(shí)中的多分辨率關(guān)系結(jié)構(gòu)。

AligNet框架

研究人員首先使用仿射變換來(lái)對(duì)齊神經(jīng)網(wǎng)絡(luò)模型表示與人類在三元組異類任務(wù)中的語(yǔ)義判斷，利用THINGS數(shù)據(jù)集開(kāi)發(fā)了一個(gè)人類判斷的教師模型；

與此同時(shí)，通過(guò)保持模型的局部表征結(jié)構(gòu)來(lái)規(guī)范對(duì)齊過(guò)程，并額外利用人類恢復(fù)的不確定性度量來(lái)改善模型校準(zhǔn)。

然后將該模型應(yīng)用于ImageNet，將其潛在表示聚類到語(yǔ)義上有意義的類別，從而能夠生成大量的語(yǔ)義相似性三元組，研究人員將該數(shù)據(jù)集稱為AligNet。

為了將這種精心構(gòu)造的類人相似性結(jié)構(gòu)信息遷移到預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)基礎(chǔ)模型中，研究人員引入了一種基于Kullback-Leibler散度的新目標(biāo)函數(shù)，將語(yǔ)義信息蒸餾到一個(gè)學(xué)生視覺(jué)基礎(chǔ)模型（VFM）中。

實(shí)驗(yàn)結(jié)果

為了驗(yàn)證AligNet框架的有效性，即是否有助于提高模型與人類之間的對(duì)齊度，研究人員驗(yàn)證了模型在THINGS三元組異類（triplet odd-one-out ）數(shù)據(jù)上的表現(xiàn)接近人類噪聲上限的66.67%。在對(duì)教師模型表示應(yīng)用不確定性蒸餾優(yōu)化后，可以觀察到在THINGS數(shù)據(jù)中的所有三元組中，三元組異類響應(yīng)與人類響應(yīng)的一致性達(dá)到了61.7%

此外，研究人員還發(fā)現(xiàn)，在模型生成的三元組異類響應(yīng)數(shù)據(jù)上微調(diào)視覺(jué)基礎(chǔ)模型后，所有模型的表現(xiàn)都有了顯著的提升，無(wú)論預(yù)訓(xùn)練任務(wù)和用于訓(xùn)練基礎(chǔ)模型的目標(biāo)函數(shù)是什么，或是其他認(rèn)知相似性任務(wù)和相似性度量方式，軟對(duì)齊技術(shù)都能夠提高模型在特定任務(wù)上的表現(xiàn)，使模型的行為更加接近人類的思維方式。

為了驗(yàn)證軟對(duì)齊技術(shù)是否能夠使模型的內(nèi)部表示更好地反映人類概念知識(shí)的層次結(jié)構(gòu)，研究人員利用眾包方式收集了一個(gè)全新的人類語(yǔ)義判斷評(píng)估數(shù)據(jù)集Levels，設(shè)計(jì)了三種不同難度級(jí)別的三元組異類任務(wù)，包括需要在大類別間判斷異類的全局粗粒度語(yǔ)義任務(wù)，需要在相同類別內(nèi)識(shí)別微妙差異的局部細(xì)粒度語(yǔ)義任務(wù)，以及測(cè)試識(shí)別不同類別邊界的能力的類別邊界任務(wù)。

實(shí)驗(yàn)結(jié)果正如預(yù)期，研究人員發(fā)現(xiàn)模型在預(yù)測(cè)涉及視覺(jué)或語(yǔ)義重疊較少的實(shí)體之間關(guān)系（即更抽象的）時(shí)表現(xiàn)最差。

軟對(duì)齊技術(shù)也能顯著改變了模型的內(nèi)部表示，使其在對(duì)齊后更加相似，更好地反映了人類對(duì)語(yǔ)義類別層次結(jié)構(gòu)的理解。

這種變化的原因在于兩個(gè)主要因素：首先，模型在對(duì)齊過(guò)程中生成的標(biāo)簽更貼近人類的判斷和不確定性，尤其是在處理更抽象的類別層次時(shí)；其次，用于生成三元組的聚類過(guò)程也考慮了這種層次結(jié)構(gòu)，傾向于將來(lái)自相同下位或基本級(jí)別類別的圖像配對(duì)，而將來(lái)自不同基本級(jí)別或上位類別的圖像作為異類項(xiàng)。

因此，軟對(duì)齊不僅在聚類過(guò)程中，也在標(biāo)記過(guò)程中，以多種方式嵌入了全局結(jié)構(gòu)，從而提高了模型的一致性和類人行為。

研究人員還探討了軟對(duì)齊技術(shù)如何影響模型在機(jī)器學(xué)習(xí)任務(wù)中的泛化能力和面對(duì)未知分布數(shù)據(jù)時(shí)的魯棒性。

為了評(píng)估模型表示的質(zhì)量，首先固定神經(jīng)網(wǎng)絡(luò)模型的權(quán)重，并在這些固定權(quán)重之上訓(xùn)練一個(gè)線性分類器，而不是對(duì)整個(gè)模型進(jìn)行訓(xùn)練或微調(diào)，從而可以更直接地評(píng)估模型的內(nèi)部表示，而不受模型其他部分的影響。

研究者們特別關(guān)注了模型在以下三個(gè)方面的表現(xiàn)：?jiǎn)未畏诸惾蝿?wù)，考驗(yàn)了模型在只有極少量樣本的情況下對(duì)新類別的識(shí)別能力；分布偏移，即模型在面對(duì)與訓(xùn)練數(shù)據(jù)分布不同的數(shù)據(jù)時(shí)的表現(xiàn)；以及分布外魯棒性，即模型在面對(duì)完全未知類型的數(shù)據(jù)時(shí)的穩(wěn)定性和魯棒性。

結(jié)果顯示，將人類和神經(jīng)網(wǎng)絡(luò)模型的表示對(duì)齊有助于更好地泛化、轉(zhuǎn)移到新任務(wù)和數(shù)據(jù)上，并增強(qiáng)了模型的魯棒性，即對(duì)齊對(duì)于實(shí)際改善深度學(xué)習(xí)是非常有幫助的。

總之，該工作有助于更好地理解人工與自然智能之間的關(guān)鍵差異，實(shí)驗(yàn)結(jié)果也展示了對(duì)齊模型和人類的原則，即專注于人類知識(shí)的多分辨率關(guān)系結(jié)構(gòu)，可能對(duì)于解決實(shí)現(xiàn)類人AI的更一般問(wèn)題至關(guān)重要。