展會(huì)信息港展會(huì)大全

【AAAI 2024】再創(chuàng)佳績(jī)!阿里云人工智能平臺(tái)PAI多篇論文入選
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-03-13 09:15:08   瀏覽:13669次  

導(dǎo)讀:近期,阿里云人工智能平臺(tái)PAI發(fā)表的多篇論文在AAAI-2024上正式亮相發(fā)表。AAAI(AAAI Conference on Artificial Intelligence)是由國(guó)際人工智能促進(jìn)協(xié)會(huì)主辦的年會(huì),是人工智能領(lǐng)域中歷史最悠久、涵蓋內(nèi)容最廣泛的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議之一,也是中國(guó)計(jì)算機(jī)學(xué)會(huì)...

近期,阿里云人工智能平臺(tái)PAI發(fā)表的多篇論文在AAAI-2024上正式亮相發(fā)表。AAAI(AAAI Conference on Artificial Intelligence)是由國(guó)際人工智能促進(jìn)協(xié)會(huì)主辦的年會(huì),是人工智能領(lǐng)域中歷史最悠久、涵蓋內(nèi)容最廣泛的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議之一,也是中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)推薦的A類國(guó)際學(xué)術(shù)會(huì)議。會(huì)議一直是人工智能界的研究風(fēng)向標(biāo),在學(xué)術(shù)界久負(fù)盛名。

論文成果是阿里云與浙江大學(xué)、華南理工大學(xué)聯(lián)合培養(yǎng)項(xiàng)目等共同研發(fā),深耕以通用人工智能(AGI)為目標(biāo)的一系列基礎(chǔ)科學(xué)與工程問(wèn)題,包括多模態(tài)理解模型、小樣本類增量學(xué)習(xí)、深度表格學(xué)習(xí)和文檔版面分析任務(wù)等等。此次入選意味著阿里云人工智能平臺(tái)PAI自研的深度學(xué)習(xí)算法達(dá)到了全球業(yè)界先進(jìn)水平,獲得了國(guó)際學(xué)者的認(rèn)可,展現(xiàn)了阿里云人工智能技術(shù)創(chuàng)新在國(guó)際上的競(jìng)爭(zhēng)力。

解鎖深度表格學(xué)習(xí)(Deep Tabular Learning)的關(guān)鍵:算術(shù)特征交互

本文聚焦于研究深度模型在表格數(shù)據(jù)上的有效歸納偏置(inductive bias)。結(jié)構(gòu)化表格數(shù)據(jù)廣泛存在于各行業(yè)數(shù)據(jù)庫(kù)和金融、營(yíng)銷、推薦系統(tǒng)等場(chǎng)景。這類數(shù)據(jù)包含數(shù)值和類別特征,常有缺失值、噪聲及類別不均衡等問(wèn)題,且缺乏時(shí)序性、局部性等對(duì)模型有益的先驗(yàn)信息,帶來(lái)顯著分析挑戰(zhàn)。樹(shù)集成方法(如XGBoost、LightGBM、CatBoost)憑借對(duì)數(shù)據(jù)質(zhì)量問(wèn)題的魯棒性,在工業(yè)界的實(shí)際建模中占主導(dǎo)地位,但其性能很大程度上仍依賴于精心設(shè)計(jì)的特征工程處理。

學(xué)者們積極嘗試將深度學(xué)習(xí)應(yīng)用于端到端的表格數(shù)據(jù)分析,旨在減少對(duì)特征工程的依賴。現(xiàn)有相關(guān)工作包括:(1)結(jié)合傳統(tǒng)建模方法并疊加深度學(xué)習(xí)模塊(如多層感知機(jī)MLP)的方法,如Wide&Deep、DeepFMs;(2)采用深度學(xué)習(xí)對(duì)形狀函數(shù)進(jìn)行建模的廣義加性模型變體,如NAM、NBM、SIAN;(3)受樹(shù)結(jié)構(gòu)啟發(fā)的深度模型,如NODE、Net-DNF;(4)基于Transformer架構(gòu)的模型,如AutoInt、DCAP、FT-Transformer。盡管上述努力不斷推進(jìn),深度學(xué)習(xí)在表格數(shù)據(jù)上相較于樹(shù)模型并未展現(xiàn)出持續(xù)且顯著的優(yōu)勢(shì),其有效性問(wèn)題懸而未決。

我們提出,算術(shù)特征交互對(duì)于深度表格學(xué)習(xí)至關(guān)重要的理論。當(dāng)前深度表格學(xué)習(xí)方法效果欠佳的核心癥結(jié)在于未能發(fā)掘出有效的內(nèi)在模型偏置。我們創(chuàng)新性地將算術(shù)特征交互理念融入Transformer架構(gòu)內(nèi),通過(guò)引入并行注意力機(jī)制和提示標(biāo)記的設(shè)計(jì)創(chuàng)建AMFormer架構(gòu)。合成數(shù)據(jù)的結(jié)果展示了該模型在在精細(xì)表格數(shù)據(jù)建模、訓(xùn)練數(shù)據(jù)效率以及泛化方面的卓越能力。此外,進(jìn)一步在真實(shí)世界數(shù)據(jù)集上開(kāi)展的大規(guī)模實(shí)驗(yàn),也驗(yàn)證了AMFormer的一致有效性和優(yōu)越性。因此,我們相信,AMFormer為深度表格學(xué)習(xí)設(shè)定了強(qiáng)有力的歸納偏置,有望推動(dòng)該領(lǐng)域的深入發(fā)展。

 

MuLTI:高效視頻與語(yǔ)言理解

多模態(tài)理解模型在多標(biāo)簽分類、視頻問(wèn)答和文本視頻檢索等領(lǐng)域應(yīng)用廣泛,但多模態(tài)理解面臨兩大挑戰(zhàn):無(wú)法有效地利用多模態(tài)特征與GPU內(nèi)存消耗大。模型通常由文本編碼器、視頻編碼器及特征融合模塊構(gòu)成,其中后兩者計(jì)算成本較高。以往方法如VIOLET和Clover直接連接兩編碼器輸出并通過(guò)Transformer融合,導(dǎo)致顯存消耗隨輸入增長(zhǎng)急劇上升。為降低計(jì)算負(fù)擔(dān),ALPRO、FrozenBiLM、CLIPBert等研究嘗試通過(guò)壓縮視頻特征,但這可能丟失關(guān)鍵信息。

我們提出了MuLTI模型,旨在實(shí)現(xiàn)高效準(zhǔn)確的視頻與語(yǔ)言理解,用于解決特征融合的難題。MuLTI采用自適應(yīng)池殘差映射和自注意機(jī)制設(shè)計(jì)了文本指導(dǎo)的多路采樣器(Text-Guided MultiWay-Sampler),對(duì)文本的長(zhǎng)序列進(jìn)行采樣并融合多模態(tài)特征,有效降低了計(jì)算成本且避免了壓縮視頻導(dǎo)致的性能下降。此外,為了進(jìn)一步降低預(yù)訓(xùn)練任務(wù)和下游任務(wù)之間的差距,我們創(chuàng)新性地構(gòu)建文本視頻問(wèn)答對(duì)引入了多選建模(Multiple Choice Modeling,MCM)預(yù)訓(xùn)練任務(wù),以提升模型在視頻問(wèn)答中對(duì)齊視頻與文本特征的能力。

最終,憑借高效的特征融合模塊和新的預(yù)訓(xùn)練任務(wù),MuLTI在多個(gè)數(shù)據(jù)集上取得了最先進(jìn)的性能表現(xiàn)。

M2SD:多重混合自蒸餾用于小樣本類增量學(xué)習(xí)

小樣本類增量學(xué)習(xí)(Few-shot Class Incremental Learning, FSCIL)是機(jī)器學(xué)習(xí)領(lǐng)域中一項(xiàng)極具挑戰(zhàn)的任務(wù),目標(biāo)在于僅利用有限數(shù)據(jù)學(xué)習(xí)新類別,同時(shí)保留對(duì)已學(xué)類別的記憶,無(wú)需重新訓(xùn)練模型。針對(duì)此難題,本文提出了一種創(chuàng)新策略,稱為多重混合自蒸餾(Multiple Mixing Self-Distillation, M2SD)。該策略設(shè)計(jì)了雙分支結(jié)構(gòu)以有效擴(kuò)展特征空間接納新類別,并引入特征增強(qiáng)機(jī)制通過(guò)自蒸餾過(guò)程優(yōu)化基礎(chǔ)網(wǎng)絡(luò),從而在學(xué)習(xí)新類別時(shí)顯著提升分類性能,最終僅保留主干網(wǎng)絡(luò)進(jìn)行高效識(shí)別。

FSCIL任務(wù)的關(guān)鍵挑戰(zhàn)在于如何平衡小樣本學(xué)習(xí)的過(guò)擬合和類增量學(xué)習(xí)的災(zāi)難性遺忘。為解決這一問(wèn)題,我們提出一種創(chuàng)新的方法多重混合自蒸餾(M2SD),旨在構(gòu)建一個(gè)能適應(yīng)新類別的高可擴(kuò)展性特征空間。通過(guò)多尺度特征提取與融合技術(shù),M2SD全面捕獲數(shù)據(jù)實(shí)例的多維度信息,增強(qiáng)了模型的包容性。此外,我們創(chuàng)新性地采用雙分支“虛擬類”機(jī)制,進(jìn)一步提高特征模塊的擴(kuò)展能力,使得模型能夠預(yù)適應(yīng)未來(lái)新增類別并為其預(yù)留特征空間,從而強(qiáng)化模型對(duì)新類別的適應(yīng)性和類增量學(xué)習(xí)的穩(wěn)健性與靈活性。

方法框架分為兩個(gè)主要部分:Base session和Incremental sessions。Base session分為兩個(gè)階段。一個(gè)是通用模型預(yù)訓(xùn)練階段(General model pre-trainining),另一個(gè)是M2SD階段,由兩個(gè)自蒸餾模塊組成。Incremental sessions只有一個(gè)階段,即分類器更新(Classifter updating)。

M2Doc:文檔版面分析的可插拔多模態(tài)融合方法

文檔版面分析是文檔智能研究的核心課題,但現(xiàn)有眾多方法主要依賴通用目標(biāo)檢測(cè)技術(shù),其在處理過(guò)程中僅側(cè)重于視覺(jué)特征表達(dá),而對(duì)文本特征的內(nèi)在價(jià)值關(guān)注不足。近年來(lái),盡管多模態(tài)的預(yù)訓(xùn)練文檔智能模型在多種下游任務(wù)中展現(xiàn)出卓越性能,但在處理文檔版面分析這一特定的下游任務(wù)時(shí),只局限于將多模態(tài)預(yù)訓(xùn)練好的主干網(wǎng)絡(luò)遷移至純視覺(jué)目標(biāo)檢測(cè)器進(jìn)行微調(diào),從本質(zhì)上來(lái)說(shuō)依然是個(gè)單模態(tài)的解決范式。

為此,本文創(chuàng)新性地提出了一種可插拔的多模態(tài)融合方案M2Doc,旨在賦能純視覺(jué)目標(biāo)檢測(cè)器以捕獲并融合多模態(tài)信息的能力。M2Doc框架內(nèi)嵌了兩個(gè)關(guān)鍵融合模塊:Early-Fusion與Late-Fusion。前者采用類似門控機(jī)制的設(shè)計(jì),巧妙融合主干網(wǎng)絡(luò)提取出的視覺(jué)和文本兩種模態(tài)特征;后者則運(yùn)用直接加和運(yùn)算策略,有效融合了框級(jí)的文本及視覺(jué)特征。

得益于M2Doc簡(jiǎn)潔高效且具有普適性的模型結(jié)構(gòu)設(shè)計(jì),它能夠便捷地適應(yīng)多種目標(biāo)檢測(cè)器架構(gòu)。實(shí)驗(yàn)結(jié)果證實(shí),在DocLayNet與M6Doc等版面分析基準(zhǔn)數(shù)據(jù)集上,融入M2Doc的目標(biāo)檢測(cè)器實(shí)現(xiàn)了顯著性能提升。并且,當(dāng)DINO目標(biāo)檢測(cè)器與M2Doc相結(jié)合時(shí),在多個(gè)數(shù)據(jù)集上均達(dá)到了當(dāng)前最優(yōu)(SOTA)水平。

阿里云人工智能平臺(tái) PAI 多篇論文入選 AAAI 2024

論文標(biāo)題:

Arithmetic Feature Interaction is Necessary for Deep Tabular Learning

論文作者:

程奕、胡仁君、應(yīng)豪超、施興、吳艦林偉

論文PDF鏈接:

https://arxiv.org/abs/2402.02334

代碼鏈接:

https://github.com/aigc-apps/AMFormer

論文標(biāo)題:

MuLTI: Efficient Video-and-Language Understanding

論文作者:

劉波、陳云闊、程孟力、徐家琪、施興

論文PDF鏈接

https://arxiv.org/abs/2303.05707

論文標(biāo)題:

M2SD: Multiple Mixing Self-Distillation for Few-Shot Class-Incremental Learning

論文作者:

林今豪、吳梓恒、林煒豐、黃竣羅榮華

論文標(biāo)題:

M2Doc: A Multi-modal Fusion Approach for Document Layout Analysis

論文作者:

張寧、鄭曉怡、陳佳禹、江宗源、黃竣薛洋、金連文

向作者提問(wèn)

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港