當(dāng)前位置：人工智能實(shí)驗(yàn)室> 企業(yè)新聞 > 【AAAI 2024】再創(chuàng)佳績(jī)！阿里云人工智能平臺(tái)PAI多篇論文入選

【AAAI 2024】再創(chuàng)佳績(jī)！阿里云人工智能平臺(tái)PAI多篇論文入選
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-03-13 09:15:08 瀏覽：13669次

導(dǎo)讀：近期，阿里云人工智能平臺(tái)PAI發(fā)表的多篇論文在AAAI-2024上正式亮相發(fā)表。AAAI（AAAI Conference on Artificial Intelligence）是由國(guó)際人工智能促進(jìn)協(xié)會(huì)主辦的年會(huì)，是人工智能領(lǐng)域中歷史最悠久、涵蓋內(nèi)容最廣泛的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議之一，也是中國(guó)計(jì)算機(jī)學(xué)會(huì)...

近期，阿里云人工智能平臺(tái)PAI發(fā)表的多篇論文在AAAI-2024上正式亮相發(fā)表。AAAI（AAAI Conference on Artificial Intelligence）是由國(guó)際人工智能促進(jìn)協(xié)會(huì)主辦的年會(huì)，是人工智能領(lǐng)域中歷史最悠久、涵蓋內(nèi)容最廣泛的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議之一，也是中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）推薦的A類國(guó)際學(xué)術(shù)會(huì)議。會(huì)議一直是人工智能界的研究風(fēng)向標(biāo)，在學(xué)術(shù)界久負(fù)盛名。

論文成果是阿里云與浙江大學(xué)、華南理工大學(xué)聯(lián)合培養(yǎng)項(xiàng)目等共同研發(fā)，深耕以通用人工智能（AGI）為目標(biāo)的一系列基礎(chǔ)科學(xué)與工程問(wèn)題，包括多模態(tài)理解模型、小樣本類增量學(xué)習(xí)、深度表格學(xué)習(xí)和文檔版面分析任務(wù)等等。此次入選意味著阿里云人工智能平臺(tái)PAI自研的深度學(xué)習(xí)算法達(dá)到了全球業(yè)界先進(jìn)水平，獲得了國(guó)際學(xué)者的認(rèn)可，展現(xiàn)了阿里云人工智能技術(shù)創(chuàng)新在國(guó)際上的競(jìng)爭(zhēng)力。

解鎖深度表格學(xué)習(xí)（Deep Tabular Learning）的關(guān)鍵：算術(shù)特征交互

本文聚焦于研究深度模型在表格數(shù)據(jù)上的有效歸納偏置（inductive bias）。結(jié)構(gòu)化表格數(shù)據(jù)廣泛存在于各行業(yè)數(shù)據(jù)庫(kù)和金融、營(yíng)銷、推薦系統(tǒng)等場(chǎng)景。這類數(shù)據(jù)包含數(shù)值和類別特征，常有缺失值、噪聲及類別不均衡等問(wèn)題，且缺乏時(shí)序性、局部性等對(duì)模型有益的先驗(yàn)信息，帶來(lái)顯著分析挑戰(zhàn)。樹(shù)集成方法（如XGBoost、LightGBM、CatBoost）憑借對(duì)數(shù)據(jù)質(zhì)量問(wèn)題的魯棒性，在工業(yè)界的實(shí)際建模中占主導(dǎo)地位，但其性能很大程度上仍依賴于精心設(shè)計(jì)的特征工程處理。

學(xué)者們積極嘗試將深度學(xué)習(xí)應(yīng)用于端到端的表格數(shù)據(jù)分析，旨在減少對(duì)特征工程的依賴。現(xiàn)有相關(guān)工作包括：（1）結(jié)合傳統(tǒng)建模方法并疊加深度學(xué)習(xí)模塊（如多層感知機(jī)MLP）的方法，如Wide&Deep、DeepFMs；（2）采用深度學(xué)習(xí)對(duì)形狀函數(shù)進(jìn)行建模的廣義加性模型變體，如NAM、NBM、SIAN；（3）受樹(shù)結(jié)構(gòu)啟發(fā)的深度模型，如NODE、Net-DNF；（4）基于Transformer架構(gòu)的模型，如AutoInt、DCAP、FT-Transformer。盡管上述努力不斷推進(jìn)，深度學(xué)習(xí)在表格數(shù)據(jù)上相較于樹(shù)模型并未展現(xiàn)出持續(xù)且顯著的優(yōu)勢(shì)，其有效性問(wèn)題懸而未決。

我們提出，算術(shù)特征交互對(duì)于深度表格學(xué)習(xí)至關(guān)重要的理論。當(dāng)前深度表格學(xué)習(xí)方法效果欠佳的核心癥結(jié)在于未能發(fā)掘出有效的內(nèi)在模型偏置。我們創(chuàng)新性地將算術(shù)特征交互理念融入Transformer架構(gòu)內(nèi)，通過(guò)引入并行注意力機(jī)制和提示標(biāo)記的設(shè)計(jì)創(chuàng)建AMFormer架構(gòu)。合成數(shù)據(jù)的結(jié)果展示了該模型在在精細(xì)表格數(shù)據(jù)建模、訓(xùn)練數(shù)據(jù)效率以及泛化方面的卓越能力。此外，進(jìn)一步在真實(shí)世界數(shù)據(jù)集上開(kāi)展的大規(guī)模實(shí)驗(yàn)，也驗(yàn)證了AMFormer的一致有效性和優(yōu)越性。因此，我們相信，AMFormer為深度表格學(xué)習(xí)設(shè)定了強(qiáng)有力的歸納偏置，有望推動(dòng)該領(lǐng)域的深入發(fā)展。

MuLTI：高效視頻與語(yǔ)言理解

多模態(tài)理解模型在多標(biāo)簽分類、視頻問(wèn)答和文本視頻檢索等領(lǐng)域應(yīng)用廣泛，但多模態(tài)理解面臨兩大挑戰(zhàn)：無(wú)法有效地利用多模態(tài)特征與GPU內(nèi)存消耗大。模型通常由文本編碼器、視頻編碼器及特征融合模塊構(gòu)成，其中后兩者計(jì)算成本較高。以往方法如VIOLET和Clover直接連接兩編碼器輸出并通過(guò)Transformer融合，導(dǎo)致顯存消耗隨輸入增長(zhǎng)急劇上升。為降低計(jì)算負(fù)擔(dān)，ALPRO、FrozenBiLM、CLIPBert等研究嘗試通過(guò)壓縮視頻特征，但這可能丟失關(guān)鍵信息。

我們提出了MuLTI模型，旨在實(shí)現(xiàn)高效準(zhǔn)確的視頻與語(yǔ)言理解，用于解決特征融合的難題。MuLTI采用自適應(yīng)池殘差映射和自注意機(jī)制設(shè)計(jì)了文本指導(dǎo)的多路采樣器（Text-Guided MultiWay-Sampler），對(duì)文本的長(zhǎng)序列進(jìn)行采樣并融合多模態(tài)特征，有效降低了計(jì)算成本且避免了壓縮視頻導(dǎo)致的性能下降。此外，為了進(jìn)一步降低預(yù)訓(xùn)練任務(wù)和下游任務(wù)之間的差距，我們創(chuàng)新性地構(gòu)建文本視頻問(wèn)答對(duì)引入了多選建模（Multiple Choice Modeling，MCM）預(yù)訓(xùn)練任務(wù)，以提升模型在視頻問(wèn)答中對(duì)齊視頻與文本特征的能力。

最終，憑借高效的特征融合模塊和新的預(yù)訓(xùn)練任務(wù)，MuLTI在多個(gè)數(shù)據(jù)集上取得了最先進(jìn)的性能表現(xiàn)。

M2SD：多重混合自蒸餾用于小樣本類增量學(xué)習(xí)

小樣本類增量學(xué)習(xí)（Few-shot Class Incremental Learning, FSCIL）是機(jī)器學(xué)習(xí)領(lǐng)域中一項(xiàng)極具挑戰(zhàn)的任務(wù)，目標(biāo)在于僅利用有限數(shù)據(jù)學(xué)習(xí)新類別，同時(shí)保留對(duì)已學(xué)類別的記憶，無(wú)需重新訓(xùn)練模型。針對(duì)此難題，本文提出了一種創(chuàng)新策略，稱為多重混合自蒸餾（Multiple Mixing Self-Distillation, M2SD）。該策略設(shè)計(jì)了雙分支結(jié)構(gòu)以有效擴(kuò)展特征空間接納新類別，并引入特征增強(qiáng)機(jī)制通過(guò)自蒸餾過(guò)程優(yōu)化基礎(chǔ)網(wǎng)絡(luò)，從而在學(xué)習(xí)新類別時(shí)顯著提升分類性能，最終僅保留主干網(wǎng)絡(luò)進(jìn)行高效識(shí)別。

FSCIL任務(wù)的關(guān)鍵挑戰(zhàn)在于如何平衡小樣本學(xué)習(xí)的過(guò)擬合和類增量學(xué)習(xí)的災(zāi)難性遺忘。為解決這一問(wèn)題，我們提出一種創(chuàng)新的方法多重混合自蒸餾（M2SD），旨在構(gòu)建一個(gè)能適應(yīng)新類別的高可擴(kuò)展性特征空間。通過(guò)多尺度特征提取與融合技術(shù)，M2SD全面捕獲數(shù)據(jù)實(shí)例的多維度信息，增強(qiáng)了模型的包容性。此外，我們創(chuàng)新性地采用雙分支“虛擬類”機(jī)制，進(jìn)一步提高特征模塊的擴(kuò)展能力，使得模型能夠預(yù)適應(yīng)未來(lái)新增類別并為其預(yù)留特征空間，從而強(qiáng)化模型對(duì)新類別的適應(yīng)性和類增量學(xué)習(xí)的穩(wěn)健性與靈活性。

方法框架分為兩個(gè)主要部分：Base session和Incremental sessions。Base session分為兩個(gè)階段。一個(gè)是通用模型預(yù)訓(xùn)練階段（General model pre-trainining），另一個(gè)是M2SD階段，由兩個(gè)自蒸餾模塊組成。Incremental sessions只有一個(gè)階段，即分類器更新（Classifter updating）。

M2Doc：文檔版面分析的可插拔多模態(tài)融合方法

文檔版面分析是文檔智能研究的核心課題，但現(xiàn)有眾多方法主要依賴通用目標(biāo)檢測(cè)技術(shù)，其在處理過(guò)程中僅側(cè)重于視覺(jué)特征表達(dá)，而對(duì)文本特征的內(nèi)在價(jià)值關(guān)注不足。近年來(lái)，盡管多模態(tài)的預(yù)訓(xùn)練文檔智能模型在多種下游任務(wù)中展現(xiàn)出卓越性能，但在處理文檔版面分析這一特定的下游任務(wù)時(shí)，只局限于將多模態(tài)預(yù)訓(xùn)練好的主干網(wǎng)絡(luò)遷移至純視覺(jué)目標(biāo)檢測(cè)器進(jìn)行微調(diào)，從本質(zhì)上來(lái)說(shuō)依然是個(gè)單模態(tài)的解決范式。

為此，本文創(chuàng)新性地提出了一種可插拔的多模態(tài)融合方案M2Doc，旨在賦能純視覺(jué)目標(biāo)檢測(cè)器以捕獲并融合多模態(tài)信息的能力。M2Doc框架內(nèi)嵌了兩個(gè)關(guān)鍵融合模塊：Early-Fusion與Late-Fusion。前者采用類似門控機(jī)制的設(shè)計(jì)，巧妙融合主干網(wǎng)絡(luò)提取出的視覺(jué)和文本兩種模態(tài)特征；后者則運(yùn)用直接加和運(yùn)算策略，有效融合了框級(jí)的文本及視覺(jué)特征。

得益于M2Doc簡(jiǎn)潔高效且具有普適性的模型結(jié)構(gòu)設(shè)計(jì)，它能夠便捷地適應(yīng)多種目標(biāo)檢測(cè)器架構(gòu)。實(shí)驗(yàn)結(jié)果證實(shí)，在DocLayNet與M6Doc等版面分析基準(zhǔn)數(shù)據(jù)集上，融入M2Doc的目標(biāo)檢測(cè)器實(shí)現(xiàn)了顯著性能提升。并且，當(dāng)DINO目標(biāo)檢測(cè)器與M2Doc相結(jié)合時(shí)，在多個(gè)數(shù)據(jù)集上均達(dá)到了當(dāng)前最優(yōu)（SOTA）水平。

阿里云人工智能平臺(tái) PAI 多篇論文入選 AAAI 2024

●論文標(biāo)題：

Arithmetic Feature Interaction is Necessary for Deep Tabular Learning

●論文作者：

程奕、胡仁君、應(yīng)豪超、施興、吳艦林偉

●論文PDF鏈接：

https://arxiv.org/abs/2402.02334

● 代碼鏈接：

https://github.com/aigc-apps/AMFormer

●論文標(biāo)題：

MuLTI: Efficient Video-and-Language Understanding

●論文作者：

劉波、陳云闊、程孟力、徐家琪、施興

●論文PDF鏈接：

https://arxiv.org/abs/2303.05707

● 論文標(biāo)題：

M2SD: Multiple Mixing Self-Distillation for Few-Shot Class-Incremental Learning

● 論文作者：

林今豪、吳梓恒、林煒豐、黃竣羅榮華

● 論文標(biāo)題：

M2Doc: A Multi-modal Fusion Approach for Document Layout Analysis

● 論文作者：

張寧、鄭曉怡、陳佳禹、江宗源、黃竣薛洋、金連文

向作者提問(wèn)

相關(guān)熱詞： AAAI 2024 再創(chuàng) 佳績(jī) 阿里人工智能平臺(tái) PAI

上一篇：消息稱蘋果正測(cè)試基于 AI 的廣告平臺(tái)

下一篇：科技行業(yè)新篇章：無(wú)損檢測(cè)技術(shù)的應(yīng)用及其革新力量

AiLab云推薦

【AAAI 2024】再創(chuàng)佳績(jī)！阿里云人工智能平臺(tái)PAI多篇論文入選
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-03-13 09:15:08 瀏覽：13669次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

【AAAI 2024】再創(chuàng)佳績(jī)！阿里云人工智能平臺(tái)PAI多篇論文入選 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-03-13 09:15:08 瀏覽：13669次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

【AAAI 2024】再創(chuàng)佳績(jī)！阿里云人工智能平臺(tái)PAI多篇論文入選
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-03-13 09:15:08 瀏覽：13669次