展會信息港展會大全

【EMNLP2024】阿里云人工智能平臺PAI多篇論文入選EMNLP2024
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-11-07 09:26:47   瀏覽:57次  

導(dǎo)讀:近期,阿里云人工智能平臺 AI 的多篇論文在 EMNLP2024 上入選。論文成果是阿里云與華南理工大學(xué)金連文教授團(tuán)隊、復(fù)旦大學(xué)王鵬教授團(tuán)隊共同研發(fā)。EMNLP 是人工智能自然語言處理領(lǐng)域的頂級國際會議,聚焦于自然語言處理技術(shù)在各個應(yīng)用場景的學(xué)術(shù)研究,尤其重視自然語言處理的實(shí)證研究。該會議曾推動了預(yù)訓(xùn)練語言模型、文本挖掘、對話系統(tǒng)、機(jī)器翻譯等自然語言處理領(lǐng)域的核 ......

近期,阿里云人工智能平臺 PAI 的多篇論文在 EMNLP2024 上入選。論文成果是阿里云與華南理工大學(xué)金連文教授團(tuán)隊、復(fù)旦大學(xué)王鵬教授團(tuán)隊共同研發(fā)。EMNLP 是人工智能自然語言處理領(lǐng)域的頂級國際會議,聚焦于自然語言處理技術(shù)在各個應(yīng)用場景的學(xué)術(shù)研究,尤其重視自然語言處理的實(shí)證研究。該會議曾推動了預(yù)訓(xùn)練語言模型、文本挖掘、對話系統(tǒng)、機(jī)器翻譯等自然語言處理領(lǐng)域的核心創(chuàng)新,在學(xué)術(shù)和工業(yè)界都有巨大的影響力。此次入選標(biāo)志著阿里云人工智能平臺 PAI 在自然語言處理和多模態(tài)算法能力方面研究獲得了學(xué)術(shù)界認(rèn)可。

論文簡述

面向長文本的文視頻表征學(xué)習(xí)與檢索模型 VideoCLIP-XL

CLIP 模型在視覺-語言預(yù)訓(xùn)練領(lǐng)域已經(jīng)取得了重要進(jìn)展。然而,原始 CLIP 模型的一個顯著局限性是處理長文本描述的能力受限。原始 CLIP 模型的訓(xùn)練過程中對簡短的摘要性文本的強(qiáng)調(diào)迫使文本/視覺編碼器主要關(guān)注文本/視覺輸入中的主要特征,常常忽視一些較小但潛在關(guān)鍵的細(xì)節(jié)。為了解決這些限制,該工作提出了一個名為 VideoCLIP-XL 的視頻 CLIP 模型,旨在提升對視頻的長文本描述的理解能力。其首先構(gòu)建了一個大規(guī)模的視頻-長描述配對數(shù)據(jù)集 VILD,并在預(yù)訓(xùn)練階段提出了一種文本相似度引導(dǎo)的主成分匹配方法(TPCM)來優(yōu)化高維特征空間的學(xué)習(xí)。

【EMNLP2024】阿里云人工智能平臺PAI多篇論文入選EMNLP2024

此外,該工作提出能夠理解長描述的視頻 CLIP 模型應(yīng)當(dāng)體現(xiàn)兩個特征:給定一個視頻及其相關(guān)描述,CLIP 類模型應(yīng)該對(1)具有更豐富和更精確細(xì)節(jié)的描述以及(2)在相同細(xì)節(jié)水平下更準(zhǔn)確即幻覺更少的描述賦予更高的分?jǐn)?shù)。為此,其提出兩個新的預(yù)訓(xùn)練任務(wù):細(xì)節(jié)描述排序(DDR)和幻覺描述排序(HDR)。此外,該工作也建立了一個新的視頻長描述排序基準(zhǔn)測評集(LVDR),來更全面地評估視頻 CLIP 模型的性能。

【EMNLP2024】阿里云人工智能平臺PAI多篇論文入選EMNLP2024

基于多任務(wù)課程規(guī)劃的大語言模型蒸餾算法

大語言模型在回答開放領(lǐng)域通用任務(wù)的指令上取得了很大地進(jìn)步。指令微調(diào)是微調(diào)預(yù)訓(xùn)練模型,使其從文本補(bǔ)全模型成為強(qiáng)大的對話模型的關(guān)鍵。盡管已有研究探索了使用強(qiáng)大的黑盒教師模型(如GPT-4, Qwen-max)來自動蒸餾和標(biāo)注指令的方法,但這些研究往往忽視了微調(diào)訓(xùn)練集中任務(wù)的多樣性分布,以及訓(xùn)練集中指令難度的差異,這可能導(dǎo)致學(xué)生 LLMs 知識能力的不平衡和解決復(fù)雜任務(wù)的能力的不足。為了解決這些挑戰(zhàn),這篇文章介紹了一個名為 TAPIR 的知識蒸餾框架,它通過多任務(wù)課程規(guī)劃來蒸餾黑盒大語言模型的指令回答能力,在蒸餾和多輪迭代過程中,使用教師 LLM 做為裁判找出對于學(xué)生 LLM 來說難以回答的指令,進(jìn)行難度重采樣。并調(diào)整多任務(wù)配比進(jìn)行訓(xùn)練集中的任務(wù)多樣性分布的重采樣,并根據(jù)相應(yīng)多任務(wù)特點(diǎn)自動優(yōu)化教師模型的回答風(fēng)格。

【EMNLP2024】阿里云人工智能平臺PAI多篇論文入選EMNLP2024

該工作創(chuàng)新性地用顯式的任務(wù)標(biāo)簽配比代替隱式的句向量多樣性。在任務(wù)重采樣的過程中,大大增加數(shù)學(xué)推理代碼類任務(wù)的數(shù)據(jù)比例。首次提出了模型擬合難度 (MFD) 指標(biāo),來表示數(shù)據(jù)難度大小,并在多輪迭代優(yōu)化的過程中提升困難數(shù)據(jù)占比。提升模型從弱到強(qiáng)的泛化速度。在 AlpacaEval 排行榜上,我們微調(diào)后的 LLaMA2-7B 底座獲得了7.8的相對分?jǐn)?shù),超過了參數(shù)量、數(shù)據(jù)量都遠(yuǎn)大于我們的知名開源模型模型(LLaMA2-Chat-13B,Vicuna 13B)。我們持續(xù)優(yōu)化了 Qwen 系列模型的指令回答能力,優(yōu)化 Qwen1.5系列模型在 AlpacaEval 榜單上提升3-8個百分點(diǎn)。

【EMNLP2024】阿里云人工智能平臺PAI多篇論文入選EMNLP2024

產(chǎn)品化服務(wù)

上述科研成果也在人工智能平臺PAI的各個模塊進(jìn)行了深度的集成和整合,持續(xù)為PAI客戶提供AI模型訓(xùn)練和推理相關(guān)服務(wù)。其中,VideoCLIP-XL作為文視頻質(zhì)量評估模塊,與EasyAnimate視頻生成解決方案無縫融合,支持用戶輕松實(shí)現(xiàn)文視頻語義一致性計算和數(shù)據(jù)過濾,從而訓(xùn)練AIGC視頻生成大模型。在智碼實(shí)驗(yàn)室,我們也上架了“VideoCLIP-XL:面向超長文本的文視頻跨模態(tài)特征抽取”的notebook。

用于數(shù)據(jù)增強(qiáng)和改寫的蒸餾模型也已經(jīng)上架PAI平臺,為用戶提供簡單易用的大模型蒸餾解決方案;赒wen2的開源模型,PAI也在開源了DistilQwen2蒸餾小模型系列,進(jìn)一步提升了模型的指令跟隨能力,在HuggingFace和ModelScope開源社區(qū)開放下載。

此外,PAI-QuickStart集成了超過50個熱門大語言模型,及其多種訓(xùn)練和推理方式,使客戶更加簡單地微調(diào)和部署大語言模型。在未來,我們也將在PAI平臺上持續(xù)提供業(yè)界領(lǐng)先的算法和模型能力給廣大客戶。

資源鏈接

文-視頻多模態(tài)

●  EasyAnimate開源項目:https://github.com/aigc-apps/EasyAnimate

●  VideoCLIP-XL:https://huggingface.co/alibaba-pai/VideoCLIP-XL

●  VideoCLIP-XL-v2:https://huggingface.co/alibaba-pai/VideoCLIP-XL-v2

●  LVDR數(shù)據(jù)集:https://huggingface.co/alibaba-pai/LVDR

●  VILD數(shù)據(jù)集:https://huggingface.co/alibaba-pai/VILD

●  VideoCLIP-XL:面向超長文本的文視頻跨模態(tài)特征抽。篽ttps://gallery.pai-ml.com/#/preview/deepLearning/cv/videoclipxl

大模型蒸餾

●  大語言模型數(shù)據(jù)增強(qiáng)與模型蒸餾解決方案:https://help.aliyun.com/zh/pai/use-cases/llm-data-enhancement-and-model-distillation-solution

●  DistilQwen2蒸餾小模型系列

alibaba-pai/DistilQwen2-7B-Instruct:

○  https://huggingface.co/alibaba-pai/DistilQwen2-7B-Instruct

○  https://modelscope.cn/models/PAI/DistilQwen2-7B-Instruct

alibaba-pai/DistilQwen2-1.5B-Instruct:

○  https://huggingface.co/alibaba-pai/DistilQwen2-1.5B-Instruct

○  https://modelscope.cn/models/PAI/DistilQwen2-1.5B-Instruct

論文匯總

論文名字:VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models

論文作者:汪嘉鵬、汪誠愚、黃坤哲、黃俊、金連

論文pdf鏈接:https://arxiv.org/abs/2410.00741

論文名字:Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning

論文作者:岳元浩、汪誠愚、黃俊、王鵬

論文pdf鏈接:https://arxiv.org/abs/2405.13448

阿里云人工智能平臺 PAI 長期招聘研究實(shí)習(xí)生。團(tuán)隊專注于深度學(xué)習(xí)算法研究與應(yīng)用,重點(diǎn)聚焦大語言模型和多模態(tài) AIGC 大模型的應(yīng)用算法研究和應(yīng)用。

簡歷投遞和咨詢:chengyu.wcy@alibaba-inc.com。


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港