展會(huì)信息港展會(huì)大全

阿里云人工智能平臺(tái)PAI多篇論文入選EMNLP 2023
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-12-06 15:01:37   瀏覽:8110次  

導(dǎo)讀:近期,阿里云人工智能平臺(tái)PAI主導(dǎo)的多篇論文在EMNLP2023上入...

近期,阿里云人工智能平臺(tái)PAI主導(dǎo)的多篇論文在EMNLP2023上入眩EMNLP是人工智能自然語(yǔ)言處理領(lǐng)域的頂級(jí)國(guó)際會(huì)議,聚焦于自然語(yǔ)言處理技術(shù)在各個(gè)應(yīng)用場(chǎng)景的學(xué)術(shù)研究,尤其重視自然語(yǔ)言處理的實(shí)證研究。該會(huì)議曾推動(dòng)了預(yù)訓(xùn)練語(yǔ)言模型、文本挖掘、對(duì)話系統(tǒng)、機(jī)器翻譯等自然語(yǔ)言處理領(lǐng)域的核心創(chuàng)新,在學(xué)術(shù)和工業(yè)界都有巨大的影響力。此次入選意味著阿里云人工智能平臺(tái)PAI自研的自然語(yǔ)言處理算法達(dá)到了全球業(yè)界先進(jìn)水平,獲得了國(guó)際學(xué)者的認(rèn)可,展現(xiàn)了中國(guó)人工智能技術(shù)創(chuàng)新在國(guó)際上的競(jìng)爭(zhēng)力。

論文簡(jiǎn)述

面向Stable Diffusion的自動(dòng)Prompt工程算法BeautifulPrompt

文生圖是AIGC中最引人注目和廣泛應(yīng)用的技術(shù)之一,旨在通過(guò)文本輸入創(chuàng)建逼真的圖像。然而,文成圖模型要求用戶在模型推理之前編寫文本提示(例如“一艘雄偉的帆船”)。編寫滿足設(shè)計(jì)師或藝術(shù)工作者需求的這些提示充滿了不確定性,就像開盲盒一樣。這是由于訓(xùn)練數(shù)據(jù)的質(zhì)量問(wèn)題,導(dǎo)致需要詳細(xì)的描述才能生成高質(zhì)量的圖像。在現(xiàn)實(shí)場(chǎng)景中,非專家往往很難手工編寫這些提示,并且需要通過(guò)試錯(cuò)的迭代修改來(lái)重新生成圖像,從而導(dǎo)致時(shí)間和計(jì)算資源的嚴(yán)重浪費(fèi)。BeautifulPrompt模型關(guān)注于大語(yǔ)言模型(LLM)自動(dòng)地生成高質(zhì)量的提示詞,與InstructGPT類似,采用了三階段的訓(xùn)練方式。下圖展示了使用簡(jiǎn)單的圖片描述和BeautifulPrompt之后生產(chǎn)的圖片:

為了驗(yàn)證BeautifulPrompt的有效性,我們?cè)谝恍┗谀P痛蚍值目陀^指標(biāo)和人類主觀評(píng)估上做了評(píng)測(cè),結(jié)果驗(yàn)證了BeautifulPrompt顯著提升了提示詞的質(zhì)量,可以生成高質(zhì)量的圖像。

面向垂直領(lǐng)域的知識(shí)預(yù)訓(xùn)練語(yǔ)言模型

知識(shí)增強(qiáng)預(yù)訓(xùn)練語(yǔ)言模型(KEPLM)通過(guò)從大規(guī)模知識(shí)圖(KGs)中注入知識(shí)事實(shí)來(lái)提高各種下游NLP任務(wù)的性能。然而,由于缺乏足夠的域圖語(yǔ)義,這些構(gòu)建開放域KEPLM的方法很難直接遷移到垂直領(lǐng)域,因?yàn)樗鼈內(nèi)狈?duì)垂直領(lǐng)域KGs的特性進(jìn)行深入建模。如下圖所示,KG實(shí)體相對(duì)于純文本的覆蓋率在垂直領(lǐng)域中明顯低于開放域,表明領(lǐng)域知識(shí)注入存在全局稀疏現(xiàn)象。這意味著將檢索到的少數(shù)相關(guān)三元組直接注入到PLM中對(duì)于領(lǐng)域來(lái)說(shuō)可能是不夠的。我們進(jìn)一步注意到,在垂直領(lǐng)域KGs中,最大點(diǎn)雙連通分量的比率要高得多,這意味著這些KGs中同一實(shí)體類下的實(shí)體相互連接更緊密,并表現(xiàn)出局部密度特性。

這一工作研究是基于上述領(lǐng)域KG的數(shù)據(jù)特性提出了一個(gè)簡(jiǎn)單但有效的統(tǒng)一框架來(lái)學(xué)習(xí)各種垂直領(lǐng)域的KEPLM。它分別通過(guò)雙曲空間學(xué)習(xí)垂直領(lǐng)域圖譜數(shù)據(jù)的分層語(yǔ)義信息來(lái)補(bǔ)充全局語(yǔ)義稀疏模塊Hyperbolic Knowledge-aware Aggregator,通過(guò)捕捉領(lǐng)域圖譜稠密的圖結(jié)構(gòu)構(gòu)造基于點(diǎn)雙聯(lián)通分量的對(duì)比學(xué)習(xí)模塊Multi-Level Knowledge-aware Augmenter。

我們選取了金融和醫(yī)療等領(lǐng)域的各種下游任務(wù)的全數(shù)據(jù)量和少樣本數(shù)據(jù)量場(chǎng)景進(jìn)行評(píng)測(cè),結(jié)果體現(xiàn)出這個(gè)模型的優(yōu)越性。

基于大語(yǔ)言模型的復(fù)雜任務(wù)認(rèn)知推理算法CogTree

隨著深度學(xué)習(xí)在自然語(yǔ)言處理、機(jī)器翻譯等任務(wù)上的不斷發(fā)展,人們對(duì)如何將深度學(xué)習(xí)應(yīng)用到自然語(yǔ)言處理中越來(lái)越感興趣,由此出現(xiàn)了大語(yǔ)言模型(例如GPT-3.5),并已在文本生成、情感分析、對(duì)話系統(tǒng)等多個(gè)任務(wù)上取得了重大突破。大語(yǔ)言模型通;诖笠(guī)模文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,然后通過(guò)微調(diào)在特定任務(wù)上進(jìn)行優(yōu)化,以生成高質(zhì)量的文本輸出。然而,對(duì)于語(yǔ)言模型而言,復(fù)雜的邏輯推理問(wèn)題和數(shù)學(xué)問(wèn)題的求解仍然是很困難的。并且,傳統(tǒng)的語(yǔ)言模型缺乏認(rèn)知能力。在處理涉及冗長(zhǎng)的推理鏈或多步解決方案的問(wèn)題時(shí),對(duì)于問(wèn)題及其當(dāng)前回答的評(píng)估是很重要的。然而,目前的方法例如Chain-of-thought等通常缺乏對(duì)于中間過(guò)程的驗(yàn)證。并且大型語(yǔ)言模型的部署和推理成本相對(duì)較高,特別是在利用無(wú)參數(shù)更新的推理增強(qiáng)技術(shù)時(shí)。這些技術(shù)需要大量的上下文和多步的答案生成,進(jìn)一步增加了推理成本和時(shí)間。

這一工作研究面向輕量化大模型的復(fù)雜任務(wù)推理,使用較小規(guī)模的模型(7B),構(gòu)建雙系統(tǒng)生成推理樹,大大增強(qiáng)模型在復(fù)雜數(shù)學(xué)問(wèn)題和邏輯推理問(wèn)題上的回答能力。提出了一種大模型面向復(fù)雜數(shù)學(xué)問(wèn)題的求解方法。該方法基于人類的認(rèn)知理論,通過(guò)兩個(gè)系統(tǒng):直覺系統(tǒng)和反思系統(tǒng)來(lái)模仿人類產(chǎn)生認(rèn)知的過(guò)程。直覺系統(tǒng)負(fù)責(zé)產(chǎn)生原始問(wèn)題的多個(gè)分解假設(shè),反思系統(tǒng)對(duì)直覺系統(tǒng)產(chǎn)生的假設(shè)進(jìn)行驗(yàn)證,并選擇更有可能的假設(shè)進(jìn)行后續(xù)生成,直到達(dá)到最終結(jié)果。通過(guò)上述雙系統(tǒng)的迭代式生成,可以提升大模型的解題準(zhǔn)確度。

我們?cè)贓ntailment Bank邏輯推理數(shù)據(jù)集以及GSM8K數(shù)學(xué)問(wèn)題數(shù)據(jù)集上進(jìn)行了測(cè)試,效果證明CogTree對(duì)大模型復(fù)雜任務(wù)上的回答準(zhǔn)確率提升明顯。

基于知識(shí)遷移的跨語(yǔ)言機(jī)器閱讀理解算法

大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的廣泛應(yīng)用,促進(jìn)了NLP各個(gè)下游任務(wù)準(zhǔn)確度大幅提升,然而,傳統(tǒng)的自然語(yǔ)言理解任務(wù)通常需要大量的標(biāo)注數(shù)據(jù)來(lái)微調(diào)預(yù)訓(xùn)練語(yǔ)言模型。但低資源語(yǔ)言缺乏標(biāo)注數(shù)據(jù)集,難以獲齲大部分現(xiàn)有的機(jī)器閱讀理解(MRC)數(shù)據(jù)集都是英文的,這對(duì)于其他語(yǔ)言來(lái)說(shuō)是一個(gè)困難。其次,不同語(yǔ)言之間存在語(yǔ)言和文化的差異,表現(xiàn)為不同的句子結(jié)構(gòu)、詞序和形態(tài)特征。例如,日語(yǔ)、中文、印地語(yǔ)和阿拉伯語(yǔ)等語(yǔ)言具有不同的文字系統(tǒng)和更復(fù)雜的語(yǔ)法系統(tǒng),這使得MRC模型難以理解這些語(yǔ)言的文本。為了解決這些挑戰(zhàn),現(xiàn)有文獻(xiàn)中通常采用基于機(jī)器翻譯的數(shù)據(jù)增強(qiáng)方法,將源語(yǔ)言的數(shù)據(jù)集翻譯成目標(biāo)語(yǔ)言進(jìn)行模型訓(xùn)練。然而,在MRC任務(wù)中,由于翻譯導(dǎo)致的答案跨度偏移,無(wú)法直接使用源語(yǔ)言的輸出分布來(lái)教導(dǎo)目標(biāo)語(yǔ)言。

這一工作提出了一種名為X-STA的跨語(yǔ)言MRC方法,遵循三個(gè)原則:共享、教導(dǎo)和對(duì)齊。共享方面,提出了梯度分解的知識(shí)共享技術(shù),通過(guò)使用平行語(yǔ)言對(duì)作為模型輸入,從源語(yǔ)言中提取知識(shí),增強(qiáng)對(duì)目標(biāo)語(yǔ)言的理解,同時(shí)避免源語(yǔ)言表示的退化。教導(dǎo)方面,本方法利用注意機(jī)制,在目標(biāo)語(yǔ)言的上下文中尋找與源語(yǔ)言輸出答案語(yǔ)義相似的答案跨度,用于校準(zhǔn)輸出答案。對(duì)齊方面,多層次的對(duì)齊被利用來(lái)進(jìn)一步增強(qiáng)MRC模型的跨語(yǔ)言傳遞能力。通過(guò)知識(shí)共享、教導(dǎo)和多層次對(duì)齊,本方法可以增強(qiáng)模型對(duì)不同語(yǔ)言的語(yǔ)言理解能力。

為了驗(yàn)證X-STA算法的有效性,我們?cè)谌齻(gè)跨語(yǔ)言MRC數(shù)據(jù)集上進(jìn)行了測(cè)試,效果證明X-STA對(duì)精度提升明顯。

上述科研成果也在PAI產(chǎn)品的各個(gè)模塊進(jìn)行了深度的集成和整合,持續(xù)為PAI客戶提供AI模型訓(xùn)練相關(guān)服務(wù)。其中,BeautifulPrompt技術(shù)已經(jīng)作為SD WebUI的可擴(kuò)展插件和PAI-EAS在線推理服務(wù)進(jìn)行集成,使得PAI客戶在5分鐘內(nèi)就可以在PAI-EAS上一鍵部署SD WebUI,使用各種AIGC文圖生成功能。此外,PAI-QuickStart也集成了超過(guò)20個(gè)熱門大語(yǔ)言模型,及其多種訓(xùn)練和推理方式,使客戶更加簡(jiǎn)單地微調(diào)和部署大語(yǔ)言模型。在未來(lái),我們也將在PAI平臺(tái)上持續(xù)提供業(yè)界領(lǐng)先的算法和模型能力給廣大客戶。

論文信息

論文標(biāo)題:BeautifulPrompt: Towards Automatic Prompt Engineering for Text-to-Image Synthesis

論文作者:曹庭鋒、汪誠(chéng)愚、劉冰雁、吳梓恒、朱金輝、黃俊

論文pdf鏈接:https://arxiv.org/abs/2311.06752

論文標(biāo)題:Learning Knowledge-Enhanced Contextual Language Representations for Domain Natural Language Understanding

論文作者:徐如瑤、張濤林、汪誠(chéng)愚、段忠杰、陳岑、邱明輝、程大偉、何曉豐、錢衛(wèi)寧

論文pdf鏈接:https://arxiv.org/abs/2311.06761

論文標(biāo)題:From Complex to Simple: Unraveling the Cognitive Tree for Reasoning with Small Language Models

論文作者:嚴(yán)俊冰、汪誠(chéng)愚、張濤林、何曉豐、黃竣張偉

論文pdf鏈接:https://arxiv.org/abs/2311.06754

論文標(biāo)題:Sharing, Teaching and Aligning: Knowledgeable Transfer Learning for Cross-Lingual Machine Reading Comprehension

論文作者:曹庭鋒、汪誠(chéng)愚、譚傳奇、黃竣朱金輝

論文pdf鏈接:https://arxiv.org/abs/2311.06758

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港