展會(huì)信息港展會(huì)大全

多場(chǎng)景PAI-Diffusion中文模型家族大升級(jí),12個(gè)模型、2個(gè)工具全部開源
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-09-13 15:10:44   瀏覽:16130次  

導(dǎo)讀:作者: 段忠杰、劉冰雁、汪誠(chéng)愚、鄒心怡、黃俊 概述 在過(guò)去幾年中,隨著AI生成內(nèi)容(AI Generated Content,AIGC)的快速發(fā)展,Stable Diffusion模型在該領(lǐng)域嶄露頭角。阿里云機(jī)器學(xué)習(xí)PAI團(tuán)隊(duì)為推動(dòng)這一領(lǐng)域的發(fā)展,參考了Stable Diffusion的模型結(jié)構(gòu),結(jié)合...

作者: 段忠杰、劉冰雁、汪誠(chéng)愚、鄒心怡、黃俊

概述

在過(guò)去幾年中,隨著AI生成內(nèi)容(AI Generated Content,AIGC)的快速發(fā)展,Stable Diffusion模型在該領(lǐng)域嶄露頭角。阿里云機(jī)器學(xué)習(xí)PAI團(tuán)隊(duì)為推動(dòng)這一領(lǐng)域的發(fā)展,參考了Stable Diffusion的模型結(jié)構(gòu),結(jié)合中文語(yǔ)言的特點(diǎn),通過(guò)大量對(duì)模型預(yù)訓(xùn)練數(shù)據(jù)的處理和過(guò)濾,以及訓(xùn)練過(guò)程的優(yōu)化,提出了PAI-Diffusion中文文圖生成模型,實(shí)現(xiàn)了圖像生成質(zhì)量的大幅提升和風(fēng)格多樣化。PAI-Diffusion模型的Pipeline不僅包含了標(biāo)準(zhǔn)的Diffusion Model,還集成了中文CLIP跨模態(tài)對(duì)齊模型,使得模型能夠生成符合中文文本描述的各種場(chǎng)景下的高清大圖。此外,我們也推出了PAI的自研Prompt美化器BeautifulPrompt,賦能Stable Diffusion類應(yīng)用一鍵出美圖。

我們?cè)谶@次的工作中,將PAI-Diffusion中文模型家族擴(kuò)展到多種應(yīng)用場(chǎng)景,支持文生圖、文圖生圖、圖像修復(fù)、LoRA、ControlNet等多種常見(jiàn)功能。為了更好地與開源社區(qū)互動(dòng),我們將12個(gè)PAI-Diffusion中文模型(包括基礎(chǔ)模型、LoRA、ControlNet等)全部開源,并支持用戶自由下載和使用,與開發(fā)者一起共同推動(dòng)AI生成內(nèi)容技術(shù)的發(fā)展,創(chuàng)造出更有創(chuàng)意和影響力的作品。此外,PAI-Diffusion中文模型對(duì)應(yīng)兩個(gè)推理工具也在開源社區(qū)推出。其中,Chinese Diffusion WebUI作為Stable Diffusion WebUI的插件與PAI-EAS無(wú)縫兼容,支持5分鐘內(nèi)一鍵在PAI-EAS拉起中文AIGC應(yīng)用;Diffusers-API也完美支持中文模型的快速部署和推理。

在下文中,我們?cè)敿?xì)介紹PAI-Diffusion中文模型家族及其工具Chinese Diffusion WebUI和Diffuser-API的使用。

多場(chǎng)景的PAI-Diffusion中文模型家族

我們利用海量中文圖文對(duì)數(shù)據(jù),訓(xùn)練了如下12個(gè)模型,包括基礎(chǔ)模型、LoRA、ControlNet等,模型列表如下:

上述所有模型都可以在我們的Hugging Face Space進(jìn)行下載,我們的模型也可以通過(guò)ModelScope進(jìn)行調(diào)用。模型生成的效果如下所示:

下面給出了三個(gè)PAI-Diffusion中文模型的應(yīng)用場(chǎng)景:

應(yīng)用場(chǎng)景一:輸入草稿圖和對(duì)應(yīng)的Prompt,生成精細(xì)的藝術(shù)圖畫。

應(yīng)用場(chǎng)景二:污染破損的古詩(shī)詞繪畫圖像的修復(fù),即image in-painting。

應(yīng)用場(chǎng)景三:為國(guó)風(fēng)游戲繪制中國(guó)古代室內(nèi)場(chǎng)景。

為了盡可能提升模型輸出圖像的質(zhì)量,我們搜集海量開源的圖文對(duì)數(shù)據(jù)集,包括大規(guī)模中文跨模態(tài)預(yù)訓(xùn)練數(shù)據(jù)集WuKong、大規(guī)模多語(yǔ)言多模態(tài)數(shù)據(jù)集LAION-5B等。此外,我們也搜集了大量不同領(lǐng)域、不同場(chǎng)景的數(shù)據(jù)集,用于擴(kuò)展PAI-Diffusion中文模型家族的應(yīng)用場(chǎng)景。我們針對(duì)圖像和文本進(jìn)行了多種清洗方式,篩選掉低質(zhì)量數(shù)據(jù)。具體的數(shù)據(jù)處理方式包括NSFW(Not Safe From Work)數(shù)據(jù)過(guò)濾、水印數(shù)據(jù)去除,我們也使用CLIP分?jǐn)?shù)和美觀值分?jǐn)?shù)評(píng)分,過(guò)濾CLIP分?jǐn)?shù)和美觀值分?jǐn)?shù)較低的數(shù)據(jù),保證生成圖像的語(yǔ)義一致性和質(zhì)量。為了適配中文語(yǔ)義場(chǎng)景,我們的CLIP Text Encoder采用EasyNLP自研的中文CLIP模型(https://github.com/alibaba/EasyNLP)進(jìn)行建模,使得模型更懂中文語(yǔ)言。

PAI-Diffusion中文模型部署工具

本節(jié)詳細(xì)介紹PAI-Diffusion中文模型對(duì)應(yīng)的兩個(gè)開源工具。Chinese Diffusion WebUI作為插件與PAI-EAS無(wú)縫兼容,支持5分鐘內(nèi)一鍵拉起中文AIGC應(yīng)用;Diffusers-API通過(guò)API形式支持中文模型的快速部署和推理。

Chinese Diffusion WebUI

由于Stable Diffusion WebUI無(wú)法原生支持中文模型,我們開發(fā)了Chinese Diffusion WebUI,作為Stable Diffusion WebUI的插件提供給用戶。它提供了圖形劃的用戶界面,使用戶(尤其是沒(méi)有編程經(jīng)驗(yàn)的設(shè)計(jì)師)可以使用PAI-Diffusion中文模型的多種功能,例如文生圖、圖生圖、圖像風(fēng)格遷移、圖像編輯等。Chinese Diffusion WebUI的界面如下圖所示:

為了方便用戶在PAI-EAS上使用Chinese Diffusion WebUI,我們的插件也支持了兩種模式:?jiǎn)螜C(jī)版本和集群版本,用戶可以根據(jù)需求和資源選擇不同的模式。在單機(jī)版中,用戶在獨(dú)占的節(jié)點(diǎn)上使用Chinese Diffusion WebUI,特別方便個(gè)人設(shè)計(jì)師的使用。集群版利用PAI的彈性推理服務(wù),實(shí)現(xiàn)并行處理,高效利用和共享計(jì)算資源,從而實(shí)現(xiàn)了更高的資源利用率。

此外,Chinese Diffusion WebUI也可以在非PAI-EAS環(huán)境下使用,用戶只需要在下載Chinese Diffusion WebUI插件,放置在標(biāo)準(zhǔn)Stable Diffusion WebUI的插件目錄下就可以實(shí)現(xiàn)本地的使用了。

Diffusers-API

Diffusers-API是阿里云機(jī)器學(xué)習(xí)PAI團(tuán)隊(duì)開源的、基于Diffusers的文圖生成云服務(wù)SDK。用戶可以直接基于本項(xiàng)目提供的鏡像,在PAI-EAS上部署各種Diffusion相關(guān)服務(wù),例如文生圖、圖生圖、LoRA、ControlNet等。Diffusers-API還基于PAI-Blade對(duì)模型進(jìn)行了推理優(yōu)化,降低推理流程的端到端延遲 2.3 倍,同時(shí)可顯著降低顯存占用,超過(guò)TensorRT-v8.5等業(yè)內(nèi)SOTA優(yōu)化手段。

在Diffusers-API中,我們使用StableDiffusionLongPromptWeightingPipeline作為默認(rèn)的推理接口,以支持帶有權(quán)重的、無(wú)長(zhǎng)度限制的英文Prompt。然而,Diffusers默認(rèn)的推理接口無(wú)法無(wú)縫支持中文文本的處理。我們擴(kuò)展了StableDiffusionLongPromptWeightingPipeline,根據(jù)載入模型的Text Encoder,自動(dòng)檢測(cè)語(yǔ)言,并且進(jìn)行適配,使得無(wú)需修改Diffusers-API的任何接口的條件下,支持社區(qū)Stable Diffusion和PAI-Diffusion中文模型的一鍵部署,其HTTP請(qǐng)求體示例如下:

{

"task_id" : "001",

"prompt": "一只可愛(ài)的小貓咪",

"negative_prompt": "模糊",

"cfg_scale": 7,

"steps": 25,

"image_num": 1,

"width": 512,

"height": 512,

"use_base64": True

}

部署PAI-Diffusion中文模型的步驟詳見(jiàn)這里。

總結(jié)

通過(guò)先前的PAI-Diffusion中文模型的開源,我們成功提升了圖像生成質(zhì)量和風(fēng)格多樣化,并實(shí)現(xiàn)了中文文本描述下各種場(chǎng)景的高清大圖生成。此外,我們還推出了自研的Prompt美化器BeautifulPrompt,為Stable Diffusion類應(yīng)用提供了一鍵美圖的能力。在本次的工作中,我們不僅將PAI-Diffusion中文模型家族擴(kuò)展到多種應(yīng)用場(chǎng)景,還全面開源了12個(gè)PAI-Diffusion中文模型,包括基礎(chǔ)模型、LoRA、ControlNet等。我們的工作希望為開發(fā)者們提供更多的創(chuàng)作可能性和創(chuàng)新機(jī)會(huì),共同推動(dòng)AI生成內(nèi)容技術(shù)的發(fā)展,創(chuàng)造出更有創(chuàng)意和影響力的作品。此外,我們還推出了兩個(gè)開源工具,Chinese Diffusion WebUI和Diffuser-API,提供便捷的使用體驗(yàn)。Chinese Diffusion WebUI作為插件與PAI-EAS無(wú)縫兼容,支持用戶在5分鐘內(nèi)快速搭建中文AIGC應(yīng)用;而Diffusers-API則完美支持中文模型的快速部署和推理。我們期待與開發(fā)者們共同推動(dòng)AI生成內(nèi)容技術(shù)的前進(jìn)。

 

向作者提問(wèn)

贊助本站

人工智能實(shí)驗(yàn)室

相關(guān)熱詞: 場(chǎng)景 PAI 場(chǎng)景 PAI

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港