精品露脸国产偷人,一本到中文无码av一区

多場(chǎng)景PAI-Diffusion中文模型家族大升級(jí)，12個(gè)模型、2個(gè)工具全部開源

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2023-09-13 15:10:44 瀏覽：16130次

導(dǎo)讀：作者：段忠杰、劉冰雁、汪誠(chéng)愚、鄒心怡、黃俊概述在過(guò)去幾年中，隨著AI生成內(nèi)容（AI Generated Content，AIGC）的快速發(fā)展，Stable Diffusion模型在該領(lǐng)域嶄露頭角。阿里云機(jī)器學(xué)習(xí)PAI團(tuán)隊(duì)為推動(dòng)這一領(lǐng)域的發(fā)展，參考了Stable Diffusion的模型結(jié)構(gòu)，結(jié)合...

作者： 段忠杰、劉冰雁、汪誠(chéng)愚、鄒心怡、黃俊

概述

在過(guò)去幾年中，隨著AI生成內(nèi)容（AI Generated Content，AIGC）的快速發(fā)展，Stable Diffusion模型在該領(lǐng)域嶄露頭角。阿里云機(jī)器學(xué)習(xí)PAI團(tuán)隊(duì)為推動(dòng)這一領(lǐng)域的發(fā)展，參考了Stable Diffusion的模型結(jié)構(gòu)，結(jié)合中文語(yǔ)言的特點(diǎn)，通過(guò)大量對(duì)模型預(yù)訓(xùn)練數(shù)據(jù)的處理和過(guò)濾，以及訓(xùn)練過(guò)程的優(yōu)化，提出了PAI-Diffusion中文文圖生成模型，實(shí)現(xiàn)了圖像生成質(zhì)量的大幅提升和風(fēng)格多樣化。PAI-Diffusion模型的Pipeline不僅包含了標(biāo)準(zhǔn)的Diffusion Model，還集成了中文CLIP跨模態(tài)對(duì)齊模型，使得模型能夠生成符合中文文本描述的各種場(chǎng)景下的高清大圖。此外，我們也推出了PAI的自研Prompt美化器BeautifulPrompt，賦能Stable Diffusion類應(yīng)用一鍵出美圖。

我們?cè)谶@次的工作中，將PAI-Diffusion中文模型家族擴(kuò)展到多種應(yīng)用場(chǎng)景，支持文生圖、文圖生圖、圖像修復(fù)、LoRA、ControlNet等多種常見(jiàn)功能。為了更好地與開源社區(qū)互動(dòng)，我們將12個(gè)PAI-Diffusion中文模型（包括基礎(chǔ)模型、LoRA、ControlNet等）全部開源，并支持用戶自由下載和使用，與開發(fā)者一起共同推動(dòng)AI生成內(nèi)容技術(shù)的發(fā)展，創(chuàng)造出更有創(chuàng)意和影響力的作品。此外，PAI-Diffusion中文模型對(duì)應(yīng)兩個(gè)推理工具也在開源社區(qū)推出。其中，Chinese Diffusion WebUI作為Stable Diffusion WebUI的插件與PAI-EAS無(wú)縫兼容，支持5分鐘內(nèi)一鍵在PAI-EAS拉起中文AIGC應(yīng)用；Diffusers-API也完美支持中文模型的快速部署和推理。

在下文中，我們?cè)敿?xì)介紹PAI-Diffusion中文模型家族及其工具Chinese Diffusion WebUI和Diffuser-API的使用。

多場(chǎng)景的PAI-Diffusion中文模型家族

我們利用海量中文圖文對(duì)數(shù)據(jù)，訓(xùn)練了如下12個(gè)模型，包括基礎(chǔ)模型、LoRA、ControlNet等，模型列表如下：

上述所有模型都可以在我們的Hugging Face Space進(jìn)行下載，我們的模型也可以通過(guò)ModelScope進(jìn)行調(diào)用。模型生成的效果如下所示：

下面給出了三個(gè)PAI-Diffusion中文模型的應(yīng)用場(chǎng)景：

應(yīng)用場(chǎng)景一：輸入草稿圖和對(duì)應(yīng)的Prompt，生成精細(xì)的藝術(shù)圖畫。

應(yīng)用場(chǎng)景二：污染破損的古詩(shī)詞繪畫圖像的修復(fù)，即image in-painting。

應(yīng)用場(chǎng)景三：為國(guó)風(fēng)游戲繪制中國(guó)古代室內(nèi)場(chǎng)景。

為了盡可能提升模型輸出圖像的質(zhì)量，我們搜集海量開源的圖文對(duì)數(shù)據(jù)集，包括大規(guī)模中文跨模態(tài)預(yù)訓(xùn)練數(shù)據(jù)集WuKong、大規(guī)模多語(yǔ)言多模態(tài)數(shù)據(jù)集LAION-5B等。此外，我們也搜集了大量不同領(lǐng)域、不同場(chǎng)景的數(shù)據(jù)集，用于擴(kuò)展PAI-Diffusion中文模型家族的應(yīng)用場(chǎng)景。我們針對(duì)圖像和文本進(jìn)行了多種清洗方式，篩選掉低質(zhì)量數(shù)據(jù)。具體的數(shù)據(jù)處理方式包括NSFW（Not Safe From Work）數(shù)據(jù)過(guò)濾、水印數(shù)據(jù)去除，我們也使用CLIP分?jǐn)?shù)和美觀值分?jǐn)?shù)評(píng)分，過(guò)濾CLIP分?jǐn)?shù)和美觀值分?jǐn)?shù)較低的數(shù)據(jù)，保證生成圖像的語(yǔ)義一致性和質(zhì)量。為了適配中文語(yǔ)義場(chǎng)景，我們的CLIP Text Encoder采用EasyNLP自研的中文CLIP模型（https://github.com/alibaba/EasyNLP）進(jìn)行建模，使得模型更懂中文語(yǔ)言。

PAI-Diffusion中文模型部署工具

本節(jié)詳細(xì)介紹PAI-Diffusion中文模型對(duì)應(yīng)的兩個(gè)開源工具。Chinese Diffusion WebUI作為插件與PAI-EAS無(wú)縫兼容，支持5分鐘內(nèi)一鍵拉起中文AIGC應(yīng)用；Diffusers-API通過(guò)API形式支持中文模型的快速部署和推理。

Chinese Diffusion WebUI

由于Stable Diffusion WebUI無(wú)法原生支持中文模型，我們開發(fā)了Chinese Diffusion WebUI，作為Stable Diffusion WebUI的插件提供給用戶。它提供了圖形劃的用戶界面，使用戶（尤其是沒(méi)有編程經(jīng)驗(yàn)的設(shè)計(jì)師）可以使用PAI-Diffusion中文模型的多種功能，例如文生圖、圖生圖、圖像風(fēng)格遷移、圖像編輯等。Chinese Diffusion WebUI的界面如下圖所示：

為了方便用戶在PAI-EAS上使用Chinese Diffusion WebUI，我們的插件也支持了兩種模式：?jiǎn)螜C(jī)版本和集群版本，用戶可以根據(jù)需求和資源選擇不同的模式。在單機(jī)版中，用戶在獨(dú)占的節(jié)點(diǎn)上使用Chinese Diffusion WebUI，特別方便個(gè)人設(shè)計(jì)師的使用。集群版利用PAI的彈性推理服務(wù)，實(shí)現(xiàn)并行處理，高效利用和共享計(jì)算資源，從而實(shí)現(xiàn)了更高的資源利用率。

此外，Chinese Diffusion WebUI也可以在非PAI-EAS環(huán)境下使用，用戶只需要在下載Chinese Diffusion WebUI插件，放置在標(biāo)準(zhǔn)Stable Diffusion WebUI的插件目錄下就可以實(shí)現(xiàn)本地的使用了。

Diffusers-API

Diffusers-API是阿里云機(jī)器學(xué)習(xí)PAI團(tuán)隊(duì)開源的、基于Diffusers的文圖生成云服務(wù)SDK。用戶可以直接基于本項(xiàng)目提供的鏡像，在PAI-EAS上部署各種Diffusion相關(guān)服務(wù)，例如文生圖、圖生圖、LoRA、ControlNet等。Diffusers-API還基于PAI-Blade對(duì)模型進(jìn)行了推理優(yōu)化，降低推理流程的端到端延遲 2.3 倍，同時(shí)可顯著降低顯存占用，超過(guò)TensorRT-v8.5等業(yè)內(nèi)SOTA優(yōu)化手段。

在Diffusers-API中，我們使用StableDiffusionLongPromptWeightingPipeline作為默認(rèn)的推理接口，以支持帶有權(quán)重的、無(wú)長(zhǎng)度限制的英文Prompt。然而，Diffusers默認(rèn)的推理接口無(wú)法無(wú)縫支持中文文本的處理。我們擴(kuò)展了StableDiffusionLongPromptWeightingPipeline，根據(jù)載入模型的Text Encoder，自動(dòng)檢測(cè)語(yǔ)言，并且進(jìn)行適配，使得無(wú)需修改Diffusers-API的任何接口的條件下，支持社區(qū)Stable Diffusion和PAI-Diffusion中文模型的一鍵部署，其HTTP請(qǐng)求體示例如下：

{

"task_id" : "001",

"prompt": "一只可愛(ài)的小貓咪",

"negative_prompt": "模糊",

"cfg_scale": 7,

"steps": 25,

"image_num": 1,

"width": 512,

"height": 512,

"use_base64": True

}

部署PAI-Diffusion中文模型的步驟詳見(jiàn)這里。

總結(jié)

通過(guò)先前的PAI-Diffusion中文模型的開源，我們成功提升了圖像生成質(zhì)量和風(fēng)格多樣化，并實(shí)現(xiàn)了中文文本描述下各種場(chǎng)景的高清大圖生成。此外，我們還推出了自研的Prompt美化器BeautifulPrompt，為Stable Diffusion類應(yīng)用提供了一鍵美圖的能力。在本次的工作中，我們不僅將PAI-Diffusion中文模型家族擴(kuò)展到多種應(yīng)用場(chǎng)景，還全面開源了12個(gè)PAI-Diffusion中文模型，包括基礎(chǔ)模型、LoRA、ControlNet等。我們的工作希望為開發(fā)者們提供更多的創(chuàng)作可能性和創(chuàng)新機(jī)會(huì)，共同推動(dòng)AI生成內(nèi)容技術(shù)的發(fā)展，創(chuàng)造出更有創(chuàng)意和影響力的作品。此外，我們還推出了兩個(gè)開源工具，Chinese Diffusion WebUI和Diffuser-API，提供便捷的使用體驗(yàn)。Chinese Diffusion WebUI作為插件與PAI-EAS無(wú)縫兼容，支持用戶在5分鐘內(nèi)快速搭建中文AIGC應(yīng)用；而Diffusers-API則完美支持中文模型的快速部署和推理。我們期待與開發(fā)者們共同推動(dòng)AI生成內(nèi)容技術(shù)的前進(jìn)。

向作者提問(wèn)