IT之家 11 月 30 日消息,Stability AI 日前推出了 Stable Diffusion XL Turbo(SDXL Turbo),為此前 SDXL 模型的改進(jìn)版本,號(hào)稱采用了“對(duì)抗性擴(kuò)散蒸餾技術(shù)(Adversarial Diffusion Distillation)”,將圖片生成迭代步驟從原先的 50 步減少至 1 步,據(jù)稱“僅僅進(jìn)行一次迭代步驟就能生成高品質(zhì)圖像”。
據(jù)悉,Stable Diffusion XL Turbo 模型的最大特點(diǎn),就是上述“一次迭代生成圖像”,號(hào)稱可以進(jìn)行“即時(shí)文字轉(zhuǎn)圖像輸出”,并能夠保證圖片的質(zhì)量。
而其中的“對(duì)抗性擴(kuò)散蒸餾技術(shù)”是以現(xiàn)有的大型圖像擴(kuò)散模型,作為“教師網(wǎng)絡(luò)”來(lái)指導(dǎo)模型的生成過(guò)程,結(jié)合了“蒸餾技術(shù)”和“對(duì)抗訓(xùn)練”,其中“蒸餾技術(shù)”即“蒸餾模型知識(shí),精煉模型輸出”,將大型模型的知識(shí)濃縮到更小的模型中,而對(duì)抗性訓(xùn)練則可以改進(jìn)模型,以更好地模仿教師模型輸出。
此前的模型蒸餾技術(shù)難以兼顧效率和品質(zhì),這是因?yàn)榭焖俨蓸油ǔ?huì)削弱輸出品質(zhì),因此本次 Stable Diffusion XL Turbo 模型在通過(guò)“對(duì)抗性擴(kuò)散蒸餾技術(shù)”在高效生成高品質(zhì)圖像方面,是一個(gè)重要的進(jìn)步。
官方將 Stable Diffusion XL Turbo 與多個(gè)不同的模型變體進(jìn)行比較,包括 StyleGAN-T++、OpenMUSE、IF-XL、SDXL 和 LCM-XL,并進(jìn)行了兩項(xiàng)實(shí)驗(yàn),第一個(gè)實(shí)驗(yàn)要求模型評(píng)估人員隨機(jī)查看兩項(xiàng)模型的輸出,并選擇出其中最符合提示詞的輸出圖像,第二項(xiàng)實(shí)驗(yàn)則與第一項(xiàng)實(shí)驗(yàn)執(zhí)行大致相同,模型評(píng)估要求選擇模型中輸出者圖像品質(zhì)最佳的一方。
▲ 圖源 Stability AI 博客
實(shí)驗(yàn)結(jié)果顯示,Stable Diffusion XL Turbo 在大幅降低運(yùn)算需求的同時(shí),仍可以保持良好的圖像生成品質(zhì),該模型單詞迭代,即勝過(guò) 4 次迭代的 LCM-XL,而 4 次迭代的 Stable Diffusion XL Turbo 就可擊敗此前經(jīng)過(guò) 50 步迭代配置的 Stable Diffusion XL;在 A100 GPU 上,計(jì)算 512x512 分辨率的圖像,只需 207 毫秒。