日本一道一区二区视频,无码国产v片在线观看

【CVPR2024】阿里云人工智能平臺PAI圖像編輯算法論文入選CVPR2024

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-06-17 14:03:25 瀏覽：10969次

導讀：近期，阿里云人工智能平臺PAI發(fā)表的圖像編輯算法論文在CVPR-2024上正式亮相發(fā)表。論文成果是阿里云與華南理工大學賈奎教授領(lǐng)銜的團隊共同研發(fā)。CVPR（計算機視覺與模式識別會議）是計算機視覺和模式識別領(lǐng)域的頂級國際會議，旨在展示最新的研究進展和技術(shù)成...

近期，阿里云人工智能平臺PAI發(fā)表的圖像編輯算法論文在CVPR-2024上正式亮相發(fā)表。論文成果是阿里云與華南理工大學賈奎教授領(lǐng)銜的團隊共同研發(fā)。CVPR（計算機視覺與模式識別會議）是計算機視覺和模式識別領(lǐng)域的頂級國際會議，旨在展示最新的研究進展和技術(shù)成就，推動這一領(lǐng)域理論與應用的前沿進展，并通過精選提交的高水平學術(shù)論文和實踐工作，對學術(shù)界和工業(yè)界產(chǎn)生深遠的影響。此次入選標志著阿里云人工智能平臺PAI自主研發(fā)的圖像編輯算法達到了先進水平，贏得了國際學術(shù)界的認可。在阿里云人工智能平臺PAI算法團隊和華南理工大學的老師學生們一同的堅持和熱情下，將阿里云在圖像生成與編輯領(lǐng)域的先進理念得以通過學術(shù)論文和會議的形式，向業(yè)界傳遞和展現(xiàn)。

基于文本引導的圖像編輯任務(wù)允許用戶使用簡單的文字描述來指導修改一幅圖像，無需具備復雜的圖像編輯軟件或?qū)I(yè)知識即可實現(xiàn)編輯效果。用戶可以通過輸入文本對圖像進行涉及顏色變更、物體添加或去除、風格轉(zhuǎn)換等多種編輯的操作。這種交互式的編輯方式大大降低了圖像編輯的門檻，使得創(chuàng)意表達更加便捷和個性化。

目前的一些先進圖像編輯方法，例如Prompt-to-Prompt（P2P），通過替換與目標編輯術(shù)語相對應的源提示中的交叉注意力圖來改變圖像的特定區(qū)域。而Plug-and-Play（PnP）策略則是先從注意力層提取原始圖像的空間特征和自注意力，再將它們注入到目標圖像的生成過程中。在這些技術(shù)中，注意力層對于控制圖像布局以及確立輸入提示與生成圖像之間的關(guān)聯(lián)起著至關(guān)重要的作用。但是，對注意力層的不恰當調(diào)整可能會帶來意外的編輯結(jié)果或者編輯失敗。例如，在交叉注意力層進行編輯時，真實圖像可能因此而失去預期效果，如嘗試將人類編輯成機器人或?qū)⑵囶伾兏鼮榧t色的編輯嘗試可能不會成功。

圖1. 圖像編輯的失敗案例以及我們提出的方法成功編輯的結(jié)果

在我們的研究中，我們介紹了一種名為Free-Prompt-Editing(FPE)的簡潔而高效的算法。FPE通過在去噪階段替換指定注意力層的自注意力圖進行圖像編輯，這一過程中解放了需要源提示的限制，這對實際的真實圖像編輯場景極有價值。總體來說，我們的研究促進了對穩(wěn)定擴散（Stable Diffusion）中注意力圖的理解，并針對文本引導的圖像編輯（Text-Image-Editing，簡稱TIE）提供了切實可行的解決策略。圖2展示了FPE算法在合成圖像上實施編輯的具體過程。

圖 2：Free-Prompt-Editing 在對合成圖像進行編輯的過程示意圖

Free-Prompt-Editing偽代碼如下：

圖 3：Free-Prompt-Editing 在合成圖像編輯和真實圖像編輯場景下的偽代碼

圖4展示了FPE的編輯結(jié)果，它成功地轉(zhuǎn)換了原始圖像的各種屬性、風格、場景和類別。

圖 4：Free-Prompt-Editing 編輯結(jié)果示例

圖5呈現(xiàn)了FPE技術(shù)應用于基于穩(wěn)定擴散算法的其他定制模型中的編輯效果。觀察這些成果，我們可以發(fā)現(xiàn)FPE技術(shù)能夠高效地適用于各種擴散模型。它不僅成功實現(xiàn)了性別轉(zhuǎn)換，把女孩變?yōu)槟泻�，還能夠調(diào)整人物的年齡，使男孩呈現(xiàn)出10歲或80歲的特征；此外，它還能修改發(fā)型、變換頭發(fā)色彩、替換背景乃至進行類別上的轉(zhuǎn)變。

圖 5：Free-Prompt-Editing 編輯結(jié)果示例

圖6對比展示了FPE與其他一些SOTA圖像編輯技術(shù)的效果。無論是對真實照片還是合成圖像，F(xiàn)PE均展現(xiàn)出了高效的編輯能力。在所有的案例中，F(xiàn)PE都能夠?qū)崿F(xiàn)與描述提示高度一致的精細編輯，同時最大限度地保留了原圖的結(jié)構(gòu)細節(jié)。