精品一国产毛片av毛片在线看,99热这里只有精品5,日本一区二区三区欧美在线观看

AI出圖更快、更美、更懂你心意，高美感文生圖模型修煉了哪些技術(shù)秘籍？

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-08-12 15:55:20 瀏覽：4478次

導(dǎo)讀：隨著大模型的落地按下加速鍵，文生圖無(wú)疑是最火熱的應(yīng)用方向之一。自從 Stable Diffusion 誕生以來(lái)，海內(nèi)外的文生圖大模型層出不窮，一時(shí)有「神仙打架」之感。短短幾個(gè)月，「最強(qiáng) AI 畫師」的稱號(hào)幾次易主。每一次技術(shù)迭代，都不斷刷新著AI圖像生成質(zhì)量和速...

隨著大模型的落地按下加速鍵，文生圖無(wú)疑是最火熱的應(yīng)用方向之一。

自從 Stable Diffusion 誕生以來(lái)，海內(nèi)外的文生圖大模型層出不窮，一時(shí)有「神仙打架」之感。短短幾個(gè)月，「最強(qiáng) AI 畫師」的稱號(hào)幾次易主。每一次技術(shù)迭代，都不斷刷新著AI圖像生成質(zhì)量和速度的上限。

于是現(xiàn)在，我們輸入幾個(gè)文字就能得到任何想要的畫面。無(wú)論是專業(yè)級(jí)別的商業(yè)海報(bào)，還是超寫實(shí)畫風(fēng)的寫真照片，AI 制圖的逼真程度已經(jīng)讓我們嘆為觀止。甚至 AI 贏下了 2023 年度的索尼世界攝影獎(jiǎng)。在大獎(jiǎng)公布之前，這幅「照片」已經(jīng)在倫敦薩默賽特宮進(jìn)行展覽如果作者不公開說(shuō)明，可能沒有人會(huì)發(fā)現(xiàn)這張照片實(shí)際出自 AI 之手。

Eldagse和他的AI生成作品《電工》

如何讓 AI 畫出來(lái)的圖片更具美感，這離不開 AI 技術(shù)人員持之以恒的付出。第六期的《AIGC體驗(yàn)派》就邀請(qǐng)到了豆包文生圖技術(shù)專家李亮、NVIDIA 解決方案架構(gòu)師趙一嘉，為我們深入剖析了文生圖模型出圖更美、更快、更懂用戶心意背后的技術(shù)鏈路。

直播開始，李亮首先詳細(xì)拆解了近期國(guó)產(chǎn)大模型「頂流」字節(jié)跳動(dòng)豆包大模型在文生圖模型方面的技術(shù)升級(jí)。

李亮表示，豆包團(tuán)隊(duì)想解決的問題主要包含三個(gè)方面：一是如何實(shí)現(xiàn)更強(qiáng)的圖文匹配來(lái)滿足用戶的想法設(shè)計(jì)；第二個(gè)是如何生成更具美感的圖像來(lái)提供更極致的用戶體驗(yàn)；第三個(gè)是如何更快速地出圖來(lái)滿足超大規(guī)模的服務(wù)調(diào)用。

在圖文匹配方面，豆包團(tuán)隊(duì)從數(shù)據(jù)入手，對(duì)海量圖文數(shù)據(jù)做精細(xì)化篩選和過濾，最終入庫(kù)了千億量級(jí)的高質(zhì)量圖像。此外，團(tuán)隊(duì)還專門訓(xùn)練了一個(gè)多模態(tài)大語(yǔ)言模型進(jìn)行 recapiton 任務(wù)。這個(gè)模型將更加全面、客觀地描述圖片中圖像的物理關(guān)系。

有了高質(zhì)量高細(xì)節(jié)的圖文對(duì)數(shù)據(jù)之后，想要更好地發(fā)揮出模型的實(shí)力，還需要提升文本理解模塊的能力。團(tuán)隊(duì)采用原生雙語(yǔ)大語(yǔ)言模型作為文本編碼器，顯著提升了模型理解中文的能力，因此，面對(duì)「唐代」、「元宵節(jié)」等國(guó)風(fēng)元素，豆包·文生圖模型也展現(xiàn)出了更加深刻的理解力。

對(duì)于 Diffsuion 模型架構(gòu)，豆包團(tuán)隊(duì)也注入了獨(dú)門秘籍，他們 UNet 進(jìn)行了有效地scaling，通過增加參數(shù)量，豆包·文生圖模型進(jìn)一步地提升了圖像文本對(duì)的理解和高保真的生成能力。

針對(duì)用戶直觀感受最明顯的美學(xué)風(fēng)格，豆包團(tuán)隊(duì)引入了專業(yè)的美學(xué)指導(dǎo)，也時(shí)刻關(guān)注用戶和大眾審美的偏好。與此同時(shí)，團(tuán)隊(duì)也在數(shù)據(jù)和模型架構(gòu)上下了一番功夫。很多時(shí)候，用戶得到的圖像和 demo 展示的效果對(duì)比好比「買家秀」和「賣家秀」，實(shí)際上是給出的 prompt 對(duì)于模型來(lái)說(shuō)不夠詳細(xì)和明確，而豆包文生圖模型引入了一個(gè)「Rephraser」，在遵循用戶原始意圖的同時(shí)，為提示詞增加更多的細(xì)節(jié)描述，所有用戶也將因此體驗(yàn)到更完美的生成效果。

為了讓模型出圖速度更快，每張圖消耗的成本更低，豆包團(tuán)隊(duì)在模型的蒸餾方式上也給出了新的解題思路，一項(xiàng)代表性的成果是 Hyber-SD，這是一種新穎的擴(kuò)散模型蒸餾框架，在壓縮去噪步數(shù)的同時(shí)可保持接近無(wú)損的性能。

接下來(lái)，英偉達(dá)解決方案架構(gòu)師趙一嘉從底層技術(shù)出發(fā)，講解了文生圖最主流的基于Unet的SD和DIT兩種模型架構(gòu)及其相應(yīng)的特性，并介紹了英偉達(dá)的Tensorrt, Tensorrt-LLM, Triton, Nemo Megatron 等工具如何為部署模型提供支持，助力大模型更加高效地推理。

趙一嘉首先分享了 Stable Diffusion 背后模型的原理詳解，細(xì)致地闡述了 Clip、VAE 和 Unet 等關(guān)鍵組件的工作原理。隨著 Sora 爆火，也帶火了背后的 DiT（擴(kuò)散 Transformer）架構(gòu)。趙一嘉進(jìn)一步從模型結(jié)構(gòu)、特性和算力消耗三方面，從模型結(jié)構(gòu)、特性和資源消耗三個(gè)方面，對(duì) SD 和 DiT 的優(yōu)勢(shì)進(jìn)行了全面的比較。

使用 Stable diffusion 生成圖像時(shí)，往往會(huì)感覺提示詞內(nèi)容在生成結(jié)果中都得到了呈現(xiàn)，但圖不是自己想要的，這是因?yàn)榛谖淖殖鰣D的 Stable diffusion 并不擅長(zhǎng)控制圖像的細(xì)節(jié)，例如構(gòu)圖、動(dòng)作、面部特征、空間關(guān)系等。因此，基于Stable diffusion 的工作原理，研究人員們?cè)O(shè)計(jì)了許多控制模塊，彌補(bǔ) Stable diffusion 的短板。趙一嘉補(bǔ)充了其中具有代表性的 IP-adapter 和 ControlNet。

想要加快吃算力的文生圖模型的推理速度，英偉達(dá)的技術(shù)支持發(fā)揮了關(guān)鍵作用。趙一嘉介紹了 Nvidia TensorRT 和 TensorRT-LLM 工具，這些工具通過高性能卷積、高效調(diào)度和分布式部署等技術(shù)，優(yōu)化了圖文生成模型的推理過程。同時(shí)，英偉達(dá)的 Ada、Hopper 以及即將推出的 BlackWell 硬件架構(gòu)，都已支持 FP8 訓(xùn)練和推理，將為模型訓(xùn)練帶來(lái)更加絲滑的體驗(yàn)。

經(jīng)歷了六場(chǎng)精彩的直播，由火山引擎、NVIDIA 聯(lián)手機(jī)器之心和 CMO CLUB 共同推出的《AIGC體驗(yàn)派》迎來(lái)了圓滿收官。通過這六期節(jié)目，相信大家對(duì) AIGC 如何從「有趣」變?yōu)椤赣杏谩褂辛烁畹睦斫狻Ｎ覀円财诖禔IGC 體驗(yàn)派》不止停留在節(jié)目的討論中，并更能在實(shí)際中加速營(yíng)銷領(lǐng)域智能化升級(jí)的進(jìn)程。

《AIGC 體驗(yàn)派》全六期回顧地址：https://vtizr.xetlk.com/s/7CjTy

相關(guān)熱詞： 出圖更快更美更懂心意高美感美感文生圖模型修

AI出圖更快、更美、更懂你心意，高美感文生圖模型修煉了哪些技術(shù)秘籍？
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-08-12 15:55:20 瀏覽：4478次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

AI出圖更快、更美、更懂你心意，高美感文生圖模型修煉了哪些技術(shù)秘籍？ 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-08-12 15:55:20 瀏覽：4478次