国产绿巨人,日韩精品一区二区不卡的视频

開源！上海AI Lab視頻生成大模型書生·筑夢 2.0來了

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-24 07:53:54 瀏覽：432次

導(dǎo)讀：劃重點(diǎn) 01上海人工智能實(shí)驗(yàn)室推出新一代視頻生成大模型書生筑夢 2.0，支持5s-20s長視頻生成和720x480分辨率。 02除此之外，該模型還開源了視頻增強(qiáng)算法VEnhancer，集成插...

劃重點(diǎn)

01上海人工智能實(shí)驗(yàn)室推出新一代視頻生成大模型“書生筑夢 2.0”，支持5s-20s長視頻生成和720x480分辨率。

02除此之外，該模型還開源了視頻增強(qiáng)算法VEnhancer，集成插癥超分辨率和修復(fù)功能，提升視頻穩(wěn)定性。

03書生筑夢 2.0在開源2B模型中表現(xiàn)卓越，性能媲美開源最優(yōu)的5B模型。

04該團(tuán)隊(duì)由來自上海人工智能實(shí)驗(yàn)室和新加坡南洋理工大學(xué)S-Lab的成員組成，專注于視頻生成技術(shù)的前沿研究與應(yīng)用開發(fā)。

以上內(nèi)容由騰訊混元大模型生成，僅供參考

Ixiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年，機(jī)器之心AIxiv專欄接收報(bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

近日，上海人工智能實(shí)驗(yàn)室推出新一代視頻生成大模型 “書生·筑夢 2.0”(Vchitect 2.0)。根據(jù)官方介紹，書生·筑夢 2.0 是集文生視頻、圖生視頻、插幀超分、訓(xùn)練系統(tǒng)一體化的視頻生成大模型。

主頁：https://vchitect.intern-ai.org.cn/

Github: https://github.com/Vchitect/Vchitect-2.0

本文將詳細(xì)介紹筑夢 2.0 背后的核心亮點(diǎn)與技術(shù)細(xì)節(jié)。

核心亮點(diǎn)

1、支持更長的視頻生成：

目前來看，筑夢 2.0 支持 5s-20s 長視頻生成，超過其他開源模型的生成時長。

視頻鏈接：https://mp.weixin.qq.com/s/gUObw9ZqwAhoqresKDlz7Q

同時支持高達(dá) 720x480 分辨率的生成。該模型還能夠處理多種視頻格式，包括橫屏、豎屏、4:3、9:16 和 16:9 等比例，極大地?cái)U(kuò)展了其應(yīng)用場景。

視頻鏈接：https://mp.weixin.qq.com/s/gUObw9ZqwAhoqresKDlz7Q

2. 新一代視頻增強(qiáng)算法 VEnhancer

與其他開源模型不同，筑夢 2.0 同步開源了用于視頻增強(qiáng)的生成式模型 VEnhancer，集成了插癥超分辨率和修復(fù)功能。該增強(qiáng)算法可在 2K 分辨率、24fps 的情況下生成更加清晰、流暢的視頻，解決了視頻抖動等常見問題，顯著提升了視頻的穩(wěn)定性。

視頻鏈接：https://mp.weixin.qq.com/s/gUObw9ZqwAhoqresKDlz7Q

此外，該算法還可用于增強(qiáng)其他生成模型的視頻表現(xiàn)，GitHub 中展示了它對快手可靈生成視頻的顯著改進(jìn)，對于追求高質(zhì)量內(nèi)容輸出的創(chuàng)作者來說，VEnhancer 無疑是一個重要的工具。

3. 全球首個支持長視頻生成評測的框架

該在原有的 VBench 評測框架基礎(chǔ)上，優(yōu)化并升級了對長視頻生成的評測能力，目前已包含 Gen-3、可靈、OpenSora 等主流模型。這使開發(fā)者和用戶能夠更系統(tǒng)地評估模型性能，尤其是在長視頻生成方面。書生·筑夢 2.0 在開源 2B 模型中表現(xiàn)卓越，性能甚至可以媲美開源最優(yōu)的 5B 模型。

筑夢 2.0 技術(shù)解析

1、模型架構(gòu)

根據(jù)開源代碼分析，書生·筑夢 2.0 采用了時下熱門的擴(kuò)散式 Transformer（Diffusion Transformer）網(wǎng)絡(luò)模型。不同于 CogVideoX 的全注意力機(jī)制，筑夢 2.0 通過并行結(jié)構(gòu)的 Transformer 模塊處理視頻的空間和時間信息，包括自注意力（self-attention）、交叉注意力（cross-attention）和時間注意力（temporal-attention）。

具體來說，自注意力模塊負(fù)責(zé)每一幀之間的 token 交互，交叉注意力則使用所有幀的 token 作為查詢，文本 token 作為鍵和值，而時間注意力則在不同幀的相同位置之間執(zhí)行 token 的注意力操作。最終，模型通過線性層融合自注意力和交叉注意力的輸出，再與時間注意力的結(jié)果相加，從而實(shí)現(xiàn)高效的視頻生成任務(wù)處理。

2、訓(xùn)練框架

此外，書生·筑夢 2.0 同時開源了他們的訓(xùn)練和推理框架 LiteGen。從改框架的優(yōu)化介紹上看，該框架針對性地提供了 diffusion 任務(wù)所需的各項(xiàng)優(yōu)化。

對于如何進(jìn)一步優(yōu)化顯存以支持更大序列長度的訓(xùn)練這一方面，他們的開源代碼采用了 Activation Offload 與 Sequence Parallel 技術(shù)進(jìn)行優(yōu)化。在實(shí)現(xiàn)上，他們的 Activation Offload 在計(jì)算時將暫未使用的中間激活 offload 到 CPU 內(nèi)存上，需要時再拷貝到顯存中，這樣可以讓 GPU 顯存中盡量只留有當(dāng)前計(jì)算所必須的激活，減少了顯存峰值使用量。從開源代碼的分析開看，他們采用了通信計(jì)算重疊的方式實(shí)現(xiàn) Activation Offload，這將有助于降低設(shè)備間拷貝通信對整體性能的影響。

據(jù)其開源代碼的說明描述，在 A100 GPU 上，采用 Activation Offload 讓筑夢 2.0 的 2B 模型單卡序列長度提升了 42%；進(jìn)一步應(yīng)用 Sequence Parallel 拓展至 8 卡，最大序列長度提升 8.6 倍，可以滿足分鐘級視頻生成訓(xùn)練的計(jì)算需求。

從其代碼實(shí)現(xiàn)上來看，他們的框架設(shè)計(jì)得較為輕量，使用接口簡潔，可以在改動比較小的情況下集成框架內(nèi)的各項(xiàng)優(yōu)化，在易用性上具有不錯的優(yōu)勢。

團(tuán)隊(duì)介紹

上海人工智能實(shí)驗(yàn)室的書生筑夢團(tuán)隊(duì)由來自上海人工智能實(shí)驗(yàn)室和新加坡南洋理工大學(xué)S-Lab的成員組成，專注于視頻生成技術(shù)的前沿研究與應(yīng)用開發(fā)。他們致力于通過創(chuàng)新的算法和架構(gòu)優(yōu)化，提升視頻生成模型的質(zhì)量和效率。近期，他們的工作包括VBench、VideoBooth 、FreeU、FreeInit、Latte 、VEnhancer等，這些項(xiàng)目在視頻生成、插癥超分辨率處理以及生成質(zhì)量評估等多個關(guān)鍵領(lǐng)域都取得了顯著進(jìn)展。

相關(guān)熱詞： 開源上海 Lab 視頻生成大模型書生筑夢 2.0

開源！上海AI Lab視頻生成大模型書生·筑夢 2.0來了
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-24 07:53:54 瀏覽：432次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

開源！上海AI Lab視頻生成大模型書生·筑夢 2.0來了 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-24 07:53:54 瀏覽：432次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

開源！上海AI Lab視頻生成大模型書生·筑夢 2.0來了
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-24 07:53:54 瀏覽：432次