展會信息港展會大全

2024服貿(mào)會|生數(shù)科技,求解視頻大模型生成主體不一致問題
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-16 15:07:41   瀏覽:1521次  

導讀:當我們向AI輸入一條指令,讓它生成一段視頻時,實際上,核心訴求是希望AI幫助我們完成一個完整的敘事。要實現(xiàn)這個目標,需要讓核心元素上保持統(tǒng)一和可控,在近日召開的2024年中國國際服務貿(mào)易交易會(以下簡稱服貿(mào)會)上,生數(shù)科技董事長兼CEO唐家渝給出解決...

“當我們向AI輸入一條指令,讓它生成一段視頻時,實際上,核心訴求是希望AI幫助我們完成一個完整的敘事。要實現(xiàn)這個目標,需要讓核心元素上保持統(tǒng)一和可控”,在近日召開的2024年中國國際服務貿(mào)易交易會(以下簡稱“服貿(mào)會”)上,生數(shù)科技董事長兼CEO唐家渝給出解決方案:視頻大模型Vidu的主體參照功能,即能實現(xiàn)對任意主體的一致性生成。為了做到這一點,業(yè)界曾嘗試“先AI生圖、再圖生視頻”等方法,但主體參照功能不光能減少工作量,還打破了分鏡頭畫面對視頻內(nèi)容的限制。技術(shù)的突破讓視頻大模型商業(yè)化有了更大的想象空間。

大語言模型盛行時,生數(shù)科技就瞄準了多模態(tài)賽道,并在2024年1月上線了文生視頻的能力。按照生數(shù)科技的計劃,視頻能力需要更長時長、更高一致性去發(fā)展,但Sora的亮相讓這家創(chuàng)業(yè)公司的計劃提前。

4月底發(fā)布Vidu,支持一鍵生成16秒高清視頻,6月支持一鍵生成32秒視頻,同時生成音效,并從單個生成的視頻中重構(gòu)出4D視頻。7月底,Vidu正式面向全球上線,開放了圖生視頻、角色一致性功能以及最長8秒的視頻生成能力。

此次,唐家渝在2024年服貿(mào)會上重點介紹的是Vidu的最新功能“主體參照”。所謂主體參照,就是允許用戶上傳任意主體的一張圖片,Vidu 就能夠鎖定該主體的形象,通過描述詞任意切換場景,輸出主體一致的視頻,其中“任意”是關(guān)鍵詞,即不管是人物、動物、商品,還是動漫角色、虛構(gòu)主體,都能確保其在視頻生成中的一致性和可控性。

北京商報記者了解到,在該功能上線前,視頻大模型對實現(xiàn)這一目標并不是毫無解決方案,“圖生視頻”和“角色一致性”等能力也可做到。

以先AI生圖、再圖生視頻的方法為例,可以通過AI繪圖工具如 Midjourney 生成分鏡頭畫面,先在圖片層面保持主體一致,然后再將這些畫面轉(zhuǎn)化為視頻片段并進行剪輯合成。

但問題在于,AI 繪圖的一致性并不完美,往往需要通過反復修改和局部重繪來解決。更重要的是,實際的視頻制作過程中涉及眾多場景和鏡頭,這種方法在處理多組分鏡頭的場景時,生圖的工作量巨大,能占到全流程的一半以上,且最終的視頻內(nèi)容也會因為過分依賴分鏡頭畫面而缺乏創(chuàng)造性和靈活性。

Vidu的“主體參照”功能通過“上傳主體圖+輸入場景描述詞”的方式,直接生成視頻素材。這一方法大幅減少了工作量,還打破了分鏡頭畫面對視頻內(nèi)容的限制,讓創(chuàng)作者能夠基于文本描述,創(chuàng)造出畫面豐富、靈活多變的視頻內(nèi)容。

中央廣播電視總臺導演、AIGC藝術(shù)家石宇翔分享動畫短片《夏日的禮物》創(chuàng)作流程時表示,與基礎的圖生視頻功能相比,“主體參照”功能擺脫了靜態(tài)圖片的束縛,生成的畫面更具感染力和自由度,讓創(chuàng)作的連貫性大大提升。同時幫助他節(jié)約了七成左右的生圖工作量。

北京商報記者魏蔚

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港