展會(huì)信息港展會(huì)大全

對(duì)話生數(shù)科技CEO唐家渝:AI視頻到了“普及”節(jié)點(diǎn) 提升時(shí)長(zhǎng)不是產(chǎn)品化的重點(diǎn)
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-13 13:28:29   瀏覽:1982次  

導(dǎo)讀:每經(jīng)記者:李少婷 可楊每經(jīng)編輯:文多 9月11日,生數(shù)科技舉辦媒體開(kāi)放日活動(dòng),發(fā)布主體參照(Subject Consistency)功能,意在破解視頻模型生成主體的一致性難題。 活動(dòng)上,生數(shù)科技聯(lián)合創(chuàng)始人、CEO唐家渝在回應(yīng)《每日經(jīng)濟(jì)新聞》記者關(guān)于商業(yè)模式的提問(wèn)時(shí)表...

每經(jīng)記者:李少婷 可楊每經(jīng)編輯:文多

9月11日,生數(shù)科技舉辦媒體開(kāi)放日活動(dòng),發(fā)布“主體參照”(Subject Consistency)功能,意在破解視頻模型生成主體的“一致性”難題。

活動(dòng)上,生數(shù)科技聯(lián)合創(chuàng)始人、CEO唐家渝在回應(yīng)《每日經(jīng)濟(jì)新聞》記者關(guān)于商業(yè)模式的提問(wèn)時(shí)表示,目前行業(yè)內(nèi)有SaaS(軟件即服務(wù))訂閱和MaaS(模型即服務(wù))兩種,7月30日Vidu上線以來(lái),在全球范圍內(nèi)已收到數(shù)萬(wàn)個(gè)API接入申請(qǐng)。

就底層架構(gòu),唐家渝表示旗下產(chǎn)品“VIDU”所用的“U-ViT架構(gòu)”與Sora所用的“DiT架構(gòu)”幾乎一模一樣,差別在于U-ViT作了更多面向落地的設(shè)計(jì)。在技術(shù)路線上,大家現(xiàn)在處于底層架構(gòu)收斂的狀態(tài),但同質(zhì)化并不代表大家所有進(jìn)展、能力相同,唐家渝舉例說(shuō):“例如現(xiàn)在的語(yǔ)言模型,(雖然)大家都使用Transformer架構(gòu),但從現(xiàn)實(shí)來(lái)看,OpenAI還是明顯領(lǐng)先的。”

目前,AI視頻的主要使用者還是專(zhuān)業(yè)用戶,如電影工作者等,但唐家渝認(rèn)為,AI視頻已經(jīng)來(lái)到了“普及”的節(jié)點(diǎn)。

此外,從當(dāng)前階段的收入來(lái)說(shuō),生數(shù)科技在B端市場(chǎng)獲得的收入更多,C端的增長(zhǎng)曲線則在Vidu產(chǎn)品上市這一個(gè)月以來(lái)非常“陡峭”。

唐家渝 圖片來(lái)源:每經(jīng)記者 李少婷 攝

“最終的目標(biāo)還是做通用大模型”

唐家渝是清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室碩士,此前曾任瑞萊智慧副總裁、騰訊優(yōu)圖實(shí)驗(yàn)室高級(jí)產(chǎn)品經(jīng)理等。唐家渝目前所在的生數(shù)科技于2023年3月成立,今年3月初宣布完成新一輪融資。今年4月底,該公司與清華大學(xué)聯(lián)合研發(fā)的原創(chuàng)視頻大模型Vidu面向全球發(fā)布,7月底正式上線,全面開(kāi)放使用。

Vidu問(wèn)世即被稱(chēng)為“中國(guó)版Sora”。這種稱(chēng)呼一方面是因?yàn)橥饨鐚?duì)中國(guó)視頻大模型充滿期待,另一方面,從技術(shù)架構(gòu)上說(shuō),二者也有異曲同工之處。

據(jù)介紹,Vidu的底層基于自研的U-ViT架構(gòu),而Sora是基于DiT架構(gòu)。關(guān)于U-ViT與DiT架構(gòu)的區(qū)別,唐家渝介紹:“一句話總結(jié)來(lái)說(shuō),幾乎一模一樣。”二者都是Diffusion和Transformer的融合,甚至底層一些技術(shù)細(xì)節(jié)也是相同的。不同之處在于,U-ViT架構(gòu)“做了更多面向落地的優(yōu)化設(shè)計(jì)”,簡(jiǎn)單概括下來(lái),就是在訓(xùn)練同一模型時(shí),相同時(shí)間下,U-ViT所需的算力更少。

從整體的技術(shù)路線來(lái)看,當(dāng)前國(guó)內(nèi)幾家視頻大模型都走的是“類(lèi)Sora路線”,那大家未來(lái)是否會(huì)愈加同質(zhì)化?

對(duì)此,唐家渝介紹,當(dāng)前大家是處于底層架構(gòu)收斂的狀態(tài)中,“但同質(zhì)化并不代表大家所有進(jìn)展、能力都相同”。他以語(yǔ)言模型為例分析道,大家都會(huì)使用Transformer架構(gòu),但從現(xiàn)實(shí)情況來(lái)看,OpenAI還是明顯領(lǐng)先,這是因?yàn)樵谶@一架構(gòu)基礎(chǔ)上仍有諸多環(huán)節(jié)需要技術(shù)技巧、實(shí)踐經(jīng)驗(yàn)幫助破解難點(diǎn),這就導(dǎo)致了不同語(yǔ)言模型在能力上的差距。

當(dāng)前,業(yè)內(nèi)也在探索新的架構(gòu)路線,例如將多模態(tài)的生成和多模態(tài)理解結(jié)合起來(lái),但目前仍沒(méi)有特別好的方案出現(xiàn)。

“我們最終的目標(biāo)還是做通用大模型,視頻生成是多模態(tài)生成大模型中間的一個(gè)階段。”唐家渝坦承了開(kāi)發(fā)通用大模型的雄心。

他還表示:“這并不意味著我們完全只在做這一個(gè)事情(指視頻大模型),我們除了視頻以外也有其他模態(tài)的生成能力。”

“目前B端市場(chǎng)收入更多”

技術(shù)底層邏輯的趨同,也或多或少低導(dǎo)致了市場(chǎng)開(kāi)發(fā)思路相近。

以生數(shù)科技為例,唐家渝將落地商業(yè)模式分為兩個(gè)方向:其一是SaaS訂閱模式,Vidu每個(gè)月有一些免費(fèi)的額度,但是如果有更多的需求或想使用更高級(jí)的能力,就需要支付訂閱費(fèi)用,Vidu也會(huì)不斷豐富產(chǎn)品功能,以滿足用戶的創(chuàng)作需求;其二是模型能力輸出模式(MaaS),當(dāng)前不少客戶需要視頻生成能力,以此作為工作流程的一個(gè)環(huán)節(jié)或者來(lái)衍生出有意思的玩法,這些客戶希望可以直接調(diào)用模型。

從收入角度來(lái)看,B端市場(chǎng)在目前這個(gè)階段獲得的收入更多。不過(guò)Vidu上線一個(gè)月來(lái),C端的增長(zhǎng)曲線也非常“陡峭”。“我們目前判斷下來(lái)的話,B端(的需求)是比較明確、比較直接和比較穩(wěn)定的,所以B端是我們的一個(gè)長(zhǎng)期、重點(diǎn)方向。C端我們也在不斷探索。”唐家渝表示。

當(dāng)前,國(guó)內(nèi)的視頻生成模型和工具已形成“出海潮”,并且表現(xiàn)亮眼,但唐家渝認(rèn)為:“還不能說(shuō)國(guó)內(nèi)已經(jīng)完全領(lǐng)先,國(guó)內(nèi)外頭部玩家都屬于第一梯隊(duì)。”

“AI視頻來(lái)到了一個(gè)節(jié)點(diǎn)”

視頻大模型的受眾群體中,影視、動(dòng)漫從業(yè)者居多,他們多被視為“專(zhuān)業(yè)受眾”,那對(duì)“普通人”來(lái)說(shuō),AI視頻何時(shí)能成為他們可以駕馭的工具?

唐家渝以攝影為例,從膠片機(jī)時(shí)代到手機(jī)攝影普及,就是一個(gè)不斷降低創(chuàng)作者門(mén)檻的過(guò)程。“現(xiàn)在的AI視頻來(lái)到了一個(gè)節(jié)點(diǎn)。”唐家渝介紹,9月11日,生數(shù)科技發(fā)布的“主體參照”功能,正是為降低創(chuàng)作者門(mén)檻或者加速創(chuàng)作過(guò)程所作的努力。

“技術(shù)仍是關(guān)鍵因素,目前的視頻生成只是初步符合物理規(guī)律,還有很高的天花板需要突破,比如更強(qiáng)的模型能力以及更多模態(tài)的協(xié)同生成。”唐家渝介紹,這次發(fā)布的“主體參照”能力在一致性生成方面確實(shí)有了很大提升,但是還有很多地方需要進(jìn)一步提升。“例如要大模型從生成一個(gè)商品變成生成一個(gè)工藝品,而這個(gè)工藝品上面有繁復(fù)花紋和鏤空部分,面對(duì)如此復(fù)雜的結(jié)構(gòu),目前的生成成功率依舊不高。場(chǎng)景生成包含很多組成因素,例如運(yùn)動(dòng)鞋,我就希望它能在更復(fù)雜、更動(dòng)態(tài)化的場(chǎng)景中有更好的表現(xiàn)。這些都需要不斷提升模型能力。”

這個(gè)過(guò)程中,技術(shù)的原創(chuàng)性和突破性需要與良好的商業(yè)化齊頭并進(jìn),因?yàn)樯虡I(yè)公司畢竟不是科研機(jī)構(gòu)。

以視頻生成的時(shí)長(zhǎng)為例,拓展生成時(shí)長(zhǎng)需要提升模型對(duì)世界抽象理解的能力、信息壓縮和放大的雙向能力。當(dāng)前Vidu最長(zhǎng)可以生成32秒的視頻,生數(shù)科技計(jì)劃將其擴(kuò)展得更長(zhǎng),不過(guò),時(shí)長(zhǎng)還不是生數(shù)科技現(xiàn)在重點(diǎn)產(chǎn)品化的部分。

“在實(shí)際創(chuàng)作中,粗略地來(lái)說(shuō),90%以上的片段都是幾秒鐘。因此,從實(shí)用角度來(lái)看,我們還沒(méi)有將時(shí)長(zhǎng)作為我們的優(yōu)先發(fā)布考慮。”唐家渝強(qiáng)調(diào),但從模型能力角度,公司實(shí)際上在持續(xù)提升。

每日經(jīng)濟(jì)新聞

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港