展會(huì)信息港展會(huì)大全

對話徐懷哲:Morph AI要做第一個(gè)AI native視頻生產(chǎn)工作流
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-03-04 14:59:20   瀏覽:6215次  

導(dǎo)讀:Morph AI成為Stability AI首位視頻產(chǎn)品領(lǐng)域的合作伙伴。這家年輕的AI公司要做新一代視頻工作流的定義者。 作者|甲小姐 劉楊楠 一家創(chuàng)業(yè)公司最絕妙的狀態(tài),或許是身處最閃耀的賽道,集資本、媒體、學(xué)界各方青睞,并擁有一個(gè)年輕且充滿干勁的團(tuán)隊(duì),朝著一個(gè)共...

Morph AI成為Stability AI首位視頻產(chǎn)品領(lǐng)域的合作伙伴。這家年輕的AI公司要做新一代視頻工作流的定義者。

作者|甲小姐 劉楊楠

一家創(chuàng)業(yè)公司最絕妙的狀態(tài),或許是身處最閃耀的賽道,集資本、媒體、學(xué)界各方青睞,并擁有一個(gè)年輕且充滿干勁的團(tuán)隊(duì),朝著一個(gè)共同的宏愿前進(jìn)。

Morph AI,這家成立不到一年的AI生成視頻公司,正處在這樣的階段。

創(chuàng)始人徐懷哲是香港科技大學(xué)的人工智能博士,2023年4月,他組建了一支極其年輕的團(tuán)隊(duì),聯(lián)創(chuàng)和團(tuán)隊(duì)核心成員均為90后、95后、00后,并立下一個(gè)宏大的遠(yuǎn)景,要“做第一條AI native的視頻生產(chǎn)工作流”

2023年4月,Morph AI成立。當(dāng)時(shí),整個(gè)行業(yè)正被包裹在ChatGPT掀起的文本生成模型狂歡中,難度似乎更高的視頻生成模型“高處不勝寒”,尚處于將熱未熱的狀態(tài)。但10個(gè)月后的今天,生成式AI領(lǐng)域迎來新寵兒Sora。

Sora正在重塑傳統(tǒng)的視頻生產(chǎn)模式。甲子光年智庫提出,基于AIGC視頻生成工具的提示交互式視頻生產(chǎn)制作方式將成為新范式。

“So exciting!”Sora發(fā)布當(dāng)天,徐懷哲在朋友圈感嘆并寫下:“現(xiàn)階段如何結(jié)合已有模型能力,提供更好的工具和全新的workflow(工作流)是整個(gè)行業(yè)的下一個(gè)match point。”

而Morph AI要做的,就是成為新一代視頻工作流的定義者。

北京時(shí)間2024年2月29日凌晨,Morph AI迎來里程碑式的一刻。知名人工智能企業(yè)Stability AI宣布與Morph AI達(dá)成合作,Morph AI成為Stability AI在視頻產(chǎn)品領(lǐng)域的首位合作伙伴。

與此同時(shí),Morph AI發(fā)布了面向全球用戶的網(wǎng)頁端產(chǎn)品Morph Studio。

Morph Studio有三大關(guān)鍵詞:

“All in one”,即將視頻生成、剪輯、后期等環(huán)節(jié)集于一體,用更可視化的方式激發(fā)創(chuàng)作者的想象力,支持創(chuàng)作者調(diào)用AI模型探索每個(gè)鏡頭的無限可能;

“可互動(dòng)視頻”,即基于生成式AI全新的信息分發(fā)機(jī)制,激發(fā)用戶對視頻的二創(chuàng)興趣;

“可互動(dòng)視頻社區(qū)”,則是可互動(dòng)視頻內(nèi)容生態(tài)的載體,讓很多優(yōu)秀創(chuàng)作者提供模板素材,其他創(chuàng)作者可以去復(fù)制、借鑒、創(chuàng)新某個(gè)工作流,把視頻替換為自己想要的效果。

Morph要做第一家把video foundation model落地為創(chuàng)作者使用工具的公司。”徐懷哲在對話中多次強(qiáng)調(diào)這一點(diǎn)。

本文,甲小姐對話Morph AI創(chuàng)始人&CEO徐懷哲,聊聊這位年輕創(chuàng)業(yè)者對“游戲終局”的思考,以及對當(dāng)下的小心求證。

1.談路徑:“人類智慧只是智慧的一種范式”

“世界是不是真的需要一個(gè)解析解?”

甲小姐:Sora最讓你exciting的點(diǎn)是什么?

徐懷哲:我看到Sora第一個(gè)case就感覺這是非常了不起的工作?吹腸ase越多,越感覺Sora拉開整個(gè)行業(yè)一個(gè)身位,行業(yè)已經(jīng)進(jìn)入一個(gè)全新的階段。Sora無疑加快了整個(gè)應(yīng)用層的發(fā)展速度,也印證了我們之前在模型層的一些猜想,這是最讓我感到exciting的地方。

甲小姐:你曾預(yù)測2024年AI生成視頻賽道會(huì)迎來Midjourney時(shí)刻,Sora的出現(xiàn)是那個(gè)時(shí)刻嗎?

徐懷哲:更準(zhǔn)確地說,Sora更像文本模型的GPT-3時(shí)刻。我們逐幀分析了Sora生成的大量case,發(fā)現(xiàn)Sora并不十全十美,但它有兩個(gè)特點(diǎn):通過scaling law和原有模型拉開了差距;驗(yàn)證了scaling law可以work。對Morph來說,這是一個(gè)積極信號(hào),意味著視頻很快會(huì)迎來它的GPT-3.5甚至GPT-4時(shí)刻,對整個(gè)行業(yè)都是巨大利好。

甲小姐:Sora出現(xiàn)前,頭部玩家還沒有百分百確認(rèn)scaling law是終極范式嗎?

徐懷哲:過去幾年深度學(xué)習(xí)快速發(fā)展,讓我們更加堅(jiān)定地相信scaling law,只是不確定該用哪條技術(shù)路徑實(shí)現(xiàn)。從去年11月開始,我們分別嘗試了三條路線:Diffusion with U-Net;Diffusion with Transformer,即DiT路線;以及純Transformer路線。我們在相對小的數(shù)據(jù)集里做了試驗(yàn),但沒有比較出哪個(gè)更好。Scaling law的前提是有足夠多的數(shù)據(jù)量來scale up。OpenAI無疑表明DiT路線更有潛力。

甲小姐:現(xiàn)在大家應(yīng)該All in DiT,還是去尋找下一個(gè)更好的路徑?DiT會(huì)成為AI生成視頻的“大一統(tǒng)”范式嗎?

徐懷哲:很難有確定性答案,但現(xiàn)階段大家對DiT還是很有信心。我相信DiT的潛力還沒有完全釋放。如果scaling law成立,我相信OpenAI已經(jīng)拿更多數(shù)據(jù)和算力去做這件事了。

甲小姐:Sora和ChatGPT的發(fā)酵節(jié)奏很相似,哪個(gè)帶給你的震撼更大?

徐懷哲:作為一個(gè)視頻創(chuàng)業(yè)者,一定是Sora的震撼更大。但客觀來講還是ChatGPT的沖擊更大,因?yàn)槟鞘歉帐酪饬x的scaling law所帶來的震撼。ChatGPT帶來的變革不同以往,Sora只是重復(fù)了相似的變革。

甲小姐:Sora能快速引起這么大反響,和OpenAI的營銷措辭也有關(guān),比如他們直接將Sora拔高到了“物理世界的通用模擬器”高度。你認(rèn)為從Sora到通用世界模擬器這條路走得通嗎?

徐懷哲:Sora至少在這條道路上。我們內(nèi)部很欣慰OpenAI能這樣說。舉個(gè)例子,一個(gè)嬰兒學(xué)習(xí)世界知識(shí)最先學(xué)到的是視覺知識(shí),先看到這個(gè)世界,后來逐漸學(xué)習(xí)語言。GPT可以直接學(xué)文字,而Sora可以直接學(xué)習(xí)視覺,之后再配上文字。

甲小姐:Sora“物理世界的通用模擬器”這個(gè)說法很快面臨爭議,谷歌、楊立昆等試圖將Sora“拉下神壇”,他們認(rèn)為Sora不能真正模擬現(xiàn)實(shí)世界,有很多幻覺。另外,文字對AI生成內(nèi)容的容錯(cuò)性更高,而視頻只要有一癥一個(gè)要素不符合現(xiàn)實(shí)物理規(guī)律,比如力學(xué)、光學(xué),就會(huì)不真實(shí),這種差異是否會(huì)導(dǎo)致scaling law在視頻方面走得不那么順利?

徐懷哲:GPT發(fā)布后我特地看了楊立昆的評價(jià),他一直是一位非常好的批評者。他對ChatGPT也提出了類似的批評,這套話術(shù)可以挑戰(zhàn)2017年以后出現(xiàn)的每一個(gè)深度學(xué)習(xí)模型,實(shí)則是在批評深度學(xué)習(xí)Data driven(數(shù)據(jù)驅(qū)動(dòng))的范式。

但我從更宏觀的人類歷史角度分析,很早以前,我們非常追求“解析解”,比如牛頓第二定律可以用一個(gè)簡單的公式去表達(dá)運(yùn)動(dòng),但很難用一個(gè)非常解析的方式去解三體運(yùn)動(dòng)規(guī)律,三體運(yùn)動(dòng)需要用計(jì)算機(jī)去解。

今天我們真正要解決的問題是,世界是不是真的需要一個(gè)解析解?

人類的智慧可能只是智慧的一種范式,而ChatGPT、Sora等其他范式能夠通過大量模擬世界學(xué)習(xí)到世界規(guī)律。我堅(jiān)定地站在深度學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)流派即通過大量的數(shù)據(jù)去模擬世界所得到的結(jié)果,可能會(huì)比一個(gè)解析解更能反映世界的真實(shí)物理,更能體現(xiàn)智能。用一個(gè)物理公式概括現(xiàn)實(shí)世界已經(jīng)不可能了,Data driven似乎是一個(gè)高級文明,更有可能成為理解世界最終奧妙的一把鑰匙,而不是一個(gè)解析解。

甲小姐:就像電影《降臨》所講述的,外星文明和人類文明處于同一個(gè)物理世界,但兩個(gè)文明遵循兩套完全不同但各自自洽的物理體系,人類的物理體系只是一種范式。

但楊立昆多次在X上“狠批” Sora,他強(qiáng)調(diào)了文字跟視頻的區(qū)別,比如視頻是高維連續(xù)的,而文字是離散的。模擬世界需要“可復(fù)現(xiàn)”的生成,視頻似乎比文字難度更高。在你對深度學(xué)習(xí)的信仰中,文字和視頻有沒有本質(zhì)區(qū)別?

徐懷哲:Scaling law和Data driven是近十年內(nèi)唯一的解。

其實(shí),文字是一個(gè)信息密度更高的信息載體。比如“酸的橘子”和“甜的橘子”,只換了一個(gè)token,卻把這句話引到了截然不同的語義。視頻是連續(xù)的圖片,每幀與每幀之間的信息密度相對較低。對于觀看者來說,相鄰的兩幀視頻可能差別不大,不會(huì)徹底改變語義。因此我認(rèn)為視頻的容錯(cuò)性反而比文字更高,這也導(dǎo)致它更難被training。“酸”和“甜”是截然不同的語義,模型很好捕捉,但視頻的每一幀可能只有幾個(gè)像素點(diǎn)的差別,更難被模型捕捉。如果逐幀分析Sora生成的視頻,會(huì)發(fā)現(xiàn)里面還有很多謬誤,但整體已經(jīng)很驚艷了。

這對消費(fèi)者來說是一個(gè)利好,但是從模型訓(xùn)練角度來講,如何在信息密度很低的模態(tài)中捕捉細(xì)微的差別,是比語言更難的任務(wù)。今天大家推測Sora的模型參數(shù)是30億,相對比較小,scale up之后,模型表現(xiàn)可能會(huì)更好。

甲小姐:對于視頻生成模型發(fā)展的階段,你是否有類似自動(dòng)駕駛L0到L5的劃分體系?

徐懷哲:很難類比。如果真要類比,現(xiàn)在的視頻生成還在L2左右。今天Sora生成的視頻很震撼,但依舊不可被消費(fèi)。如果一個(gè)視頻里沒有聲音,整體表現(xiàn)力會(huì)弱很多。

完整的視頻生成方法不僅有文生視頻、圖生視頻,還涉及一些編輯工作,之后要放在Pr、AE等后期軟件里剪輯。Sora只是解決了視頻制作里的其中一環(huán),Sora距離完全脫離人為干預(yù)還有些距離。我們認(rèn)為一個(gè)能夠打通音頻、文字、剪輯、生成環(huán)節(jié),一體化生成視頻的App更有可能是行業(yè)最終解決方案。

Morph的使命就是把真正的video foundation model以相對較快的速度落地,讓創(chuàng)作者們用我們的工具做出真正有意義的視頻。

甲小姐:你們想做的是一個(gè)完全端到端的視頻生成產(chǎn)品?

徐懷哲:對,最后它應(yīng)該是個(gè)whole package(完整的產(chǎn)品組合)。

甲小姐:對于AI生成視頻的所有公司來講,如今都要面臨一個(gè)戰(zhàn)略決策,是調(diào)整路線對齊 Sora,還是繼續(xù)走自己的路,你預(yù)判大家會(huì)如何選擇?

徐懷哲:我不能代替同行發(fā)聲,但我可以從兩個(gè)身份分享觀點(diǎn)。

作為Morph的創(chuàng)始人,我們會(huì)持續(xù)跟進(jìn)Sora,不斷提高我們的研發(fā)水準(zhǔn),真正讓video foundation model盡快落地。一個(gè)非常有意思的公司就是Character.AI,它是一家大模型公司,但并不強(qiáng)調(diào)大模型,更強(qiáng)調(diào)大家能夠在他們的產(chǎn)品中獲得樂趣,這也是Morph在追求的事情。

作為一個(gè)研究者,DiT路線也讓我很興奮。我們大概在四五個(gè)月前也嘗試過,但由于算力以及各種資源限制,我們做得不夠深入。今天OpenAI驗(yàn)證了DiT的可行性,未來我會(huì)繼續(xù)盯緊這條路線,看看如何做出新的突破。

甲小姐:在你看來,AI生成視頻行業(yè)未來的發(fā)展節(jié)奏如何?

徐懷哲:ChatGPT發(fā)布后,全世界都在玩一場“明牌游戲”,總體上行業(yè)沒有什么秘密了。大家都已經(jīng)認(rèn)定了這是時(shí)代潮流,所有的資本、人才都會(huì)跑到這個(gè)領(lǐng)域里。之前我們會(huì)看到很多微變革,概念火一下就沒了,但生成式AI的一致性很強(qiáng),無論文生文、文生圖還是文生視頻,影響力一直在擴(kuò)散。所以,我認(rèn)為Sora發(fā)布之后整個(gè)行業(yè)的技術(shù)發(fā)展、產(chǎn)品進(jìn)度都會(huì)被加速,我個(gè)人更期待的是怎么通過視頻技術(shù)為創(chuàng)作者和用戶帶來更多價(jià)值和樂趣,我相信這件事會(huì)以一種令人意想不到的速度去發(fā)展。

2.談定位:“想做好應(yīng)用層,模型層能力也要跟上”

“Morph要做第一家把video foundation model落地為創(chuàng)作者使用工具的公司。”

甲小姐:你們對產(chǎn)品的定位是什么?

徐懷哲:好的創(chuàng)作離不開好的工具,給創(chuàng)作者提供一個(gè)高效的工具鏈和創(chuàng)作的workflow是我們這款A(yù)pp最大的意義。

甲小姐:你在朋友圈寫道:“現(xiàn)階段如何結(jié)合已有模型能力,提供更好的工具和全新的workflow是整個(gè)行業(yè)的下一個(gè)match point。”這是否意味著你們放棄自研模型,聚焦應(yīng)用?

徐懷哲:我們沒有把模型層放到應(yīng)用層的對立面,而是剝離了模型層和應(yīng)用層的能力。

模型層聚焦的問題是如何生成時(shí)長更長、質(zhì)量更高、風(fēng)格更多元的視頻,應(yīng)用層則要兼容創(chuàng)作者的需求。其中,可控性很重要。我們非常重視創(chuàng)作者的需求,結(jié)合我們的技術(shù)背景,我們有信心可以從創(chuàng)作者需求出發(fā)去優(yōu)化我們的模型。

因此,我們將戰(zhàn)略聚焦為把video foundation model落地到應(yīng)用層,但并不意味著我們放棄模型層。想把應(yīng)用層做好,模型層能力也得跟上。單純做應(yīng)用很難有機(jī)會(huì),我們還是要強(qiáng)調(diào)自研模型,企業(yè)的模型研發(fā)能力直接關(guān)系到產(chǎn)品的競爭力。

甲小姐:為什么不直接all in應(yīng)用層,模型層就接入Sora等模型的API?

徐懷哲:現(xiàn)在應(yīng)用和foundation model之間還有g(shù)ap,需要研發(fā)能力很強(qiáng)的團(tuán)隊(duì)把gap填平。Morph要做第一家把video foundation model落地為創(chuàng)作者使用工具的公司。

甲小姐:你如何分配公司在模型層和應(yīng)用層的資源投入?

徐懷哲:我們的資源分配比較靈活。在適當(dāng)?shù)臅r(shí)候,模型層提供的能力可以接到應(yīng)用層上,通過調(diào)試模型讓應(yīng)用表現(xiàn)更好,兩個(gè)團(tuán)隊(duì)緊密結(jié)合,而不是非此即彼。

甲小姐:你們本次發(fā)布的產(chǎn)品是什么形態(tài)?

徐懷哲:Morph Studio是一個(gè)網(wǎng)站App,與此同時(shí),我們也堅(jiān)定相信Vision Pro的生態(tài)會(huì)擠占Macbook,未來會(huì)考慮往Vision pro上拓展。

甲小姐:為什么這么早就開始考慮終端形態(tài)的問題?

徐懷哲:對于AI native的視頻產(chǎn)品來說,在手機(jī)端的操作是不符合用戶需求的。而Vision Pro直接在用戶面前呈現(xiàn)一個(gè)3D畫質(zhì)的大屏幕,給AI native App提供了大量新機(jī)會(huì)。

甲小姐:在Vision Pro里你能提供的不僅是一個(gè)視頻工作流,它甚至能通過對話,直接讓用戶沉浸在元宇宙里,還可以編輯用戶所處的環(huán)境?

徐懷哲:對,我甚至可以去看別人的視頻,切入別人的工作流里和他的視頻互動(dòng)。

甲小姐:這一年,你經(jīng)歷了哪些關(guān)鍵決策和思考過程?

徐懷哲:第一個(gè)關(guān)鍵決策是去年二三月,我們討論要不要出來創(chuàng)業(yè)。當(dāng)時(shí)我們很興奮,也有很大挑戰(zhàn),因?yàn)槲覀冾A(yù)判OpenAI的動(dòng)作會(huì)很快,但我們相信視頻賽道有巨大空間,并值得參與。

第二個(gè)關(guān)鍵決策是去年11月,我們將模型層和應(yīng)用層分離。作為一家創(chuàng)業(yè)公司,我們始終認(rèn)為OpenAI是競爭對手,我們要時(shí)刻做好應(yīng)用層爆發(fā)的準(zhǔn)備,提前布局應(yīng)用層,同時(shí)在模型層也不能落后。單純嫁接模型做應(yīng)用是不可能成功的,我們要做好技術(shù)儲(chǔ)備,把產(chǎn)品打磨好。

3.談生態(tài):“知道珠穆朗瑪峰有多高就行,第二梯隊(duì)還在香山”

“現(xiàn)在我們就要思考游戲的終局。”

甲小姐:還原一下你們和Stability AI的合作經(jīng)過,他們選擇Morph的核心原因是什么?

徐懷哲:其實(shí)我們很早就開始探討合作了。去年開始,我們兩方就在社區(qū)圍繞視頻產(chǎn)品有很多交流,Morph也通過社區(qū)參與展示了自己的模型研發(fā)能力,這對開發(fā)一款好的應(yīng)用至關(guān)重要;此外我們很早就和他們分享過我們產(chǎn)品的整體設(shè)計(jì),他們對我們將發(fā)布的網(wǎng)頁端產(chǎn)品Morph Studio很有信心。

這是一個(gè)相互補(bǔ)充的合作,我們雙方都有很強(qiáng)的模型,在經(jīng)營戰(zhàn)略上也有一定共識(shí),而且我們也十分愿意在Stability AI的生態(tài)中深入模型研發(fā)和應(yīng)用落地。這也是Stability AI在視頻產(chǎn)品領(lǐng)域的首次合作,我們雙方幾乎是同時(shí)提出了合作的訴求,并很快達(dá)成一致。

甲小姐:你們具體的合作方式是什么?

徐懷哲:首先是模型層面的合作,雙方各取所長,且我們代表了兩種生態(tài),Stability AI是開源生態(tài),Morph是閉源生態(tài),但我們相信應(yīng)用層應(yīng)該包含開源和閉源。所以通過本次合作,Morph Studio可以調(diào)用Stability AI的模型,我們也會(huì)向用戶明確哪個(gè)是Morph的模型,哪個(gè)是Stability AI的模型。

其次,借助Stability AI生態(tài)中的工具,Morph將為用戶打造更完整的視頻創(chuàng)作工作流。最后還會(huì)有一些市場合作,幫助我們更好地做用戶增長。我們不方便透露太多技術(shù)合作的細(xì)節(jié),可以肯定的是,我們會(huì)建立長期合作,合作戰(zhàn)略將隨著技術(shù)和行業(yè)的發(fā)展,以及我們的應(yīng)用實(shí)踐不斷調(diào)整。最終目的還是幫助技術(shù)突破和落地,以及相互學(xué)習(xí),共同進(jìn)步。

甲小姐:你應(yīng)該深度調(diào)研了國內(nèi)外很多做視頻生成模型的企業(yè),也很了解大家的水平。如果Sora是第一梯隊(duì),第二、第三梯隊(duì)大概做到什么程度?

徐懷哲:你知道珠穆朗瑪峰有多高就行了,討論第二梯隊(duì)的意義不是很大。

甲小姐:第二梯隊(duì)都在香山?

徐懷哲:是的(笑)。

甲小姐:目前業(yè)內(nèi)大多都在討論模型層,少有人討論應(yīng)用層,你認(rèn)為業(yè)內(nèi)對Sora的討論熱情過高了嗎?

徐懷哲:Sora給整個(gè)行業(yè)打了一針強(qiáng)心劑,我覺得怎么討論都不過分,因?yàn)樗衿,太有意思了。另外?strong>視頻作為娛樂消費(fèi)屬性更高的模態(tài),大家對應(yīng)用層的關(guān)注存在滯后性。如果我們這次發(fā)布能引發(fā)大家對應(yīng)用層更多深層次的思考和討論,我也非常開心。

甲小姐:OpenAI的技術(shù)報(bào)告并沒有公布Sora的訓(xùn)練細(xì)節(jié),我們也無法測試和交互,現(xiàn)在就大范圍討論應(yīng)用層,是否為時(shí)過早?

徐懷哲:不會(huì)。Foundation model和能用起來的產(chǎn)品之間始終存在天然的gap,這個(gè)gap就是應(yīng)用層的機(jī)會(huì)。這些機(jī)會(huì)不應(yīng)該等到完全搞清模型再去做,那時(shí)候可能為時(shí)已晚了。現(xiàn)在我們就要思考游戲的終局。知道終點(diǎn)在哪,過程中很多決策和執(zhí)行會(huì)更容易做。

甲小姐:你認(rèn)為OpenAI會(huì)直接推出一個(gè)端到端的Super App嗎?

徐懷哲:不排除這種可能性,但這似乎并不符合OpenAI的調(diào)性,OpenAI想做的是生態(tài)。另外,視頻的天花板非常高,而且能玩出花樣的細(xì)分賽道非常多。例如衛(wèi)星技術(shù)帶來衛(wèi)星電視,大家開始看電視;到了互聯(lián)網(wǎng)時(shí)代,大家看YouTube、優(yōu)酷、嗶哩嗶哩;再到移動(dòng)互聯(lián)網(wǎng)時(shí)代,大家有TikTok、快手、Musically。視頻領(lǐng)域永遠(yuǎn)會(huì)有新的賽道和新的商業(yè)模式跑出來。我想世界上不存在一家AI視頻公司能吃掉所有細(xì)分賽道,一定會(huì)出現(xiàn)新的機(jī)會(huì)、新的社區(qū)、新的范式。

4.談產(chǎn)品:“生成式AI最大的突破就是把所有模態(tài)從靜態(tài)變?yōu)榭苫?dòng)”

“生成式AI‘拍扁’了整個(gè)視頻制作流程,最終實(shí)現(xiàn)‘以假亂真’,無形之中形成了一個(gè)全新的工作流。這個(gè)工作流該怎么定義才是接下來應(yīng)用層該集中關(guān)注的方向。”

甲小姐:AI生成視頻有三類形態(tài):Video-to-Video、Image-to-Video、Text-to-Video,你們的demo里還提到了“Idea-to-Video”?

徐懷哲:幾種生成形態(tài)我們都有,目前我們更看重如何幫助創(chuàng)作者利用我們的工具將idea快速、方便地實(shí)現(xiàn)。

甲小姐:你們給Morph Studio定義了三個(gè)關(guān)鍵詞:“All-in-one (一體式AI視頻創(chuàng)作) ”“Interactive (可互動(dòng)視頻) ”“Community (可互動(dòng)視頻社區(qū),創(chuàng)作者社區(qū)) ”。這三件事為什么重要?

徐懷哲:“All-in-one”,是因?yàn)?strong>目前調(diào)用單一模型并不能高效呈現(xiàn)創(chuàng)作者的idea,先在網(wǎng)站上生成視頻,再去其他軟件做后期,會(huì)消耗創(chuàng)作者很多精力,但我們本次發(fā)布的Morph Studio已經(jīng)有效解決了這一問題,把視頻制作、剪輯、后期等放在了一起;

“可互動(dòng)”是一種通過生成式AI實(shí)現(xiàn)的新的分發(fā)機(jī)制,比如一個(gè)視頻前十秒是我喜歡的,后十秒我不喜歡,過去的方式是把它劃走,但未來用戶可以直接進(jìn)行二創(chuàng),替換掉自己不喜歡的部分。我認(rèn)為生成式AI最大的突破就是把所有模態(tài)從靜態(tài)變?yōu)榭苫?dòng)。比如你可以持續(xù)向ChatGPT提問,直到問出你滿意的答案為止。這種可互動(dòng)方式比過去單一的推薦和搜索都更有趣。視頻本身作為一種很有趣的模態(tài),它實(shí)現(xiàn)可互動(dòng)性會(huì)更令人興奮;

我們也非常樂意通過工具的方式切入,把可互動(dòng)視頻展現(xiàn)出來給大家玩,這就是Morph想要做的第三件事“可互動(dòng)視頻社區(qū)”。

甲小姐:先看“All-in-one”。傳統(tǒng)的視頻產(chǎn)業(yè)鏈很長,涵蓋“IP-策劃劇本-投資-制作-宣發(fā)-播出-周邊衍生品”等環(huán)節(jié),而你們所說的“all in one”聚焦把制作環(huán)節(jié)縮短?

徐懷哲:是的。生成式AI “拍扁”了整個(gè)視頻制作流程,最終實(shí)現(xiàn)“以假亂真”,無形之中形成了一個(gè)全新的工作流,摒棄了拍攝和很多前期準(zhǔn)備流程。新的工作流下,如何發(fā)揮新的優(yōu)勢,彌補(bǔ)新的劣勢,是我們應(yīng)用層要集中關(guān)注的問題。我認(rèn)為從AI的角度去思考這個(gè)工具該怎么做,這個(gè)工作流該怎么定義才是接下來應(yīng)用層應(yīng)該集中關(guān)注的一個(gè)方向。

未來,對于創(chuàng)作者而言,單個(gè)鏡頭的可能性更多了。當(dāng)我們把視頻制作、剪輯、后期放在一起后,創(chuàng)作者能更一目了然地知道如何串聯(lián)視頻片段。我們的工具則提供了一個(gè)更可視化的方式,來激發(fā)創(chuàng)作者的想象力。目前我們正在嘗試在畫板上呈現(xiàn)更多元的視頻素材,并將素材的排列組合更可視化。

甲小姐:Runway和剪映似乎有相似功能,你們的差異化在于?

徐懷哲:Runway和剪映都是基于傳統(tǒng)的workflow,我們想做一條全新的workflow,集生成、剪輯、后期為一體的AI視頻創(chuàng)作工作流。傳統(tǒng)的工作流每一步都有明確的先后順序,而我們的all in one產(chǎn)品是基于生成式AI,支持創(chuàng)作者調(diào)用AI模型去探索每個(gè)鏡頭的無限可能。

甲小姐:我們再看“可互動(dòng)視頻社區(qū)”。這有點(diǎn)像沉浸式的互動(dòng)游戲,讓玩家可以進(jìn)入不同平行時(shí)空,感受不同的故事后續(xù),而你們?yōu)榇颂峁┝艘环N更簡單的生產(chǎn)方式?

徐懷哲:是的。如果只是我們?nèi)藶榘l(fā)視頻,很難形成大規(guī)模的二創(chuàng)社區(qū)。最有機(jī)的方式就是讓很多優(yōu)秀創(chuàng)作者提供一些模板,其他創(chuàng)作者可以去復(fù)制、借鑒、創(chuàng)新某個(gè)工作流,把視頻替換為自己想要的效果。

我們很相信社區(qū)的力量能夠把整個(gè)可互動(dòng)視頻生態(tài)做得非常有意思。我們的產(chǎn)品早期更多是工具屬性,后期會(huì)在工具屬性之上形成一個(gè)創(chuàng)作者社區(qū)。隨著創(chuàng)作者社區(qū)的門檻逐漸被拉低,會(huì)有更多人進(jìn)來玩這些視頻。

甲小姐:這些模板素材的版權(quán)歸屬于誰?

徐懷哲:版權(quán)歸創(chuàng)作者所有。未來,當(dāng)一位創(chuàng)作者拋出一個(gè)很好的workflow后,其他用戶使用前需要支付一些費(fèi)用,這是我們的一種商業(yè)模式。

甲小姐:定義產(chǎn)品每個(gè)特點(diǎn)時(shí),你的判斷標(biāo)準(zhǔn)是什么?

徐懷哲:直接在模型上做套殼產(chǎn)品肯定不行,要從創(chuàng)作者的創(chuàng)作習(xí)慣出發(fā),打穿模型層和應(yīng)用層,為創(chuàng)作者定制各異的、真正高效的工作流。此前我們調(diào)研了很多創(chuàng)作者的需求,發(fā)現(xiàn)現(xiàn)有產(chǎn)品很難幫他們搭建高效的工作流。

甲小姐:你們的產(chǎn)品面向?qū)I(yè)人士還是普通大眾?

徐懷哲:一個(gè)社區(qū)保持有機(jī)活力的前提在于運(yùn)營者并不強(qiáng)調(diào)社區(qū)要往哪個(gè)方向發(fā)展,更多由用戶去決定他們喜歡什么樣的方向。我們可能在早期會(huì)做得稍微垂直一些,未來還是會(huì)鋪開來做比較通用的方向,最終結(jié)果還是由用戶來決定。

甲小姐:你認(rèn)為Morph Studio會(huì)成為AI視頻時(shí)代的“Supper App”嗎?

徐懷哲:一定會(huì)的。

5.談競爭:“我們最知道用戶需要什么”

“一個(gè)有機(jī)的社區(qū)正是因?yàn)橛羞@些可愛的創(chuàng)作者們,才變得更豐富、有趣。”

甲小姐:甲子光年梳理了目前國內(nèi)在文生視頻領(lǐng)域的公司,你怎么看待這些潛在競爭對手?

徐懷哲:視頻整體的技術(shù)路線在趨于一致化,這是Sora帶給我們最大的驚喜,接下來肯定會(huì)有很多人加入競爭,我認(rèn)為這是一個(gè)好現(xiàn)象。如果創(chuàng)業(yè)創(chuàng)到一個(gè)沒有任何人跟你競爭的賽道,很有可能是你做錯(cuò)了。

更多人進(jìn)來至少說明這個(gè)行業(yè)在“水漲船高”。Sora在蓄水池里放了很多水,我們作為這個(gè)賽道的“船”,自然而然會(huì)隨著水位高漲而受到更多關(guān)注,這讓我們很開心。視頻行業(yè)的天花板很高,抓住任何一條細(xì)分賽道,都會(huì)成為一家了不起的公司,我們要做好自己的事。

甲小姐:你們的護(hù)城河是什么?

徐懷哲:Morph的模型層研發(fā)能力一直處于行業(yè)領(lǐng)先地位,且我們有一個(gè)粘性極大的創(chuàng)作者生態(tài)圈。我本科差點(diǎn)就去學(xué)電影專業(yè)了,我一直在關(guān)注電影技術(shù),并且定期與相關(guān)創(chuàng)作者交流,對創(chuàng)作者需求有更深入的理解。生成式AI時(shí)代,我們最知道用戶需要什么,并且能基于用戶需求把模型層真正落地,讓創(chuàng)作者用到更趁手的工具。

甲小姐:產(chǎn)品一旦定義出來,就變成明牌了。如果字節(jié)要做,你們還有機(jī)會(huì)嗎?

徐懷哲:首先,我們的模型研發(fā)能力很強(qiáng),整個(gè)團(tuán)隊(duì),包括我自己都是技術(shù)出身,對模型層的理解領(lǐng)先于其他團(tuán)隊(duì)。

其次,真正有意義的事情是把模型層和應(yīng)用層相結(jié)合。很少有人能夠像我們一樣既了解技術(shù),又了解用戶需求。

最后,社區(qū)的用戶忠誠度很高。Reddit最近在尋求上市,他們是一家很老牌的互聯(lián)網(wǎng)企業(yè),他們的產(chǎn)品在中國產(chǎn)品經(jīng)理眼中沒有什么可取之處,但是Reddit上聚集了大批死忠粉。創(chuàng)作者社區(qū)的魅力也在于此,他們并不會(huì)因?yàn)槟承┕净ㄖ亟鸫蛟炝艘豢钚庐a(chǎn)品就離開社區(qū)。相反,我認(rèn)為一個(gè)有機(jī)的社區(qū)正是因?yàn)橛羞@些可愛的創(chuàng)作者們,才變得更豐富、有趣。現(xiàn)在我們團(tuán)隊(duì)里已經(jīng)聚集了非常多優(yōu)秀的社區(qū)運(yùn)營者和視頻創(chuàng)作者。

6.談商業(yè):“YouTube市場有多大,AI生成視頻的市場就有多大”

“我們提供了可互動(dòng)視頻這個(gè)全新的范式。”

甲小姐:Morph Studio最先落地的用戶群是什么?

徐懷哲:大致分三層:第一層是創(chuàng)建優(yōu)秀workflow的創(chuàng)作者,屬于金字塔尖的用戶;第二層是AI視頻的二創(chuàng)人群,不會(huì)從頭創(chuàng)建workflow,而是對已有的工作流進(jìn)行編輯;第三層是AI視頻的觀看者,是金字塔底端數(shù)量最大的用戶。

甲小姐:Midjourney的盈利模式主要是付費(fèi)訂閱,向用戶按月收取費(fèi)用。在你們的設(shè)想中,公司的商業(yè)模式是什么?

徐懷哲:也是付費(fèi)訂閱。

甲小姐:你如何判斷你們所處賽道的市場規(guī)模?

徐懷哲:YouTube有多大,這個(gè)市場就有多大。我們提供了可互動(dòng)視頻這個(gè)全新的范式。如果把社區(qū)做得足夠大,它有可能像Instagram一樣,從一個(gè)工具變成一個(gè)巨大的交流社區(qū)。

甲小姐:你創(chuàng)辦Morph的初衷是什么?

徐懷哲:20年前,大家獲取信息最快的方式是用搜索引擎去搜索,10年前是通過推薦系統(tǒng)推薦。今天,生成式AI帶來了一種新的信息分發(fā)方式對話。

創(chuàng)辦Morph的過程中我看了樂高的紀(jì)錄片,講了樂高如何用非常有限的積木morph(變形)出千奇百怪的玩具形態(tài)。我一直很喜歡做視頻,做視頻和做樂高一樣,視頻創(chuàng)作者也會(huì)把相關(guān)聯(lián)的視頻片段morph到一起,講述一個(gè)又一個(gè)有趣的故事,這也是公司名稱“Morph”的來源。

甲小姐:你們目前融資進(jìn)展如何?

徐懷哲:我們一共融了兩輪。最新一輪在去年11月完成,現(xiàn)在我們正在接觸一些新的基金,有幾家已經(jīng)聊得比較成熟了。

甲小姐:從體感上看,國內(nèi)外創(chuàng)投界對Sora以及整個(gè)AI生成視頻的認(rèn)知是否存在gap?

徐懷哲:國內(nèi)VC對Sora這波AI的信息獲取效率還挺高的,國內(nèi)外的關(guān)注重點(diǎn)差不多。

甲小姐:目前你們的團(tuán)隊(duì)有多少人?

徐懷哲:10人左右。

甲小姐:你們的核心團(tuán)隊(duì)都很年輕,Sora也是博士畢業(yè)生帶隊(duì)實(shí)現(xiàn)的,是否越年輕的團(tuán)隊(duì)在這個(gè)賽道越有競爭力?

徐懷哲:年輕意味著我們都很沉入一線,對技術(shù)的跟進(jìn)速度最快,了解程度最細(xì)致。我們平常接觸到的AI視頻創(chuàng)作者也非常年輕,彼此的年齡gap比較小,我們能更好地觸達(dá)他們,并理解他們的創(chuàng)作習(xí)慣。

甲小姐:OpenAI的技術(shù)信仰是Scaling law,你對于AI生成視頻有沒有自己的技術(shù)信仰?

徐懷哲:最先把video foundation model落地到每位創(chuàng)作者的工作流中,這是我們的技術(shù)信仰和價(jià)值觀。

甲小姐:此時(shí)此刻你應(yīng)該正處在一個(gè)絕妙的創(chuàng)業(yè)階段處于有一個(gè)想象力巨大的賽道,全世界聚光燈都匯聚于此,團(tuán)隊(duì)也很年輕很有干勁;仡欉@一年的創(chuàng)業(yè)歷程,你印象最深的是什么?

徐懷哲:我們的技術(shù)能夠真正幫助到很多視頻創(chuàng)作者,這讓我感到非常興奮。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港