當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > 對話徐懷哲：Morph AI要做第一個(gè)AI native視頻生產(chǎn)工作流

對話徐懷哲：Morph AI要做第一個(gè)AI native視頻生產(chǎn)工作流
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-03-04 14:59:20 瀏覽：6215次

導(dǎo)讀：Morph AI成為Stability AI首位視頻產(chǎn)品領(lǐng)域的合作伙伴。這家年輕的AI公司要做新一代視頻工作流的定義者。作者｜甲小姐劉楊楠一家創(chuàng)業(yè)公司最絕妙的狀態(tài)，或許是身處最閃耀的賽道，集資本、媒體、學(xué)界各方青睞，并擁有一個(gè)年輕且充滿干勁的團(tuán)隊(duì)，朝著一個(gè)共...

Morph AI成為Stability AI首位視頻產(chǎn)品領(lǐng)域的合作伙伴。這家年輕的AI公司要做新一代視頻工作流的定義者。

作者｜甲小姐劉楊楠

一家創(chuàng)業(yè)公司最絕妙的狀態(tài)，或許是身處最閃耀的賽道，集資本、媒體、學(xué)界各方青睞，并擁有一個(gè)年輕且充滿干勁的團(tuán)隊(duì)，朝著一個(gè)共同的宏愿前進(jìn)。

Morph AI，這家成立不到一年的AI生成視頻公司，正處在這樣的階段。

創(chuàng)始人徐懷哲是香港科技大學(xué)的人工智能博士，2023年4月，他組建了一支極其年輕的團(tuán)隊(duì)，聯(lián)創(chuàng)和團(tuán)隊(duì)核心成員均為90后、95后、00后，并立下一個(gè)宏大的遠(yuǎn)景，要“做第一條AI native的視頻生產(chǎn)工作流”。

2023年4月，Morph AI成立。當(dāng)時(shí)，整個(gè)行業(yè)正被包裹在ChatGPT掀起的文本生成模型狂歡中，難度似乎更高的視頻生成模型“高處不勝寒”，尚處于將熱未熱的狀態(tài)。但10個(gè)月后的今天，生成式AI領(lǐng)域迎來新寵兒Sora。

Sora正在重塑傳統(tǒng)的視頻生產(chǎn)模式。甲子光年智庫提出，基于AIGC視頻生成工具的提示交互式視頻生產(chǎn)制作方式將成為新范式。

“So exciting！”Sora發(fā)布當(dāng)天，徐懷哲在朋友圈感嘆并寫下：“現(xiàn)階段如何結(jié)合已有模型能力，提供更好的工具和全新的workflow（工作流）是整個(gè)行業(yè)的下一個(gè)match point。”

而Morph AI要做的，就是成為新一代視頻工作流的定義者。

北京時(shí)間2024年2月29日凌晨，Morph AI迎來里程碑式的一刻。知名人工智能企業(yè)Stability AI宣布與Morph AI達(dá)成合作，Morph AI成為Stability AI在視頻產(chǎn)品領(lǐng)域的首位合作伙伴。

與此同時(shí)，Morph AI發(fā)布了面向全球用戶的網(wǎng)頁端產(chǎn)品Morph Studio。

Morph Studio有三大關(guān)鍵詞：

“All in one”，即將視頻生成、剪輯、后期等環(huán)節(jié)集于一體，用更可視化的方式激發(fā)創(chuàng)作者的想象力，支持創(chuàng)作者調(diào)用AI模型探索每個(gè)鏡頭的無限可能；

“可互動(dòng)視頻”，即基于生成式AI全新的信息分發(fā)機(jī)制，激發(fā)用戶對視頻的二創(chuàng)興趣；

“可互動(dòng)視頻社區(qū)”，則是可互動(dòng)視頻內(nèi)容生態(tài)的載體，讓很多優(yōu)秀創(chuàng)作者提供模板素材，其他創(chuàng)作者可以去復(fù)制、借鑒、創(chuàng)新某個(gè)工作流，把視頻替換為自己想要的效果。

“Morph要做第一家把video foundation model落地為創(chuàng)作者使用工具的公司。”徐懷哲在對話中多次強(qiáng)調(diào)這一點(diǎn)。

本文，甲小姐對話Morph AI創(chuàng)始人&CEO徐懷哲，聊聊這位年輕創(chuàng)業(yè)者對“游戲終局”的思考，以及對當(dāng)下的小心求證。

1.談路徑：“人類智慧只是智慧的一種范式”

“世界是不是真的需要一個(gè)解析解？”

甲小姐：Sora最讓你exciting的點(diǎn)是什么？

徐懷哲：我看到Sora第一個(gè)case就感覺這是非常了不起的工作�？吹腸ase越多，越感覺Sora拉開整個(gè)行業(yè)一個(gè)身位，行業(yè)已經(jīng)進(jìn)入一個(gè)全新的階段。Sora無疑加快了整個(gè)應(yīng)用層的發(fā)展速度，也印證了我們之前在模型層的一些猜想，這是最讓我感到exciting的地方。

甲小姐：你曾預(yù)測2024年AI生成視頻賽道會(huì)迎來Midjourney時(shí)刻，Sora的出現(xiàn)是那個(gè)時(shí)刻嗎？

徐懷哲：更準(zhǔn)確地說，Sora更像文本模型的GPT-3時(shí)刻。我們逐幀分析了Sora生成的大量case，發(fā)現(xiàn)Sora并不十全十美，但它有兩個(gè)特點(diǎn)：通過scaling law和原有模型拉開了差距；驗(yàn)證了scaling law可以work。對Morph來說，這是一個(gè)積極信號(hào)，意味著視頻很快會(huì)迎來它的GPT-3.5甚至GPT-4時(shí)刻，對整個(gè)行業(yè)都是巨大利好。

甲小姐：Sora出現(xiàn)前，頭部玩家還沒有百分百確認(rèn)scaling law是終極范式嗎？

徐懷哲：過去幾年深度學(xué)習(xí)快速發(fā)展，讓我們更加堅(jiān)定地相信scaling law，只是不確定該用哪條技術(shù)路徑實(shí)現(xiàn)。從去年11月開始，我們分別嘗試了三條路線：Diffusion with U-Net；Diffusion with Transformer，即DiT路線；以及純Transformer路線。我們在相對小的數(shù)據(jù)集里做了試驗(yàn)，但沒有比較出哪個(gè)更好。Scaling law的前提是有足夠多的數(shù)據(jù)量來scale up。OpenAI無疑表明DiT路線更有潛力。

甲小姐：現(xiàn)在大家應(yīng)該All in DiT，還是去尋找下一個(gè)更好的路徑？DiT會(huì)成為AI生成視頻的“大一統(tǒng)”范式嗎？

徐懷哲：很難有確定性答案，但現(xiàn)階段大家對DiT還是很有信心。我相信DiT的潛力還沒有完全釋放。如果scaling law成立，我相信OpenAI已經(jīng)拿更多數(shù)據(jù)和算力去做這件事了。

甲小姐：Sora和ChatGPT的發(fā)酵節(jié)奏很相似，哪個(gè)帶給你的震撼更大？

徐懷哲：作為一個(gè)視頻創(chuàng)業(yè)者，一定是Sora的震撼更大。但客觀來講還是ChatGPT的沖擊更大，因?yàn)槟鞘歉帐酪饬x的scaling law所帶來的震撼。ChatGPT帶來的變革不同以往，Sora只是重復(fù)了相似的變革。

甲小姐：Sora能快速引起這么大反響，和OpenAI的營銷措辭也有關(guān)，比如他們直接將Sora拔高到了“物理世界的通用模擬器”高度。你認(rèn)為從Sora到通用世界模擬器這條路走得通嗎？

徐懷哲：Sora至少在這條道路上。我們內(nèi)部很欣慰OpenAI能這樣說。舉個(gè)例子，一個(gè)嬰兒學(xué)習(xí)世界知識(shí)最先學(xué)到的是視覺知識(shí)，先看到這個(gè)世界，后來逐漸學(xué)習(xí)語言。GPT可以直接學(xué)文字，而Sora可以直接學(xué)習(xí)視覺，之后再配上文字。

甲小姐：Sora“物理世界的通用模擬器”這個(gè)說法很快面臨爭議，谷歌、楊立昆等試圖將Sora“拉下神壇”，他們認(rèn)為Sora不能真正模擬現(xiàn)實(shí)世界，有很多幻覺。另外，文字對AI生成內(nèi)容的容錯(cuò)性更高，而視頻只要有一癥一個(gè)要素不符合現(xiàn)實(shí)物理規(guī)律，比如力學(xué)、光學(xué)，就會(huì)不真實(shí)，這種差異是否會(huì)導(dǎo)致scaling law在視頻方面走得不那么順利？

徐懷哲：GPT發(fā)布后我特地看了楊立昆的評價(jià)，他一直是一位非常好的批評者。他對ChatGPT也提出了類似的批評，這套話術(shù)可以挑戰(zhàn)2017年以后出現(xiàn)的每一個(gè)深度學(xué)習(xí)模型，實(shí)則是在批評深度學(xué)習(xí)Data driven（數(shù)據(jù)驅(qū)動(dòng)）的范式。

但我從更宏觀的人類歷史角度分析，很早以前，我們非常追求“解析解”，比如牛頓第二定律可以用一個(gè)簡單的公式去表達(dá)運(yùn)動(dòng)，但很難用一個(gè)非常解析的方式去解三體運(yùn)動(dòng)規(guī)律，三體運(yùn)動(dòng)需要用計(jì)算機(jī)去解。

今天我們真正要解決的問題是，世界是不是真的需要一個(gè)解析解？

人類的智慧可能只是智慧的一種范式，而ChatGPT、Sora等其他范式能夠通過大量模擬世界學(xué)習(xí)到世界規(guī)律。我堅(jiān)定地站在深度學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)流派即通過大量的數(shù)據(jù)去模擬世界所得到的結(jié)果，可能會(huì)比一個(gè)解析解更能反映世界的真實(shí)物理，更能體現(xiàn)智能。用一個(gè)物理公式概括現(xiàn)實(shí)世界已經(jīng)不可能了，Data driven似乎是一個(gè)高級文明，更有可能成為理解世界最終奧妙的一把鑰匙，而不是一個(gè)解析解。

甲小姐：就像電影《降臨》所講述的，外星文明和人類文明處于同一個(gè)物理世界，但兩個(gè)文明遵循兩套完全不同但各自自洽的物理體系，人類的物理體系只是一種范式。

但楊立昆多次在X上“狠批” Sora，他強(qiáng)調(diào)了文字跟視頻的區(qū)別，比如視頻是高維連續(xù)的，而文字是離散的。模擬世界需要“可復(fù)現(xiàn)”的生成，視頻似乎比文字難度更高。在你對深度學(xué)習(xí)的信仰中，文字和視頻有沒有本質(zhì)區(qū)別？

徐懷哲：Scaling law和Data driven是近十年內(nèi)唯一的解。

其實(shí)，文字是一個(gè)信息密度更高的信息載體。比如“酸的橘子”和“甜的橘子”，只換了一個(gè)token，卻把這句話引到了截然不同的語義。視頻是連續(xù)的圖片，每幀與每幀之間的信息密度相對較低。對于觀看者來說，相鄰的兩幀視頻可能差別不大，不會(huì)徹底改變語義。因此我認(rèn)為視頻的容錯(cuò)性反而比文字更高，這也導(dǎo)致它更難被training。“酸”和“甜”是截然不同的語義，模型很好捕捉，但視頻的每一幀可能只有幾個(gè)像素點(diǎn)的差別，更難被模型捕捉。如果逐幀分析Sora生成的視頻，會(huì)發(fā)現(xiàn)里面還有很多謬誤，但整體已經(jīng)很驚艷了。

這對消費(fèi)者來說是一個(gè)利好，但是從模型訓(xùn)練角度來講，如何在信息密度很低的模態(tài)中捕捉細(xì)微的差別，是比語言更難的任務(wù)。今天大家推測Sora的模型參數(shù)是30億，相對比較小，scale up之后，模型表現(xiàn)可能會(huì)更好。

甲小姐：對于視頻生成模型發(fā)展的階段，你是否有類似自動(dòng)駕駛L0到L5的劃分體系？

徐懷哲：很難類比。如果真要類比，現(xiàn)在的視頻生成還在L2左右。今天Sora生成的視頻很震撼，但依舊不可被消費(fèi)。如果一個(gè)視頻里沒有聲音，整體表現(xiàn)力會(huì)弱很多。

完整的視頻生成方法不僅有文生視頻、圖生視頻，還涉及一些編輯工作，之后要放在Pr、AE等后期軟件里剪輯。Sora只是解決了視頻制作里的其中一環(huán)，Sora距離完全脫離人為干預(yù)還有些距離。我們認(rèn)為一個(gè)能夠打通音頻、文字、剪輯、生成環(huán)節(jié)，一體化生成視頻的App更有可能是行業(yè)最終解決方案。

Morph的使命就是把真正的video foundation model以相對較快的速度落地，讓創(chuàng)作者們用我們的工具做出真正有意義的視頻。

甲小姐：你們想做的是一個(gè)完全端到端的視頻生成產(chǎn)品？

徐懷哲：對，最后它應(yīng)該是個(gè)whole package（完整的產(chǎn)品組合）。

甲小姐：對于AI生成視頻的所有公司來講，如今都要面臨一個(gè)戰(zhàn)略決策，是調(diào)整路線對齊 Sora，還是繼續(xù)走自己的路，你預(yù)判大家會(huì)如何選擇？

徐懷哲：我不能代替同行發(fā)聲，但我可以從兩個(gè)身份分享觀點(diǎn)。

作為Morph的創(chuàng)始人，我們會(huì)持續(xù)跟進(jìn)Sora，不斷提高我們的研發(fā)水準(zhǔn)，真正讓video foundation model盡快落地。一個(gè)非常有意思的公司就是Character.AI，它是一家大模型公司，但并不強(qiáng)調(diào)大模型，更強(qiáng)調(diào)大家能夠在他們的產(chǎn)品中獲得樂趣，這也是Morph在追求的事情。

作為一個(gè)研究者，DiT路線也讓我很興奮。我們大概在四五個(gè)月前也嘗試過，但由于算力以及各種資源限制，我們做得不夠深入。今天OpenAI驗(yàn)證了DiT的可行性，未來我會(huì)繼續(xù)盯緊這條路線，看看如何做出新的突破。

甲小姐：在你看來，AI生成視頻行業(yè)未來的發(fā)展節(jié)奏如何？

徐懷哲：ChatGPT發(fā)布后，全世界都在玩一場“明牌游戲”，總體上行業(yè)沒有什么秘密了。大家都已經(jīng)認(rèn)定了這是時(shí)代潮流，所有的資本、人才都會(huì)跑到這個(gè)領(lǐng)域里。之前我們會(huì)看到很多微變革，概念火一下就沒了，但生成式AI的一致性很強(qiáng)，無論文生文、文生圖還是文生視頻，影響力一直在擴(kuò)散。所以，我認(rèn)為Sora發(fā)布之后整個(gè)行業(yè)的技術(shù)發(fā)展、產(chǎn)品進(jìn)度都會(huì)被加速，我個(gè)人更期待的是怎么通過視頻技術(shù)為創(chuàng)作者和用戶帶來更多價(jià)值和樂趣，我相信這件事會(huì)以一種令人意想不到的速度去發(fā)展。

2.談定位：“想做好應(yīng)用層，模型層能力也要跟上”

“Morph要做第一家把video foundation model落地為創(chuàng)作者使用工具的公司。”

甲小姐：你們對產(chǎn)品的定位是什么？

徐懷哲：好的創(chuàng)作離不開好的工具，給創(chuàng)作者提供一個(gè)高效的工具鏈和創(chuàng)作的workflow是我們這款A(yù)pp最大的意義。

甲小姐：你在朋友圈寫道：“現(xiàn)階段如何結(jié)合已有模型能力，提供更好的工具和全新的workflow是整個(gè)行業(yè)的下一個(gè)match point。”這是否意味著你們放棄自研模型，聚焦應(yīng)用？

徐懷哲：我們沒有把模型層放到應(yīng)用層的對立面，而是剝離了模型層和應(yīng)用層的能力。

模型層聚焦的問題是如何生成時(shí)長更長、質(zhì)量更高、風(fēng)格更多元的視頻，應(yīng)用層則要兼容創(chuàng)作者的需求。其中，可控性很重要。我們非常重視創(chuàng)作者的需求，結(jié)合我們的技術(shù)背景，我們有信心可以從創(chuàng)作者需求出發(fā)去優(yōu)化我們的模型。

因此，我們將戰(zhàn)略聚焦為把video foundation model落地到應(yīng)用層，但并不意味著我們放棄模型層。想把應(yīng)用層做好，模型層能力也得跟上。單純做應(yīng)用很難有機(jī)會(huì)，我們還是要強(qiáng)調(diào)自研模型，企業(yè)的模型研發(fā)能力直接關(guān)系到產(chǎn)品的競爭力。

甲小姐：為什么不直接all in應(yīng)用層，模型層就接入Sora等模型的API？

徐懷哲：現(xiàn)在應(yīng)用和foundation model之間還有g(shù)ap，需要研發(fā)能力很強(qiáng)的團(tuán)隊(duì)把gap填平。Morph要做第一家把video foundation model落地為創(chuàng)作者使用工具的公司。

甲小姐：你如何分配公司在模型層和應(yīng)用層的資源投入？

徐懷哲：我們的資源分配比較靈活。在適當(dāng)?shù)臅r(shí)候，模型層提供的能力可以接到應(yīng)用層上，通過調(diào)試模型讓應(yīng)用表現(xiàn)更好，兩個(gè)團(tuán)隊(duì)緊密結(jié)合，而不是非此即彼。

甲小姐：你們本次發(fā)布的產(chǎn)品是什么形態(tài)？

徐懷哲：Morph Studio是一個(gè)網(wǎng)站App，與此同時(shí)，我們也堅(jiān)定相信Vision Pro的生態(tài)會(huì)擠占Macbook，未來會(huì)考慮往Vision pro上拓展。

甲小姐：為什么這么早就開始考慮終端形態(tài)的問題？

徐懷哲：對于AI native的視頻產(chǎn)品來說，在手機(jī)端的操作是不符合用戶需求的。而Vision Pro直接在用戶面前呈現(xiàn)一個(gè)3D畫質(zhì)的大屏幕，給AI native App提供了大量新機(jī)會(huì)。

甲小姐：在Vision Pro里你能提供的不僅是一個(gè)視頻工作流，它甚至能通過對話，直接讓用戶沉浸在元宇宙里，還可以編輯用戶所處的環(huán)境？

徐懷哲：對，我甚至可以去看別人的視頻，切入別人的工作流里和他的視頻互動(dòng)。

甲小姐：這一年，你經(jīng)歷了哪些關(guān)鍵決策和思考過程？

徐懷哲：第一個(gè)關(guān)鍵決策是去年二三月，我們討論要不要出來創(chuàng)業(yè)。當(dāng)時(shí)我們很興奮，也有很大挑戰(zhàn)，因?yàn)槲覀冾A(yù)判OpenAI的動(dòng)作會(huì)很快，但我們相信視頻賽道有巨大空間，并值得參與。

第二個(gè)關(guān)鍵決策是去年11月，我們將模型層和應(yīng)用層分離。作為一家創(chuàng)業(yè)公司，我們始終認(rèn)為OpenAI是競爭對手，我們要時(shí)刻做好應(yīng)用層爆發(fā)的準(zhǔn)備，提前布局應(yīng)用層，同時(shí)在模型層也不能落后。單純嫁接模型做應(yīng)用是不可能成功的，我們要做好技術(shù)儲(chǔ)備，把產(chǎn)品打磨好。

3.談生態(tài)：“知道珠穆朗瑪峰有多高就行，第二梯隊(duì)還在香山”

“現(xiàn)在我們就要思考游戲的終局。”

甲小姐：還原一下你們和Stability AI的合作經(jīng)過，他們選擇Morph的核心原因是什么？

徐懷哲：其實(shí)我們很早就開始探討合作了。去年開始，我們兩方就在社區(qū)圍繞視頻產(chǎn)品有很多交流，Morph也通過社區(qū)參與展示了自己的模型研發(fā)能力，這對開發(fā)一款好的應(yīng)用至關(guān)重要；此外我們很早就和他們分享過我們產(chǎn)品的整體設(shè)計(jì)，他們對我們將發(fā)布的網(wǎng)頁端產(chǎn)品Morph Studio很有信心。

這是一個(gè)相互補(bǔ)充的合作，我們雙方都有很強(qiáng)的模型，在經(jīng)營戰(zhàn)略上也有一定共識(shí)，而且我們也十分愿意在Stability AI的生態(tài)中深入模型研發(fā)和應(yīng)用落地。這也是Stability AI在視頻產(chǎn)品領(lǐng)域的首次合作，我們雙方幾乎是同時(shí)提出了合作的訴求，并很快達(dá)成一致。

甲小姐：你們具體的合作方式是什么？

徐懷哲：首先是模型層面的合作，雙方各取所長，且我們代表了兩種生態(tài)，Stability AI是開源生態(tài)，Morph是閉源生態(tài)，但我們相信應(yīng)用層應(yīng)該包含開源和閉源。所以通過本次合作，Morph Studio可以調(diào)用Stability AI的模型，我們也會(huì)向用戶明確哪個(gè)是Morph的模型，哪個(gè)是Stability AI的模型。

其次，借助Stability AI生態(tài)中的工具，Morph將為用戶打造更完整的視頻創(chuàng)作工作流。最后還會(huì)有一些市場合作，幫助我們更好地做用戶增長。我們不方便透露太多技術(shù)合作的細(xì)節(jié)，可以肯定的是，我們會(huì)建立長期合作，合作戰(zhàn)略將隨著技術(shù)和行業(yè)的發(fā)展，以及我們的應(yīng)用實(shí)踐不斷調(diào)整。最終目的還是幫助技術(shù)突破和落地，以及相互學(xué)習(xí)，共同進(jìn)步。

甲小姐：你應(yīng)該深度調(diào)研了國內(nèi)外很多做視頻生成模型的企業(yè)，也很了解大家的水平。如果Sora是第一梯隊(duì)，第二、第三梯隊(duì)大概做到什么程度？

徐懷哲：你知道珠穆朗瑪峰有多高就行了，討論第二梯隊(duì)的意義不是很大。

甲小姐：第二梯隊(duì)都在香山？

徐懷哲：是的（笑）。

甲小姐：目前業(yè)內(nèi)大多都在討論模型層，少有人討論應(yīng)用層，你認(rèn)為業(yè)內(nèi)對Sora的討論熱情過高了嗎？

徐懷哲：Sora給整個(gè)行業(yè)打了一針強(qiáng)心劑，我覺得怎么討論都不過分，因?yàn)樗衿�，太有意思了。另外�?strong>視頻作為娛樂消費(fèi)屬性更高的模態(tài)，大家對應(yīng)用層的關(guān)注存在滯后性。如果我們這次發(fā)布能引發(fā)大家對應(yīng)用層更多深層次的思考和討論，我也非常開心。

甲小姐：OpenAI的技術(shù)報(bào)告并沒有公布Sora的訓(xùn)練細(xì)節(jié)，我們也無法測試和交互，現(xiàn)在就大范圍討論應(yīng)用層，是否為時(shí)過早？

徐懷哲：不會(huì)。Foundation model和能用起來的產(chǎn)品之間始終存在天然的gap，這個(gè)gap就是應(yīng)用層的機(jī)會(huì)。這些機(jī)會(huì)不應(yīng)該等到完全搞清模型再去做，那時(shí)候可能為時(shí)已晚了。現(xiàn)在我們就要思考游戲的終局。知道終點(diǎn)在哪，過程中很多決策和執(zhí)行會(huì)更容易做。

甲小姐：你認(rèn)為OpenAI會(huì)直接推出一個(gè)端到端的Super App嗎？

徐懷哲：不排除這種可能性，但這似乎并不符合OpenAI的調(diào)性，OpenAI想做的是生態(tài)。另外，視頻的天花板非常高，而且能玩出花樣的細(xì)分賽道非常多。例如衛(wèi)星技術(shù)帶來衛(wèi)星電視，大家開始看電視��；到了互聯(lián)網(wǎng)時(shí)代，大家看YouTube、優(yōu)酷、嗶哩嗶哩；再到移動(dòng)互聯(lián)網(wǎng)時(shí)代，大家有TikTok、快手、Musically。視頻領(lǐng)域永遠(yuǎn)會(huì)有新的賽道和新的商業(yè)模式跑出來。我想世界上不存在一家AI視頻公司能吃掉所有細(xì)分賽道，一定會(huì)出現(xiàn)新的機(jī)會(huì)、新的社區(qū)、新的范式。

4.談產(chǎn)品：“生成式AI最大的突破就是把所有模態(tài)從靜態(tài)變?yōu)榭苫?dòng)”

“生成式AI‘拍扁’了整個(gè)視頻制作流程，最終實(shí)現(xiàn)‘以假亂真’，無形之中形成了一個(gè)全新的工作流。這個(gè)工作流該怎么定義才是接下來應(yīng)用層該集中關(guān)注的方向。”

甲小姐：AI生成視頻有三類形態(tài)：Video-to-Video、Image-to-Video、Text-to-Video，你們的demo里還提到了“Idea-to-Video”？

徐懷哲：幾種生成形態(tài)我們都有，目前我們更看重如何幫助創(chuàng)作者利用我們的工具將idea快速、方便地實(shí)現(xiàn)。

甲小姐：你們給Morph Studio定義了三個(gè)關(guān)鍵詞：“All-in-one （一體式AI視頻創(chuàng)作） ”“Interactive （可互動(dòng)視頻） ”“Community （可互動(dòng)視頻社區(qū)，創(chuàng)作者社區(qū)） ”。這三件事為什么重要？

徐懷哲：“All-in-one”，是因?yàn)?strong>目前調(diào)用單一模型并不能高效呈現(xiàn)創(chuàng)作者的idea，先在網(wǎng)站上生成視頻，再去其他軟件做后期，會(huì)消耗創(chuàng)作者很多精力，但我們本次發(fā)布的Morph Studio已經(jīng)有效解決了這一問題，把視頻制作、剪輯、后期等放在了一起；

“可互動(dòng)”是一種通過生成式AI實(shí)現(xiàn)的新的分發(fā)機(jī)制，比如一個(gè)視頻前十秒是我喜歡的，后十秒我不喜歡，過去的方式是把它劃走，但未來用戶可以直接進(jìn)行二創(chuàng)，替換掉自己不喜歡的部分。我認(rèn)為生成式AI最大的突破就是把所有模態(tài)從靜態(tài)變?yōu)榭苫?dòng)。比如你可以持續(xù)向ChatGPT提問，直到問出你滿意的答案為止。這種可互動(dòng)方式比過去單一的推薦和搜索都更有趣。視頻本身作為一種很有趣的模態(tài)，它實(shí)現(xiàn)可互動(dòng)性會(huì)更令人興奮；

我們也非常樂意通過工具的方式切入，把可互動(dòng)視頻展現(xiàn)出來給大家玩，這就是Morph想要做的第三件事“可互動(dòng)視頻社區(qū)”。

甲小姐：先看“All-in-one”。傳統(tǒng)的視頻產(chǎn)業(yè)鏈很長，涵蓋“IP-策劃劇本-投資-制作-宣發(fā)-播出-周邊衍生品”等環(huán)節(jié)，而你們所說的“all in one”聚焦把制作環(huán)節(jié)縮短？

徐懷哲：是的。生成式AI “拍扁”了整個(gè)視頻制作流程，最終實(shí)現(xiàn)“以假亂真”，無形之中形成了一個(gè)全新的工作流，摒棄了拍攝和很多前期準(zhǔn)備流程。新的工作流下，如何發(fā)揮新的優(yōu)勢，彌補(bǔ)新的劣勢，是我們應(yīng)用層要集中關(guān)注的問題。我認(rèn)為從AI的角度去思考這個(gè)工具該怎么做，這個(gè)工作流該怎么定義才是接下來應(yīng)用層應(yīng)該集中關(guān)注的一個(gè)方向。

未來，對于創(chuàng)作者而言，單個(gè)鏡頭的可能性更多了。當(dāng)我們把視頻制作、剪輯、后期放在一起后，創(chuàng)作者能更一目了然地知道如何串聯(lián)視頻片段。我們的工具則提供了一個(gè)更可視化的方式，來激發(fā)創(chuàng)作者的想象力。目前我們正在嘗試在畫板上呈現(xiàn)更多元的視頻素材，并將素材的排列組合更可視化。

甲小姐：Runway和剪映似乎有相似功能，你們的差異化在于？

徐懷哲：Runway和剪映都是基于傳統(tǒng)的workflow，我們想做一條全新的workflow，集生成、剪輯、后期為一體的AI視頻創(chuàng)作工作流。傳統(tǒng)的工作流每一步都有明確的先后順序，而我們的all in one產(chǎn)品是基于生成式AI，支持創(chuàng)作者調(diào)用AI模型去探索每個(gè)鏡頭的無限可能。

甲小姐：我們再看“可互動(dòng)視頻社區(qū)”。這有點(diǎn)像沉浸式的互動(dòng)游戲，讓玩家可以進(jìn)入不同平行時(shí)空，感受不同的故事后續(xù)，而你們?yōu)榇颂峁┝艘环N更簡單的生產(chǎn)方式？

徐懷哲：是的。如果只是我們?nèi)藶榘l(fā)視頻，很難形成大規(guī)模的二創(chuàng)社區(qū)。最有機(jī)的方式就是讓很多優(yōu)秀創(chuàng)作者提供一些模板，其他創(chuàng)作者可以去復(fù)制、借鑒、創(chuàng)新某個(gè)工作流，把視頻替換為自己想要的效果。

我們很相信社區(qū)的力量能夠把整個(gè)可互動(dòng)視頻生態(tài)做得非常有意思。我們的產(chǎn)品早期更多是工具屬性，后期會(huì)在工具屬性之上形成一個(gè)創(chuàng)作者社區(qū)。隨著創(chuàng)作者社區(qū)的門檻逐漸被拉低，會(huì)有更多人進(jìn)來玩這些視頻。

甲小姐：這些模板素材的版權(quán)歸屬于誰？

徐懷哲：版權(quán)歸創(chuàng)作者所有。未來，當(dāng)一位創(chuàng)作者拋出一個(gè)很好的workflow后，其他用戶使用前需要支付一些費(fèi)用，這是我們的一種商業(yè)模式。

甲小姐：定義產(chǎn)品每個(gè)特點(diǎn)時(shí)，你的判斷標(biāo)準(zhǔn)是什么？

徐懷哲：直接在模型上做套殼產(chǎn)品肯定不行，要從創(chuàng)作者的創(chuàng)作習(xí)慣出發(fā)，打穿模型層和應(yīng)用層，為創(chuàng)作者定制各異的、真正高效的工作流。此前我們調(diào)研了很多創(chuàng)作者的需求，發(fā)現(xiàn)現(xiàn)有產(chǎn)品很難幫他們搭建高效的工作流。

甲小姐：你們的產(chǎn)品面向?qū)I(yè)人士還是普通大眾？

徐懷哲：一個(gè)社區(qū)保持有機(jī)活力的前提在于運(yùn)營者并不強(qiáng)調(diào)社區(qū)要往哪個(gè)方向發(fā)展，更多由用戶去決定他們喜歡什么樣的方向。我們可能在早期會(huì)做得稍微垂直一些，未來還是會(huì)鋪開來做比較通用的方向，最終結(jié)果還是由用戶來決定。

甲小姐：你認(rèn)為Morph Studio會(huì)成為AI視頻時(shí)代的“Supper App”嗎？

徐懷哲：一定會(huì)的。

5.談競爭：“我們最知道用戶需要什么”

“一個(gè)有機(jī)的社區(qū)正是因?yàn)橛羞@些可愛的創(chuàng)作者們，才變得更豐富、有趣。”

甲小姐：甲子光年梳理了目前國內(nèi)在文生視頻領(lǐng)域的公司，你怎么看待這些潛在競爭對手？

徐懷哲：視頻整體的技術(shù)路線在趨于一致化，這是Sora帶給我們最大的驚喜，接下來肯定會(huì)有很多人加入競爭，我認(rèn)為這是一個(gè)好現(xiàn)象。如果創(chuàng)業(yè)創(chuàng)到一個(gè)沒有任何人跟你競爭的賽道，很有可能是你做錯(cuò)了。

更多人進(jìn)來至少說明這個(gè)行業(yè)在“水漲船高”。Sora在蓄水池里放了很多水，我們作為這個(gè)賽道的“船”，自然而然會(huì)隨著水位高漲而受到更多關(guān)注，這讓我們很開心。視頻行業(yè)的天花板很高，抓住任何一條細(xì)分賽道，都會(huì)成為一家了不起的公司，我們要做好自己的事。

甲小姐：你們的護(hù)城河是什么？

徐懷哲：Morph的模型層研發(fā)能力一直處于行業(yè)領(lǐng)先地位，且我們有一個(gè)粘性極大的創(chuàng)作者生態(tài)圈。我本科差點(diǎn)就去學(xué)電影專業(yè)了，我一直在關(guān)注電影技術(shù)，并且定期與相關(guān)創(chuàng)作者交流，對創(chuàng)作者需求有更深入的理解。生成式AI時(shí)代，我們最知道用戶需要什么，并且能基于用戶需求把模型層真正落地，讓創(chuàng)作者用到更趁手的工具。

甲小姐：產(chǎn)品一旦定義出來，就變成明牌了。如果字節(jié)要做，你們還有機(jī)會(huì)嗎？

徐懷哲：首先，我們的模型研發(fā)能力很強(qiáng)，整個(gè)團(tuán)隊(duì)，包括我自己都是技術(shù)出身，對模型層的理解領(lǐng)先于其他團(tuán)隊(duì)。

其次，真正有意義的事情是把模型層和應(yīng)用層相結(jié)合。很少有人能夠像我們一樣既了解技術(shù)，又了解用戶需求。

最后，社區(qū)的用戶忠誠度很高。Reddit最近在尋求上市，他們是一家很老牌的互聯(lián)網(wǎng)企業(yè)，他們的產(chǎn)品在中國產(chǎn)品經(jīng)理眼中沒有什么可取之處，但是Reddit上聚集了大批死忠粉。創(chuàng)作者社區(qū)的魅力也在于此，他們并不會(huì)因?yàn)槟承┕净ㄖ亟鸫蛟炝艘豢钚庐a(chǎn)品就離開社區(qū)。相反，我認(rèn)為一個(gè)有機(jī)的社區(qū)正是因?yàn)橛羞@些可愛的創(chuàng)作者們，才變得更豐富、有趣。現(xiàn)在我們團(tuán)隊(duì)里已經(jīng)聚集了非常多優(yōu)秀的社區(qū)運(yùn)營者和視頻創(chuàng)作者。

6.談商業(yè)：“YouTube市場有多大，AI生成視頻的市場就有多大”

“我們提供了可互動(dòng)視頻這個(gè)全新的范式。”

甲小姐：Morph Studio最先落地的用戶群是什么？

徐懷哲：大致分三層：第一層是創(chuàng)建優(yōu)秀workflow的創(chuàng)作者，屬于金字塔尖的用戶；第二層是AI視頻的二創(chuàng)人群，不會(huì)從頭創(chuàng)建workflow，而是對已有的工作流進(jìn)行編輯；第三層是AI視頻的觀看者，是金字塔底端數(shù)量最大的用戶。

甲小姐：Midjourney的盈利模式主要是付費(fèi)訂閱，向用戶按月收取費(fèi)用。在你們的設(shè)想中，公司的商業(yè)模式是什么？

徐懷哲：也是付費(fèi)訂閱。

甲小姐：你如何判斷你們所處賽道的市場規(guī)模？

徐懷哲：YouTube有多大，這個(gè)市場就有多大。我們提供了可互動(dòng)視頻這個(gè)全新的范式。如果把社區(qū)做得足夠大，它有可能像Instagram一樣，從一個(gè)工具變成一個(gè)巨大的交流社區(qū)。

甲小姐：你創(chuàng)辦Morph的初衷是什么？

徐懷哲：20年前，大家獲取信息最快的方式是用搜索引擎去搜索，10年前是通過推薦系統(tǒng)推薦。今天，生成式AI帶來了一種新的信息分發(fā)方式對話。

創(chuàng)辦Morph的過程中我看了樂高的紀(jì)錄片，講了樂高如何用非常有限的積木morph（變形）出千奇百怪的玩具形態(tài)。我一直很喜歡做視頻，做視頻和做樂高一樣，視頻創(chuàng)作者也會(huì)把相關(guān)聯(lián)的視頻片段morph到一起，講述一個(gè)又一個(gè)有趣的故事，這也是公司名稱“Morph”的來源。

甲小姐：你們目前融資進(jìn)展如何？

徐懷哲：我們一共融了兩輪。最新一輪在去年11月完成，現(xiàn)在我們正在接觸一些新的基金，有幾家已經(jīng)聊得比較成熟了。

甲小姐：從體感上看，國內(nèi)外創(chuàng)投界對Sora以及整個(gè)AI生成視頻的認(rèn)知是否存在gap？

徐懷哲：國內(nèi)VC對Sora這波AI的信息獲取效率還挺高的，國內(nèi)外的關(guān)注重點(diǎn)差不多。

甲小姐：目前你們的團(tuán)隊(duì)有多少人？

徐懷哲：10人左右。

甲小姐：你們的核心團(tuán)隊(duì)都很年輕，Sora也是博士畢業(yè)生帶隊(duì)實(shí)現(xiàn)的，是否越年輕的團(tuán)隊(duì)在這個(gè)賽道越有競爭力？

徐懷哲：年輕意味著我們都很沉入一線，對技術(shù)的跟進(jìn)速度最快，了解程度最細(xì)致。我們平常接觸到的AI視頻創(chuàng)作者也非常年輕，彼此的年齡gap比較小，我們能更好地觸達(dá)他們，并理解他們的創(chuàng)作習(xí)慣。

甲小姐：OpenAI的技術(shù)信仰是Scaling law，你對于AI生成視頻有沒有自己的技術(shù)信仰？

徐懷哲：最先把video foundation model落地到每位創(chuàng)作者的工作流中，這是我們的技術(shù)信仰和價(jià)值觀。

甲小姐：此時(shí)此刻你應(yīng)該正處在一個(gè)絕妙的創(chuàng)業(yè)階段處于有一個(gè)想象力巨大的賽道，全世界聚光燈都匯聚于此，團(tuán)隊(duì)也很年輕很有干勁�；仡欉@一年的創(chuàng)業(yè)歷程，你印象最深的是什么？

徐懷哲：我們的技術(shù)能夠真正幫助到很多視頻創(chuàng)作者，這讓我感到非常興奮。

相關(guān)熱詞： 對話徐懷哲 Morph 要做第一個(gè) native 視頻

上一篇：風(fēng)光背后的苦楚：AI芯片廠商的真實(shí)生存狀態(tài)

下一篇：一場人工智能大會(huì)，看門頭溝如何瞄準(zhǔn)“小切口”做好“大文章”

AiLab云推薦

對話徐懷哲：Morph AI要做第一個(gè)AI native視頻生產(chǎn)工作流
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-03-04 14:59:20 瀏覽：6215次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

對話徐懷哲：Morph AI要做第一個(gè)AI native視頻生產(chǎn)工作流 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-03-04 14:59:20 瀏覽：6215次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

對話徐懷哲：Morph AI要做第一個(gè)AI native視頻生產(chǎn)工作流
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-03-04 14:59:20 瀏覽：6215次