展會信息港展會大全

專訪VideoPoet作者:LLM能帶來真正的視覺智能
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-01-05 09:17:40   瀏覽:7588次  

導讀:采訪:penny、Kefei 編輯:Siqi、penny 排版:Scout 在 AI 領域,近年來各個子領域都逐漸向 transformer 架構(gòu)靠攏,只有文生圖和文生視頻一直以 diffusion + u-net 結(jié)構(gòu)作為主流方向。diffusion 有更公開可用的開源模型,消耗的計算資源也更少。 不過,最近...

采訪:penny、Kefei

編輯:Siqi、penny

排版:Scout

在 AI 領域,近年來各個子領域都逐漸向 transformer 架構(gòu)靠攏,只有文生圖和文生視頻一直以 diffusion + u-net 結(jié)構(gòu)作為主流方向。diffusion 有更公開可用的開源模型,消耗的計算資源也更少。

不過,最近視頻生成領域也出現(xiàn)了效果驚艷、基于大語言模型架構(gòu)的成果 VideoPoet,讓大眾看到了 transformer 和 LLM 在視頻生成領域的強大可能性。

VideoPoet 是 Google 近期發(fā)布的一個專注于視頻生成的 LLM ,能夠一站生成視頻、音頻、支持更長的視頻生成,還對現(xiàn)有視頻生成中比較普遍動作一致性提供了很好的解決方案。除了效果驚艷,VideoPoet 值得關(guān)注的另外一個原因在于,和絕大多數(shù)視頻領域模型不同,VideoPoet 并沒有走 diffusion 的路線,而是沿著 transformer 架構(gòu)開發(fā),將多個視頻生成功能集成到單個 LLM 中,它的推出以及它所呈現(xiàn)出的效果,是 transformer 在視頻生成任務上擁有極大潛力的有力證明。作為一個全能的視頻生成 foundation model,VideoPoet 接下來還會發(fā)布更多功能。

蔣路認為,視頻生成領域的“ChatGPT 時刻”預計會在 24 年底或 25 年中實現(xiàn),到那個時候視頻生成已經(jīng)可以達到好萊塢樣片級別的效果。放眼更長遠的未來,視頻生成研究更加終極的目標是追求 “visual intellegence”,人工通用智能也會在視頻生成中實現(xiàn)。

01.

視頻生成的技術(shù)路線

海外獨角獸:在視頻生成領域,最合適的技術(shù)路線還沒有收斂。你會怎么給已有的技術(shù)路線分類?

Lu Jiang:現(xiàn)在的技術(shù)路線大致可以分為兩大類(這里不包括 GAN 延續(xù)的工作):一類是基于 diffusion 的技術(shù),另一類則是基于 language model 的技術(shù)。舉例來說,我們最近發(fā)布的 VideoPoet 是典型的基于 language model 的路線,我們組的另一個工作 WALT 則是基于 diffusion。也有人用 token-based 來區(qū)分基于語言模型的技術(shù)和基于diffusion 的技術(shù),但我認為這種說法不太準確,因為 diffusion 里面也有 token 的概念。

基于 VideoPoet 制作的短片

Rookie the Raccoon

diffusion 技術(shù)迭代過幾次了,從最早的的 pixel diffusion 發(fā)展到第二代 latent diffusion,再到第三代 latent diffusion with transformer backbone, diffusion 路線現(xiàn)在是絕對主流,大約 90% 的研究者都在這個領域探索。

基于 language model 的技術(shù)其實比 diffusion 出現(xiàn)得更早,2020年的 ImageGPT 和后來的 DALL-E 都是引入這個概念的,但到 DALL-E2 就換成了 diffusion。Google 的 Parti 模型也是利用語言模型實現(xiàn)文生圖。

基于語言模型的工作又可以分為兩類:一類是以 mask language model(例如BERT) 為主,比如 Google 的 MaskGIT,屬于奠基性的工作,后面比較出名的是 Muse 文生圖模型;另一類是基于自回歸(auto-regressive)的語言模型,這個更接近于現(xiàn)在 LLM 的邏輯。

MaskGIT:Google Research 在 2022 年 2 月發(fā)布的圖像生成模型(對應論文為

MaskGIT:Masked Image Generative transformers

),MaskGIT 改進了 VQGAN 的串行序列生成模式,通過并行解碼(parallel decoding)提升生成效率,最高加速 64 倍,MaskGIT 還進一步提升了圖像生成質(zhì)量,可以支持類別條件輸入,也可以用于圖像編輯和擴展。不過 MaskGIT 不支持文本引導圖片生成。

Muse:Google 在 2023 年 1 月發(fā)布的文生圖模型(對應論文:

Muse:Generation via masked generative transformers

)。不同于 diffusion 或自回歸模型的方案,Muse 是在離散的 token 空間上基于 Mask 方式進行訓練,在當時獲得 SOTA 水平,并且生成效率更高。

但實際上,diffusion 和 large language base 這個分類更多是方便我們理解,隨著時間的推移,這兩個概念的內(nèi)涵是在不斷擴展延伸的,尤其是 diffusion 也在不斷地吸收和學習來自語言模型的方法,它們之間的界限變得越來越模糊。

海外獨角獸:為什么說 diffusion 也在不斷學習語言模型的東西?怎么體現(xiàn)在 diffusion 的發(fā)展和迭代中?

Lu Jiang:第一代 diffusion model 是 pixel diffusion ,這種方法處理速度較慢,尤其是在處理大量像素,比如高分辨率圖像時。所以,如果直接在視頻任務上應用 pixel diffusion 就會相當挑戰(zhàn),因為視頻是一個三維空間。為了解決這個問題,行業(yè)早期采用的是級聯(lián)(Cascade)的方法,先使用一個小型模型進行漸進式生成,然后逐漸擴大模型規(guī)模,再把四到五個模型串聯(lián)在一起。

Diffusion 的一個重要突破是引入了 latent diffusion,相關(guān)研究是 High-Resolution Image Synthesis with Latent Diffusion Models,這個是 stable diffusion 奠基性的工作。它最基本的思想是首先將高維數(shù)據(jù),比如一個很大的圖像,降維到一個 feature,這個其實就是用 token,再在這個 feature 上做 diffusion,完成后再把特征空間投射回圖像空間。latent diffusion 的研究團隊之前就是做語言模型的,這個思想其實就是從語言模型那里來的,從 latent diffusion 的研究文章我們也可以看到,第一個所謂的 tokenizer(分詞器)是從語言模型中引入的。

Tokenizer:將文本或序列轉(zhuǎn)化為標記(tokens)的工具或算法。在自然語言處理(NLP)領域,tokenizer 通常用于將文本分割成單獨的單詞、短語或符號,這些單元被稱為標記。在生成模型中,tokenizer 的作用是將連續(xù)的輸入序列轉(zhuǎn)換為離散的標記,這些標記可以被模型理解和處理。上述的 diffusion model 采用的是 tokenizer 轉(zhuǎn)化為連續(xù)的標記。

第二個比較大的里程碑是將 U-Net 架構(gòu)逐漸轉(zhuǎn)換成 transformer 上,這里的代表研究是 DiT,這是個比較自然而然的過程,因為 transformer 架構(gòu)能力更強、更能做生成。

對于基于 transformer 的工作,不管是 latent diffusion 還是 language model,它們之間的區(qū)別很小,都是 token-based,最大的區(qū)別在于基于 diffusion 的生成是連續(xù)的 token, language model 處理的是離散的 token。

海外獨角獸:你提到目前有 90% 的視頻生成研究者都做的是 diffusion 路線,為什么 diffusion 會是主流?

Lu Jiang:我們要把 “研究成果”和“真正 avaliable”分開看,F(xiàn)在之所以這么多人用 diffusion,最大的原因是 stable diffusion 是一個最好的開源模型,它完整影響了整個生態(tài)圈。因為 99% 的論文不可能重新訓基礎模型,都是找一個已有模型再在它的基礎上做一些嘗試。

在理解生成模型時,可以分兩個層次:基礎模型和應用。基礎模型的目標是實現(xiàn)整體的最佳性能,但可能不關(guān)心某個具體應用場景。根據(jù)(Bommasani等人 2021)定義, foundation model 有兩個特性,第一可以賦能 sample efficient learning,如果訓練出這個 foundation model,用戶在解決具體問題時可能只需使用 1% 的數(shù)據(jù)或更少,第二個就是所謂的 coverage,模型可以用來做任何事,只要微調(diào)都能用起來,現(xiàn)在的 NLP 基本上就是這樣,拿我們的工作舉例,VideoPoet、WALT 和 Muse 等這些模型都是 foundation model。

相對于 foundation model 的就是下游的 application model ,從 foundation model 出發(fā),針對特定任務優(yōu)化,比如大家現(xiàn)在看到的跳舞、Control-Net 以及各種視頻編輯、風格化(stylization)等等,都屬于下游應用。

很現(xiàn)實地說,絕大部分高校很多研究者都沒有能力做 foundation model,需要的資源太多。在 stable diffusion 之前,DALL-E 的出現(xiàn)極大地激發(fā)了研究社區(qū)的興趣,DALL-E 相比 GAN 在生成、計算和多樣性等方面都有本質(zhì)的提升。社區(qū)中有很多人嘗試重現(xiàn) DALL-E,比如,有網(wǎng)友做了 mini DALL-E,但質(zhì)量慘不忍睹,社區(qū)很缺一個“可用”的模型。開源模型 stable diffusion 的出現(xiàn)填補了這個空缺。

在 2022 年那時候,Stable diffusion 和 DALL-E 、Google Imagen、Google Muse 相比,不一定是最強的模型,但確實是最公開可用的模型,后續(xù)工作都是在它的基礎上構(gòu)建的,對社區(qū)有本質(zhì)的影響。

這也是為什么視頻生成領域也受到 stable diffusion 路線限制,因為現(xiàn)階段的視頻生成研究通常先從圖像出發(fā),把“幀”先生成出來,然后嘗試減少一些不一致性、再播放成為一個視頻,目前階段的視頻生成更像是“幻燈片生成”,我相信市場上都不認為這是最佳方法,但如果要生成一些可看的內(nèi)容,這是唯一能做的方法,開源社區(qū)上的資源在很大程度上限制了我們能做什么。

最近推出的 stable video diffusion 會極大地改變這一現(xiàn)狀,作為了一個視頻 foundation model,stable video diffusion 的出現(xiàn)也會對現(xiàn)有的應用,比如編輯、穩(wěn)定化,帶來明顯進步,因為之前的問題或許已經(jīng)被這個新的 foundation model 解決了,現(xiàn)在生成的東西本身就具有時間一致性?赡茉谖磥淼囊荒昊虬肽陜(nèi),許多研究工作將不再走之前的技術(shù)路線,而是從 stable video diffusion 開始。雖然我個人覺得當前的 stable video diffusion 肯定不是最優(yōu)的技術(shù),但它是目前唯一可用的,大家可以在它上面持續(xù)做東西出來。

海外獨角獸:隨著基于 diffusion 和大語言模型的技術(shù)之間的界限變得模糊,是否意味著越來越多的研究者會轉(zhuǎn)向使用 transformer 架構(gòu)?

Lu Jiang:我覺得即使在基于 diffusion 的路線中,使用 transformer 也會是個趨勢,因為 transformer 更 scalable,這是大家的共識。我了解到 diffusion 最大的模型也就 7 到 8 個 billion 參數(shù)規(guī)模,但 transformer 模型最大可能已經(jīng)達到 trillion 級,他們是完全兩個量級。

為什么 diffusion 沒有訓出更大的模型?我認為肯定有人試過,但沒成功。不是說 diffusion 不能 scale,而是要考慮花多大體量的資源和資金才能實現(xiàn)這件事。在 NLP,大公司花了 5 年時間、投入數(shù)百億美元,才把模型做到現(xiàn)在規(guī)模,而且,隨著模型規(guī)模的增大,對于所有公司來說,scaling、包括 model parameter 變成了 top secret,search 大模型架構(gòu)成本也成倍增長。

所以對于 diffusion 來說,我不覺得沒有 scale 的可能,只不過從 U-Net 轉(zhuǎn)到 transformer 的話,可能就能利用之前的學習配方( learning recipes),大大降低搜索這種架構(gòu)的成本。

海外獨角獸:用 LLM 的架構(gòu)做視頻生成模型,和給一個 LLM 比如 ChatGPT 加上多模態(tài)能力,這兩者有什么區(qū)別?

Lu Jiang:本質(zhì)上說,基于 language model 的視頻模型仍是一個語言模型,因為訓練和模型框架沒有改變。只是輸入的“語言”擴展到了視覺等其他模態(tài),這些模態(tài)也可以離散化表示為符號。對模型來說,理解其他模態(tài)就像理解一種外語。我認為當前難點在于讓 LLM 理解多模態(tài)任務,只要表示方式設計得當,LLM 模型可以無縫理解和生成。

所以不需要專門設計新的模型結(jié)構(gòu)。只要模型理解了以后,輸出形式也很靈活,可以自然的組合不同模態(tài),實現(xiàn)多模態(tài)的生成,這方面也有很多相關(guān)研究。

02.

VideoPoet :LLM 能帶來真正的視覺智能

海外獨角獸:最近發(fā)布的 Video Poet 和 WALT 都用了 transformer 架構(gòu),效果也都很驚艷,大家也都覺得看到了 diffusion 路線之外的新趨勢。這些研究的背景是什么,對視頻生成領域的主要貢獻是什么?

Lu Jiang:VideoPoet 和 WALT 是我們最近發(fā)布的工作,VideoPoet 是一個基于 language model 的 video foundation model,它的目的就是想做一個模型,把所有關(guān)于視頻的功能囊括到里面。WALT 是與李飛飛老師和其學生合作的項目,WALT 基于 diffusion,但也使用了 transformer 。有意思的是,這兩個模型其實用的是同一個 tokenizer 架構(gòu)叫 MAGVIT-v2,它們之間的關(guān)系其實非常緊密。WALT 和 VideoPoet 使用的 tokenizer 層不同,WALT 用的是連續(xù)層(微調(diào)后),VideoPoet 采用離散層。

VideoPoet Overview

VideoPoet 的貢獻在于,它提出的視頻生成方法在生成動作時能保持很好的一致性,尤其是大范圍 motion 的連貫性,這是很強的貢獻,另一個貢獻是實現(xiàn)多種任務的一站式處理,和生成長度 10 秒視頻。技術(shù)上的貢獻或許沒有多么復雜,這篇工作的主要意義是讓社區(qū)重新認識 LLM 在視頻生成上會扮演很重要的角色,它可能比人們當前的認知要強很多。

海外獨角獸:大動作、一致性等問題是視頻生成的難點,LLM 能更好地解決這些難點嗎?

Lu Jiang:我個人覺得視頻生成的難點是 motion 部分,現(xiàn)在圖片生成的方向是高清細節(jié),但在視頻里,人對動作是很敏感,一些奇怪的行為一下就能發(fā)現(xiàn)。目前市場上大部分視頻生成的公司基本上做的都是運鏡、非常小的動作,再加上 camera 的不同模式,很少有大動作,這對于現(xiàn)有的 diffusion 來說非常吃力。我的理解是因為它們沒有很好的能建模運動的 tokenizer,這也是為什么 WALT 的 motion 能做的比它們好。

我認為 motion modeling 屬于很頭部的問題,尤其是復雜動作的連貫性。

2019 年時我就見識了 transformer 的強大。那時通過合作,我也在做NLP方面的研究,和當時大多數(shù)視覺領域的人相比,我特別相信 transformer ,當時我的研究小組有個明確的目標,就是必須采用 transformer,所以在 GAN 時期我們已經(jīng)逐步把 GAN 架構(gòu)替換為 transformer,當然后面 GAN 也逐漸退出歷史舞臺了。

后來我們研究 Mask Language Model,為什么做這個呢?Mask 首先這是個 transformer,當時解決的是速度問題,因為 auto-aggressive 太慢了,diffusion 當時會更慢,但 Mask 可以很快生成,在 2022 年 diffusion 需要 1000 步的時候,它可能就只需要 8 步了。

做 Mask 的過程中我們提出了 MaskGIT,認為可以用 Mask Language Model 的方式做圖像生成,是把這件事做到了 text-to-Image 上。

我們在開發(fā) Muse 時,曾有過一段時間可以與 stable diffusion 的某個版本進行比較,因為當時我們的訓練數(shù)據(jù)是一樣的,所以能比較客觀地比較,我們的結(jié)論是,MaskGIT、Muse 這種語言模型的作品在質(zhì)量要略高于 stable diffusion,速度也要快很多,在一些計算口徑中這種速度差距能到幾倍。

當時 Muse 剛出來的時候,也有網(wǎng)友呼吁我們開源,但出于各種原因沒有開源。如果當時開源了,可能現(xiàn)在的開源社區(qū)的研究格局可能會有所不同,比如可能同時有些人研究基于 language model 路線,有些人研究基于 diffusion 的路線。而且 Muse 當時在速度上非常有競爭力,diffusion 可能花了大半年時間才追上,所以如果當時開源的話可能推廣性也很好。

我一直很堅信 language model 的方法,從我內(nèi)心來說,我不認為 language model 比 diffusion 差,所以我一直主張堅持這一路線,比如后面包括用 auto-aggressive 與 LLM 結(jié)合。

做完 image 之后,我們就轉(zhuǎn)向了視頻。對于視頻,我的信念是一定要使用 transformer,雖然在視覺領域中使用 U-Net 依然是主流,這也是為什么 WALT 即使是用 diffusion,我們?nèi)匀灰褂?transformer 的原因。

海外獨角獸:為什么你這么早就堅信 transformer 路線,這會是未來視頻生成技術(shù)收斂的方向嗎?

Lu Jiang:我所說的 transformer 、language model 以及 large language model(LLM)是一樣的意思,因為這兩者在 NLP 中是幾乎相同的概念。長遠來看,比如未來 3 到 5 年,我個人認為 diffusion 可能會失去競爭力。

首先,LLM 可能是人類歷史上第一個能夠窺探所謂 AGI 的模型,而且是通過非常簡單的方法實現(xiàn),只要持續(xù)增長模型和數(shù)據(jù),模型就能帶來驚喜。在這之前的 AI ,我們基本可以知道它能做什么、不能做什么,但整體上不會“be suprised”,但現(xiàn)在,就像 OpenAI 的Ilya 說的,通過很簡單的預測下一個 token 的操作,就能支持非常智能的應用,我覺得因為 transformer ,我們幾乎已經(jīng)敲開了通用人工智能 AGI 的大門。人類歷史上提出了很多 AI 模型,這是唯一一個實現(xiàn)這件事的,我們?yōu)槭裁床话阉哪芰Πl(fā)揮到最大呢?

第二點,未來 5-10 年,幾乎不太可能出現(xiàn)一個新的模型挑戰(zhàn) LLM 在文本的地位。然后現(xiàn)在越來越多的比如音樂生成、音頻生成、機器人等領域主流仍然是 language model,最近 vision 領域也發(fā)生了變化比如GPT-V和Gemini,我看到的大概率 language model 也會把絕大部分 visual understanding 囊括。

所以從大的格局上來看,如果所有領域的研究都進入到 LLM ,那么為什么視覺領域要被單獨拿出來做?它到底難到多大程度需要我們單獨處理呢?因為單獨處理意味著很多,從工程角度,要同時引入兩套模型,會增加成本和優(yōu)化難度。當然未來可能會發(fā)明一種 diffusion 和 LLM 混合使用的方式,但生成仍然是要在 language model 內(nèi)原生的,diffusion 更像是輔助的存在。從大的格局上,我認為沒有什么不可抗的困難要把圖像和視頻生成任務從語言模型中單獨剝離出來。

我深信 LLM 的第三個原因是:現(xiàn)在的圖像生成模型解決的問題類比到 NLP 來說相當初級,例如,讓模型生成一張“戴紅色圣誕帽的狗的圖片”這樣的任務,這在 NLP 中相當于生成“dog”、“red hat”和“on top of the dog”幾個詞語,人們不會覺得這是“智能”,只是換到圖像模態(tài),大家在視覺上覺得很驚艷,但這絕對不能代表是視覺領域的智能。

海外獨角獸:如果把大模型類比成人,現(xiàn)在只是有了語言,還需要眼睛和其他模態(tài)。怎么定義視覺和多模態(tài)的智能?為什么現(xiàn)在還沒能實現(xiàn)?

Lu Jiang:“智能”是一個整體思想,“模態(tài)”是人類智能的表現(xiàn)形式語言是最抽象的,聲音和視覺領域是語言的延伸。LLM 已經(jīng)展示了語言智能,但還不是全部,類似于一個人有想法,但沒有手畫出來,沒有途徑表達出來。這是暫時的制約,不是 LLM 的本質(zhì)缺陷。

未來誰能打敗 Midjourney?一定不是在圖像質(zhì)量上競爭,現(xiàn)在的癥結(jié)點已經(jīng)不在這里了,大家現(xiàn)在說 DALL-E 比 Midjourney 好,我認為是說 DALL-E 的 prompt following 要更好,在 visual intelligence 語境下,prompt following 可能是最基本的。

用一個例子說明什么是真正的 visual intelligence,比如一個創(chuàng)業(yè)者想準備融資的 pitch deck,目標是能獲得融資。這是個很任務導向的問題,把這個需求給模型,模型理解了問題后可能還會追問一些細節(jié),例如投資人的背景等等,在這些信息基礎上,輸出一份滿足需求的 deck,最終融資結(jié)果可能比人做得還好,這才是視覺領域中隱藏的真正智能。

Visual intelligence 是廣泛存在于我們社會中的,甚至后面還可以接入 VR、AR。

我覺得 LLM 是有這個能力的,現(xiàn)在的局限是新模態(tài)中的理解和表達。現(xiàn)在有兩條路來解決這個問題,一種是重起一套新模型讓它實現(xiàn)理解和表達,這就是 diffusion 的思路,還有一個思路是,能不能想辦法讓 LLM 模型自己學習理解和表達新的模態(tài)?如果能夠?qū)崿F(xiàn)第二點,那么我們就真正解決了這個問題。

海外獨角獸:VideoPoet 和 WALT 這兩個項目效果為什么這么好?其中有什么關(guān)鍵工作嗎?

Lu Jiang:WALT 和 VideoPoet 的相似點在于都使用了 transformer、使用了同一套 tokenizer 架構(gòu),就是 Magvit V2,這是我個人很滿意的一項工作。

Magvit:Masked generative video transformer研究中引入了一個 3D 分詞器,將視頻量化為時空視覺 token,并提出了一種掩碼視頻 token 建模的嵌入方法,以促進多任務學習。

我們之前做了 Spae 的項目,Spea 的核心是做圖像和文本語義的互聯(lián)。我們發(fā)現(xiàn),如果把這種東西接入到 ChatGPT 3.5、Bard 這種 LLM 里面,即使這些模型之前從未接觸過任何圖像,也能通過極少量的圖像示例實現(xiàn)圖像生成和 caption 描述,只需要十幾張例子就能完成。這個發(fā)現(xiàn)讓我非常驚訝,一個之前完全沒有接觸過圖像的語言模型,只需要少量的示例就能生成、理解圖像。后來我們就沿著這個思路,繼續(xù)探索如何讓語言模型更好地理解和表達視覺世界。

這就是我們設計 Magvit V2 分詞器(tokenizer)架構(gòu)的初衷,也是 VideoPoet 效果好的最核心原因。使用分詞器的方法有很多人嘗試過,比如很早之前的 VideoGPT 等,但效果并不理想,我認為關(guān)鍵在于 language model 雖然有足夠潛力、但并不理解生成任務的具體目標是什么,tokenizer 的存在就是通過建立 token 之間的互聯(lián)讓模型明確“我現(xiàn)在要做什么”,互聯(lián)建立得越好、LLM模型越有機會發(fā)揮它的全部潛力。

所以,如果模型不理解當前的生成任務,問題并不在于語言模型本身,而是我們沒有找到讓它理解任務的方法。

這也是為什么我們的研究叫做:

language model Beats diffusion - tokenizer is key to visual generation,在這篇研究里面,我們和 ImageNet 這些項目在 benchmark 上相比證明了,一個好的 tokenizer 接入到語言模型后,能夠立即可以獲得比當時最好的 diffusion 還要好的效果。

我們的研究可能會讓社區(qū)意識到 tokenizer 是被嚴重忽視的一個領域,值得發(fā)力去做,我也相信 tokenizer 會變得越來越好。

海外獨角獸:除了讓 LLM 更明確理解任務,tokenizer 在視覺智能中還會起到什么重要作用?

Lu Jiang:text 模態(tài)里面已經(jīng)有 tokenizer ,在人類自然語言上萬年的發(fā)展造就了現(xiàn)在“自然語言”系統(tǒng)。我們要構(gòu)建的是視覺領域的語言系統(tǒng)。如果能把 tokenizer 做得更完善,隨著能力進化,它連入 LLM 的能力就越強,我覺得是一個實現(xiàn) visual intellegence 的方法。

如果想實現(xiàn) visual intellegence,能不能只是把 LLM 和 diffusion 橋接起來?我覺得這是個好的過度方法, 但是最終可能性很低,因為這對橋的要求很高,要保證信息能夠被準確傳輸,現(xiàn)在大多數(shù)橋是通過 cross attention 實現(xiàn)的,但真正的關(guān)鍵在于 transformer 的大計算量的 self-attention,現(xiàn)在這個橋的帶寬會限制 LLM 的發(fā)揮。但如果把 tokenizer 的這種能力集成到 language model,就能和其他模態(tài)互聯(lián),很輕松地做 multi-task。

另外一個就是長度問題,diffusion 的生成長度通常受限,但在 LLM 里面,比如 music generation 可以做到 3 分鐘,VideoPoet 的特點之一是 long video,借助LLM,不需要特殊處理就可以生成十秒,這些也是基于 tokenizer 實現(xiàn)的。我們之前嘗試了很長時間,效果不佳,但解決了 tokenizer 問題后,LLM 的生成效果完全不同了,現(xiàn)在的 tokenizer 還可以變得更好,一定能產(chǎn)生更卓越的效果。

海外獨角獸:要做出好的 tokenizer 最大的難點是什么?Magvit V2 的成功主要突破了哪些難點?

Lu Jiang:難點主要是壓縮問題,語言模型的邏輯是壓縮器,但視頻序列相比文本來說信息量太大,現(xiàn)在的 LLM 更適配于自然語言的處理,雖然現(xiàn)在很多模型說自己能處理更長的 context,但這是建立在文本數(shù)據(jù)的前提上。文本中的依賴關(guān)系較弱,可能偶爾有些詞匯存在依賴關(guān)系,但視頻中依賴關(guān)系要強很多。

所以如果要讓 LLM 表現(xiàn)好,需要把 sequence length 壓縮到一個合理的范圍內(nèi),難點在于怎么設計壓縮。有個領域叫 Neural Compression,專門研究怎么把視頻壓縮到一個很小的內(nèi)存上。有一類觀點是“壓縮得越好,生成得越好”,其實不是,可能現(xiàn)在我們還沒理解這兩者的聯(lián)系。壓縮不僅要追求壓縮率,還要保證壓縮后能把高質(zhì)量的信息準確傳遞給 language model,我們攻堅的也是這個問題。

我們花了 3 年半的積累才最終設計出現(xiàn)在的 tokenizer,在2021年做圖像生成的時候,我們就發(fā)現(xiàn) tokenizer 就是很關(guān)鍵的環(huán)節(jié),這里有很多技術(shù)細節(jié),也包括一些 GAN 的東西、怎么評估壓縮效果等,都是需要去攻克的,還有個難點是怎么判斷壓縮得好還是不好,我們團隊也是做了上千組的實驗才找到方向。

海外獨角獸:和文字相比,視頻數(shù)據(jù)體量很大、但信息密度低,模型處理起來也很困難,這個問題要如何解決?tokenizer 也會在這個環(huán)節(jié)發(fā)揮作用嗎?

Lu Jiang:如果做視頻理解,只需把關(guān)鍵信息拆出來就可以壓縮得很小,但問題在于如果要做生成,怎么把細節(jié)重構(gòu)出來?只靠幾個字是不夠的。

Spae 這篇論文中就意識到了這個問題,里面的思想我認為很好。Spae 提了一個叫做“金字塔結(jié)構(gòu)”的方法,在壓縮的時候就呈現(xiàn)成一個“金字塔”,上層保留核心語義信息,越往下越細節(jié),如果做理解相關(guān)的任務,只需要取上面層的數(shù)據(jù)就可以,如果進行視頻生成,可以向下移動到金字塔的更深層,因為需要恢復細節(jié)。

這個方向很有趣、很值得進一步探索,因為任務對表示的細節(jié)有不同的需求。例如,對于高清視頻壓縮任務,壓縮后的表示必須能很好地重構(gòu)并展示所有細節(jié),用于生成的表示也必須保留足夠的細節(jié),方便后續(xù)高質(zhì)量地重建內(nèi)容。

Spae:Google 和 CMU 在 2023 年聯(lián)合發(fā)布的基于 LLM 的多模態(tài)語義金字塔自編碼生成模型,Spae 實現(xiàn)了一種向量化的映射器,將圖片這類非文本的多模態(tài)信息先編碼映射到大語言模型的詞匯空間中,實現(xiàn)圖片到文本轉(zhuǎn)譯,再通過金字塔形逐層細化的圖片文本轉(zhuǎn)譯,從而實現(xiàn)對圖片的文本化精確理解。

Tokenizer 的另外一個價值在端側(cè),現(xiàn)在大家都在提“未來是 on-device 的天下”,要真正做到這一點也需要 tokenizer 的加入。

用 Magvit V2 舉例,如果不把它看成生成模型,看作是一個壓縮模型,它把視頻壓縮成一系列離散的語義 token,這些 token 再轉(zhuǎn)換回視頻,就完成了壓縮和解壓的過程。從壓縮比來看,這種方法已經(jīng)超過了當前主流的 H265,接近下一代視頻編解碼標準 H266 的性能。

對于 on-device 來說,我認為這個特性相當重要。我們進行視頻的修改,是從視頻解碼這個環(huán)節(jié)開始,再把解碼后的 code 放在內(nèi)存,再通過一套方法生成,鏈條會特別長。但如果從 token 開始,首先在存儲上的要求變得更友好了,其次,節(jié)省了很多前序處理的環(huán)節(jié)和內(nèi)存,直接拿到的就是模型需要的東西,然后再直接輸出。

在這個模型里,生成和顯示或許是同一件事,模型可以直接輸出顯示的視頻,也可以直接用于生成新的內(nèi)容,比如視頻從橫屏變成豎屏可以瞬間完成,因為對于生成來說,它在做渲染的時候也可以生成,而不是分成兩個模型來做,所以接下來視頻的修改會變得非常容易,在未來競爭中也會變成重要武器,因為 tokenizer 實現(xiàn)了本質(zhì)上的速度提升。

海外獨角獸:從 token 開始處理視頻意味著在視頻的解編碼模式在未來也會被替代?

Lu Jiang:理論上可以,但需要長遠的發(fā)展,模型越做越好肯定會超過,但受制于一些實際應用層面的問題,這些問題還需要再優(yōu)化,比如 token 邏輯下 neural network decoding 的速度是個瓶頸,還未涉及到 CPU 的優(yōu)化等等,有很多類似技術(shù)上的考量。但我覺得社區(qū)能持續(xù)做優(yōu)化,這件事就是非常有可能的。

另外當前是因為視頻解碼編碼已經(jīng)有一套固化的 infra 了,新東西如果想改變它,就必須比它好很多倍。可能到下一代,視頻的生成和顯示是一體的,這就是本質(zhì)上的上升,人們在玩手機上編輯視頻可以是瞬間的,就可以把一些顯示出來、一些生成出來,或者混著去做,這是現(xiàn)在的解編碼的壓縮還是無法做到的。

海外獨角獸:VideoPoet 現(xiàn)在已經(jīng)可以實現(xiàn)了一些可控性,如果想讓可控性更強,比如通過對話就可以實現(xiàn)精準控制和生成、甚至具有前面提到的 intelligence,還需要做哪些突破?

Lu Jiang:我一點也不擔心精準控制的問題,因為這是典型的下游的問題,只要 foundation model 越好,下游研究和應用的效果就會更好,比如基于 SVD 做視頻生成不再是基于每一幀殘影的 slide generation。我們開源社區(qū)的創(chuàng)造力非常另人贊嘆,到后面各種各樣有趣的應用都會實現(xiàn)(故事生成)。

也有人認為不同的 foundation model 有自己的特點,可能有的問題在新的 foundation model 上就不存在了。舉個例子,StyleDrop 作者在 Muse 模型和 stable diffusion 上都嘗試 StyleDrop 的工作,Muse 模型本身就能表現(xiàn)得非常好,但 stable diffusion 需要做進行大量調(diào)整,且最終效果也不夠理想。

StyleDrop:Text-to-Image Generation in Any Style研究的核心結(jié)果,是一種通過文本到圖像模型實現(xiàn)忠實地遵循特定風格的圖像合成方法。StyleDrop 能夠捕捉用戶提供的風格的微妙細節(jié),如顏色方案、陰影、設計模式以及局部和全局效果。它通過微調(diào)極少量的可訓練參數(shù)(占總模型參數(shù)的少于百分之幾)并通過與人工或自動反饋的迭代訓練來提高質(zhì)量,高效地學習新的風格。即使用戶只提供了一張指定所需風格的單一圖像,StyleDrop 也能夠產(chǎn)生較好的結(jié)果。

海外獨角獸:VideoPoet 未來有什么產(chǎn)品方向的計劃?

Lu Jiang:VideoPoet 可能會選擇以某種產(chǎn)品的方式跟大家見面,比如 API 或者集成到 Google 的現(xiàn)在現(xiàn)有產(chǎn)品的生態(tài)圈。

海外獨角獸:視頻生成的 foundation model 存在我們在語言模型中看到的 scaling law 嗎?當架構(gòu)和技術(shù)路線確定后,競爭的關(guān)鍵是否就成了數(shù)據(jù)、模型的scale問題?

Lu Jiang:我們論文有一些關(guān)于 scalling 的內(nèi)容可以作為參考:

隨著模型規(guī)模的增長和訓練數(shù)據(jù)量的增加,性能會有所提升。Video Poet 訓練了具有 3 億、10 億和 80 億參數(shù)的語言模型,分別在包含 10 億、37 億和 58 億視覺和視聽 token 的數(shù)據(jù)集上進行訓練。增加模型規(guī)模提高了時間一致性、提示保真度和運動動態(tài)性,同時增加了有限文本渲染、空間理解和計數(shù)的能力。

通常來說,大公司相比創(chuàng)業(yè)公司,在數(shù)據(jù)方面限制更多。但與此同時,數(shù)據(jù)規(guī)模和模型規(guī)模應該匹配。小模型配大數(shù)據(jù)集可以工作,但大模型配小數(shù)據(jù)集一般不行。最理想的情況還是大模型配大數(shù)據(jù)集。

所以 stable diffusion 其實還沒有成功地 scale,可能它的數(shù)據(jù)已經(jīng)很多了,但如果能做到 scale 可能會發(fā)揮更多實力,相比起來,我們的觀察是 transformer scale 起來更容易,而且 transformer 有很多現(xiàn)成的學習配方(learning recipes)。

海外獨角獸:在 LLM 路線上,視頻生成要做到較高質(zhì)量,需要的 GPU 是什么量級?

Lu Jiang:目前視頻生成方案還不夠穩(wěn)定,仍需要繼續(xù)探索一個不同的模型,還不到某個質(zhì)量階段化,具體的需求就很難去講,現(xiàn)在這個階段過早地做模型的 scale 可能也不是最合適的,但 tokenize 之后的視頻其實是存儲友好的,因為它實際上和文本一樣都是 token,不過壓縮的長度更長,這可能是之后研究的一個核心。

03.

視頻領域的 GPT 時刻

海外獨角獸:你會如何定義視頻生成的 “ChatGPT 時刻”,什么時候會到來?

Lu Jiang:視頻生成的“ChatGPT 時刻”,我覺得大概是,哪怕模型生成的還是比較短的片段,比如 2-5s,但這個生成是可控的,人類也很難分辨是 AI 生成還是人類制作。從用戶角度,只需要幾美分的代價,就能獲得一個可以被送到好萊塢專業(yè) studio 的樣片。如果類比的話,可以類比到圖像領域 stable diffusion 1.x 或 2.x 版本,肯定還有再提升的空間,但已經(jīng)到了能使用的程度,而且能激發(fā)很多應用。

我的預測是,到 2024 年底或 2025 年初,我們可能會到這個時刻。并且我認為,實現(xiàn)這個時刻肯定也需要 diffusion 參與,并且 diffusion 在未來一段時間,比如 1 到 2 年內(nèi),可能仍然是主流,扮演很重要的角色。這里說的 diffusion 已經(jīng)包含了 transformer。

“ChatGPT 時刻”意味著模型到了一個相對穩(wěn)定的階段,但后面還會再改,只不過是在這個基礎上做小的改動,可能一開始版本只能做到逼近好萊塢,有一些缺點,但可以商業(yè)化運用了,但要達到真正穩(wěn)定需要更長時間。隨后還可能仍會迭代升級。

現(xiàn)在市場上所有的視頻生成都達不到這個標準,所以我認為視頻生成的方法可能還需要進一步迭代,有可能要達到“ChatGPT 時刻”需要新的模型和方法,它不一定是全新的模型或者架構(gòu),可能是現(xiàn)在市場上的某個技術(shù)路線或者方案再往前走一步。

海外獨角獸:視頻生成技術(shù)會和文生圖一樣 commoditize 嗎?如果選擇 LLM 的路線,是不是會更容易拉開差距?因為資源、能力、技術(shù)壁壘帶來的差距會更大?

Lu Jiang:我覺得可能會和 image 很像,但取決于幾點:

開源社區(qū)也有很好的 LLM 作為支持,如果想做也可以走這條路線,但重點還是要攻克 tokenizer 技術(shù),我相信會慢慢趕上。

視頻生成的主要競爭力可能在于數(shù)據(jù)上。因為視頻是版權(quán)保護最嚴格的,當前大部分視頻平臺要花很多價錢去購買版權(quán)或與視頻創(chuàng)作者去分享利潤。

未來總會有部分人實現(xiàn)更先進的技術(shù),并影響整個領域,可能會有一個提前量,幾個月或者一年,但總會有人追趕上來,我覺得可能最終關(guān)鍵不是看技術(shù),而是怎么把技術(shù)放到用戶的手里。Midjourney 就是一個典型,Midjourney 已經(jīng)做得很成功了,但是其實它可能不是一個很好的產(chǎn)品,因為其很容易被替代。所以更核心的是怎么把同一套技術(shù)更好地放到產(chǎn)品里。

Video 和 image 還有一個非常大的區(qū)別,視頻具有更廣泛的應用場景,用戶在視頻上花的時間要比圖像多非常非常多,所以視頻領域的 foundation model 可能有很大潛力衍生出新的商業(yè)模式,就像短視頻的模式對視頻的改變一樣,短視頻從技術(shù)上講是很小的改變,但創(chuàng)造了一個新的模式,所以視頻生成的潛力有可能會更大。

海外獨角獸:我們也經(jīng)常討論這個問題,視頻生成其實相當于把拍攝和后期的很多過程省掉了,能夠影響的產(chǎn)業(yè)很多。

Lu Jiang:降低視頻制作成本還只是視頻生成發(fā)展的起步階段,接下來的方向可能會是所謂的 “personalized movie”,模型根據(jù)每個人的背景、想法生成個性化的結(jié)果。

再比如現(xiàn)在大家看短視頻是隨著“下劃”,推薦算法會幫忙“找”出更符合用戶興趣的內(nèi)容,也許在生成技術(shù)足夠成熟的時候,隨著用戶劃動,系統(tǒng)會自動生成他們更想看的內(nèi)容,這是一種真正意義上的變革。

海外獨角獸:為什么最近半年視頻生成領域成為熱點、甚至有“井噴式的重復”的感覺?

Lu Jiang:一方面是因為這個領域逐漸成為關(guān)注熱點,越來越多研究力量涌入。另一方面也因為現(xiàn)在技術(shù)發(fā)展很快,但當前大家技術(shù)路線和方法差異不大,模型框架基本上都是基于 stable diffusion,主要就是數(shù)據(jù)和模型細節(jié)上的比拼,所以會出現(xiàn)大量“井噴”的工作,做的早的團隊有一定優(yōu)勢,但技術(shù)更替很快,也很容易被追上。如果技術(shù)上有長足的創(chuàng)新,可能就會一下子拉開差距。

海外獨角獸:能夠在技術(shù)上做到實質(zhì)性突破的團隊畫像是什么樣的?需要 Ilya 之于 OpenAI 這樣方向領袖型的人?還是團隊一起突破?

Lu Jiang:目前階段如果要實現(xiàn)一些突破性只靠一兩個人是不行的,但是也不需要很多人,可能核心人員 4-5 個左右、再加上一些支持性角色就可以實現(xiàn)。現(xiàn)在 diffusion 其實很大程度上都受益于 Jonathan Ho 等關(guān)鍵科學家的研究。

我非常欽佩早年推廣 diffusion 的學者,比如 Google 內(nèi)部的 Imagen 和 David J. Fleet 的團隊,他們 diffusion 這條一路走過來很艱難,他們從 16 年開始,當時大家都不看好,因為當時 diffusion 比 GAN 質(zhì)量差非常遠,又慢 1000 倍,但是他們就一直堅持做,直到真正把 diffusion 變成主流。我覺得有自己有信仰是科學家一個非常崇高的品質(zhì)。

技術(shù)并不成熟的時候,是需要由領袖人物來做出重要突破的,但現(xiàn)在不一樣的一點是資源分配很不公平,所以現(xiàn)在可能需要一個非常有能力的團隊,以及充足的計算資源和 support 來不斷創(chuàng)新。

另外,視頻生成相對特殊的一點是,需要大量的計算資源。從事機器學習的人大多數(shù)是專注于圖像領域,做 text 或 image,而視頻相對較少,因為視頻領域的計算力門檻相對較高。但是視頻有自己的一些邏輯和理論內(nèi)在的東西。如果在這視頻方面有經(jīng)驗,這些經(jīng)驗是可以大量遷移的,可能能用很少的計算資源找到一個好方向。如果計算資源有限,有經(jīng)驗的人能更合理地設計,把每件事都想到極致。

海外獨角獸:你在研究過程中有遇到什么困難嗎?

Lu Jiang:在2022年,我們在做 Magvit 的時候,當時 Google 有另外兩個重點項目,Phenaki 和 Imagen Video,我們的團隊規(guī)模非常小,能夠使用的 Google 計算資源也非常有限,可能和大學的 lab 一樣,差不多是其他項目的 1% 左右。當時,這些團隊都在做 text-to-video,我們?nèi)掏捶艞,并且最終決定開發(fā) video-to-video也就是Magvit。最終,在條件非常有限的情況下,我們從 benchmark 上是顯著高于 Phenaki 的,這個過程中我的壓力很大,我的家人也給了我很多支持。

我認為這就是因為我們自己的經(jīng)驗和方法,在設計過程能節(jié)省很多計算資源。我已經(jīng)在視頻領域工作了十多年,我們也有一套自己的方法論,比如怎么提升性能,我們在視頻處理上已經(jīng)掌握了大量 know-how,這些可以在不同的項目中遷移。

海外獨角獸:你在視頻領域做研究十多年,這種熱情源自于哪里?

Lu Jiang:主要還是科研上的熱愛,我對視頻的熱愛主要體現(xiàn)在我一直以來的科研工作上。我大部分時間都在處理視頻相關(guān)的問題。我研究的領域?qū)儆?multi-media 科學領域,是多模態(tài)科學領域。

我個人很喜歡看視頻(YouTube, B站等等),和解決視頻領域的問題,在這個領域也投入了很多時間。例如一些設計,我想能夠想出來,也只是因為我在這個領域的時間相對較長。

贊助本站

人工智能實驗室

相關(guān)熱詞: 專訪 VideoPoet 作者 LLM 帶來 真正 視覺

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港