展會信息港展會大全

新V觀海外:OpenAI Sora模型背后的架構(gòu)創(chuàng)新
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-02-18 13:27:05   瀏覽:5152次  

導(dǎo)讀:陳沛/文 OpenAI最近介紹了新的AI視頻模型Sora的部分生成視頻示例,引發(fā)了很多關(guān)注。Sora模型直觀上帶來的最大提升是能夠直接生成長達(dá)60秒的視頻,且在視頻質(zhì)感和流暢度方面表現(xiàn)的非常出色。 由于OpenAI的明星效應(yīng),Sora模型一經(jīng)推出便引發(fā)很多用戶競相轉(zhuǎn)發(fā),...

陳沛/文OpenAI最近介紹了新的AI視頻模型Sora的部分生成視頻示例,引發(fā)了很多關(guān)注。Sora模型直觀上帶來的最大提升是能夠直接生成長達(dá)60秒的視頻,且在視頻質(zhì)感和流暢度方面表現(xiàn)的非常出色。

由于OpenAI的明星效應(yīng),Sora模型一經(jīng)推出便引發(fā)很多用戶競相轉(zhuǎn)發(fā),表示視頻效果驚為天人,視頻制作的相關(guān)工作都會被取代。

Sora模型的實(shí)際生成效果仍是未知數(shù)

但從我實(shí)際使用和觀察RunwayML、Stable Video Diffusion(SVD)、Adobe Firefly等主流AI視頻服務(wù)的情況來看,目前AI生成視頻的質(zhì)感往往達(dá)不到最初宣傳的效果,還會在物體行進(jìn)方向、人物四肢等方面出現(xiàn)明顯錯(cuò)誤,無法滿足實(shí)際應(yīng)用的需求。

而Sora模型目前還處于測試階段,預(yù)計(jì)再經(jīng)過一段時(shí)間的安全測試和用戶反饋后才會正式提供服務(wù),因此還無法了解Sora模型的實(shí)際效果。

不過,OpenAI也沒有刻意回避Sora模型生成錯(cuò)誤內(nèi)容的情況。在OpenAI發(fā)布的技術(shù)報(bào)告中有一段Sora模型生成的錯(cuò)誤視頻,展示了桌上的水杯會先從底部流出果汁,然后沿著錯(cuò)誤的方向和角度倒在桌上。

Sora模型的背后是2022年剛剛面世的新架構(gòu)

Sora模型的最大突破是視頻時(shí)長。與之前的RunwayML、SVD只能生成4秒左右的視頻片段相比,Sora模型生成的60秒視頻實(shí)現(xiàn)了明顯提升。

Sora模型實(shí)現(xiàn)視頻時(shí)長突破的主要功臣是它所采用的Diffusion Transformer架構(gòu)。該架構(gòu)由Sora模型的主要作者Bill Peebles在2022年剛剛提出,才在ICCV 2023大會上做過介紹。

按照Bill Peebles在論文中的說法,他將Transformer結(jié)構(gòu)替代了Diffusion模型中常用的U-Net結(jié)構(gòu),并將圖像輸入轉(zhuǎn)化成了Patch(類似語言模型中輸入的Token),得到了新的Diffusion Transformers架構(gòu),提升了原來Diffusion模型在深度和寬度上的可擴(kuò)展性,為視頻模型增加輸出時(shí)長奠定了基矗

實(shí)際上,不僅Sora模型背后的Diffusion Transformer架構(gòu)才面世不久,就連Sora技術(shù)報(bào)告后引用的32篇研究論文中,絕大多數(shù)也都是近3年新發(fā)布的研究結(jié)果。

研究驅(qū)動(dòng)和融資驅(qū)動(dòng)已成為AI發(fā)展的關(guān)鍵要素

回首2017年Transformer研究論文面世后,2019年就出現(xiàn)了首個(gè)GPT模型的發(fā)展成果。而近兩年剛剛提出Diffusion Transformer的研究論文,很快就轉(zhuǎn)化成了Sora模型這樣的突破性產(chǎn)品。

如今AI領(lǐng)域的重要變化,往往不是來自于某個(gè)功能或應(yīng)用層面,而是發(fā)源于底層架構(gòu)的研究創(chuàng)新。研究驅(qū)動(dòng)正在AI發(fā)展中起到越來越關(guān)鍵的作用。

另一方面,有了Diffusion Transformer這樣的研究創(chuàng)新后,往往也是在OpenAI這樣資源雄厚的機(jī)構(gòu)中才能做的出來。

在開發(fā)階段,把Diffusion Transformer的研究落地成Sora的產(chǎn)品需要投入大量的預(yù)訓(xùn)練、數(shù)據(jù)、工程資源。而在Sora服務(wù)正式推出后,運(yùn)營推理過程中的資源消耗和算力成本也不可小視,融資驅(qū)動(dòng)也正在成為AI發(fā)展的必要條件。

從Sora模型這個(gè)例子也能看出,要深度理解AI領(lǐng)域的關(guān)鍵動(dòng)向,如今必須要從研究層面和融資層面進(jìn)行觀察和跟蹤,從而更好地洞察AI發(fā)展的未來走勢。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港