展會信息港展會大全

奧特曼再放大招!OpenAI公布首個文生視頻模型Sora,質(zhì)量如何?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-02-16 15:43:14   瀏覽:4027次  

導讀:財聯(lián)社2月16日訊(編輯 唐葉天) 北京時間今日凌晨,全球人工智能模型領跑者OpenAI推出了一款能根據(jù)文字指令即時生成短視頻的模型,命名為Sora。此前在2023年轟轟烈烈的多模態(tài)AI模型競賽中,谷歌、Meta和初創(chuàng)公司Runway、Pika Labs都發(fā)布過類似的模型。但本...

財聯(lián)社2月16日訊(編輯 唐葉天)北京時間今日凌晨,全球人工智能模型領跑者OpenAI推出了一款能根據(jù)文字指令即時生成短視頻的模型,命名為Sora。此前在2023年轟轟烈烈的多模態(tài)AI模型競賽中,谷歌、Meta和初創(chuàng)公司Runway、Pika Labs都發(fā)布過類似的模型。但本次OpenAI展示的視頻仍然以高質(zhì)量獲得關注。目前OpenAI官網(wǎng)上Sora相關的信息有限,OpenAI沒有給出訓練模型的素材來源,僅表示:“我們正在教AI理解和模擬運動中的物理世界,目的是訓練模型,幫助人們解決需要真實世界交互的問題。”并稱Sora能夠從文本說明中生成長達60秒的視頻,并能夠提供具有多個角色,特定類型的動作和詳細的背景細節(jié)的場景。Sora還能在一個生成的視頻中創(chuàng)建多個鏡頭,體現(xiàn)人物和視覺風格。此外,Sora可以一次性生成整個視頻,也可以擴展生成的視頻,使其更長。OpenAI表示:通過讓模型一次生成多幀畫面,我們解決了一個具有挑戰(zhàn)性的問題,即:即使生成的主體暫時離開視線內(nèi),也能確保主體不變

OpenAI同時提示:當前的Sora模型也有弱點。它可能難以準確模擬復雜場景中的物理現(xiàn)象,也可能無法理解具體的因果關系。例如,一個人可能會咬一口餅干,但咬過之后,餅干上可能就沒有咬痕了。該模型還可能混淆提示的空間細節(jié),例如混淆左和右,并可能難以準確描述隨時間發(fā)生的事件,例如跟隨特定的攝像機軌跡。關于OpenAI的CEO山姆奧特曼一直呼吁的AI安全問題,OpenAI表示“目前,Sora已經(jīng)開放向‘紅隊人員’(對AI大模型潛在的有害輸出進行“紅隊測試”)以評估關鍵領域的危害或風險。我們還允許一些視覺藝術家、設計師和電影制作人訪問,以獲得關于如何改進模型的反饋意見,使其對創(chuàng)意專業(yè)人士最有幫助。”

Sora生成視頻效果如何?

OpenAI表示,Sora建立在過去對DALL-E和GPT模型的研究基礎之上。它采用了DALLE 3的技術,能夠在生成的視頻中更忠實地遵循用戶的文字說明。除了能夠文生視頻外,該模型還能根據(jù)現(xiàn)有的靜態(tài)圖像生成視頻,并能準確、細致地對圖像內(nèi)容進行動畫處理。該模型還能提取現(xiàn)有視頻,并對其進行擴展或填充缺失的幀。目前OpenAI官網(wǎng)上已經(jīng)更新了48個Sora生成的視頻demo,色彩艷麗,效果逼真。

來自OpenAI Sora的AI生成視頻圖像:猛犸象在雪地中行走

以上截圖的視頻文字提示如下:幾頭巨大的長毛猛犸象踏著雪地走來,它們長長的毛發(fā)隨風輕揚,遠處是白雪覆蓋的樹木和壯觀的雪山,午后的光線伴著飄渺的云朵和遠處高懸的太陽,營造出溫暖的光暈,低機位拍攝的景象令人驚嘆,捕捉到了大型毛茸茸的哺乳動物,攝影和景深都非常漂亮。動態(tài)的光影表現(xiàn)也有印象深刻的案例,如一位女性在東京路燈的霓虹燈下行走的視頻,以及阿馬爾菲海岸教堂的鳥瞰圖,以及一個卡通怪物好奇地跪在融化的蠟燭前等。

來自OpenAI Sora的AI生成視頻圖像:一位女性在東京路燈的霓虹燈下行走

以上截圖的視頻文字提示如下:一位時尚女性走在東京的街道上,街道上到處都是溫暖的霓虹燈和動畫城市標志。她身穿黑色皮夾克、紅色長裙和黑色靴子,手拿黑色錢包。她戴著太陽鏡,涂著紅色唇膏。她走起路來自信而隨意。街道潮濕而反光,與五顏六色的燈光形成鏡面效果。許多行人走來走去。

奧特曼在線接單

Sora公布后,OpenAICEO山姆-奧特曼請社交媒體用戶在線發(fā)送文字提示的創(chuàng)意內(nèi)容。如一位來自新罕布什爾州的自由攝影師在X上給出的提示:“由一位祖母級社交媒體博主進行的自制意式團子烹飪指導課,場景設置在鄉(xiāng)村風格的托斯卡納鄉(xiāng)下廚房,并配有電影級燈光。”Altman在約一小時后回復了一個逼真的視頻。

奧特曼此舉,對外展示了Sora模型即時生成視頻的能力。

東吳證券觀點此前表示,近年視覺算法在泛化性、可提示性、生成質(zhì)量和穩(wěn)定性等方面突破將推動技術拐點到來以及爆款應用出現(xiàn)。3D資產(chǎn)生成、視頻生成等領域受益于擴散算法成熟,但數(shù)據(jù)與算法難點多于圖像生成,考慮到LLM對AI各領域的加速作用以及已出現(xiàn)較好的開源模型,2024年行業(yè)或取得更大的發(fā)展。

2023年末至2024年初,Pika、HeyGen等AI文生視頻應用陸續(xù)出圈,驗證了多模態(tài)技術的不斷進步與成熟。剛剛公布的的Sora模型無疑加劇了這一賽道的激烈競爭。

(財聯(lián)社 唐葉天)

贊助本站

人工智能實驗室
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港