展會信息港展會大全

AI大模型引燃,視頻云二次爆發(fā)
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-10-19 10:20:18   瀏覽:2458次  

導讀:文|白 鴿 編|王一粟 2022年,受視頻直播等業(yè)務發(fā)展需求的影響,視頻云賽道成為各大廠集體押注的領域之一。 這一年,字節(jié)跳動、快手相繼發(fā)布了背后的視頻云技術(shù)能力。而同期與之相爭的,除了阿里云、騰訊云、華為云等云計算大廠外,還包括聲網(wǎng)、七牛云等音...

AI大模型引燃,視頻云二次爆發(fā)

文|白 鴿

編|王一粟

2022年,受視頻直播等業(yè)務發(fā)展需求的影響,視頻云賽道成為各大廠集體押注的領域之一。

這一年,字節(jié)跳動、快手相繼發(fā)布了背后的視頻云技術(shù)能力。而同期與之相爭的,除了阿里云、騰訊云、華為云等云計算大廠外,還包括聲網(wǎng)、七牛云等音視頻領域的垂直玩家。

但在此之后,視頻云賽道并未如預期中實現(xiàn)持續(xù)的爆發(fā)增長。

2023年4月24日,IDC發(fā)布《中國視頻云市場跟蹤,2022下半年》報告顯示:2022 下半年中國視頻云市場規(guī)模達到 49.8 億美元(343.3 億人民幣),與2021年同期維持在同一水平。

2023年全年,中國視頻云基礎設施市場規(guī)模為75.1億美元,同比下滑5.2%,市場承壓明顯。

直到今年上半年,中國視頻云市場開始止跌回升。

10月,IDC發(fā)布《中國視頻云市場跟蹤,2024上半年》報告顯示,2024上半年中國視頻云市場規(guī)模達到近48.1億美元,同比增長3.9%。

IDC表示,2024年,主要音視頻平臺終端用戶DAU,及平均播放時長止跌企穩(wěn)、直播帶貨以及部分場景需求持續(xù)增長、出海服務范圍不斷拓展,均為視頻云市場回暖奠定基矗

這背后影響原因在于,生成式AI、多模態(tài)大模型與視頻云的產(chǎn)品融合實現(xiàn)了超預期進展。同時,隨著《黑神話:悟空》的爆火,全景直播、三維重建的成熟,視頻的交互與消費鏈路也被重構(gòu)。

AI大模型引燃,視頻云二次爆發(fā)

“生成式AI、多模態(tài)大模型、全景直播、三維重建等技術(shù),將我們從流暢、實時、高清的數(shù)字世界帶入更智能、更交互、更沉浸的AI世界。”火山引擎總裁譚待在近期舉辦的視頻云技術(shù)大會上如此說道。

無疑,受AI大模型的爆發(fā),拉動了視頻云業(yè)務的二次增長。但在智能化視頻時代,如何打造一個更高效、低成本以及更加廣泛應用的技術(shù)底座,也成為擺在行業(yè)中的難題。

顛覆底層能力,AI加碼視頻云AI,正在改變?nèi)藗兊纳罘绞,尤其是GPT-4o發(fā)布之后,多模態(tài)大模型的應用和落地。

在視頻內(nèi)容生產(chǎn)上,Sora的發(fā)布引發(fā)全球視頻大模型熱潮,僅在國內(nèi),就先后出現(xiàn)了字節(jié)系即夢、快手系可靈,創(chuàng)業(yè)公司系Pika、智譜清影、生數(shù)科技Vidu等一眾明星產(chǎn)品。

這些平臺的出現(xiàn),不僅能夠大幅縮短UGC、PUGC音視頻創(chuàng)作時間,甚至是重塑生產(chǎn)流程,極大降低用戶生產(chǎn)門檻,讓“人人都是導演”成為現(xiàn)實,內(nèi)容生產(chǎn)數(shù)量也將呈現(xiàn)幾何性增長。

在語音方面,隨著端到端語音能力的升級迭代,也讓人機語音交互體驗更流暢,AI情感陪伴賽道日漸火熱。

不管是AI視頻生成,還是端到端語音,多模態(tài)大模型的發(fā)展,給音視頻的智能化升級帶來了無限可能。同時,功能升級也正在成為音視頻云服務市場的重要增量。

比如,直播帶貨已經(jīng)成為電商平臺和頭部商家的標配,也是眾多中小商家的首眩而為了有更好的賣貨體驗,超低時延直播已經(jīng)成為直播電商平臺的必選產(chǎn)品,而集合上述技術(shù)的數(shù)字人直播帶貨,也成為很多商家的標配。

AI大模型引燃,視頻云二次爆發(fā)

不過,AI大模型也在倒逼著視頻云升級。

“這場變革主要體現(xiàn)在算力層、編解碼層以及框架層三個關(guān)鍵層面。”抖音集團視頻架構(gòu)負責人王悅稱。

具體來說,在算力層,生成式AI技術(shù)正在大幅降低視頻生成的門檻,導致視頻數(shù)據(jù)以驚人的20倍速增長。但同樣也對算力提出了更高的需求,以Sora模型為例,其訓練和推理所需的算力需求分別達到了 GPT 4.0 的4.5倍和近400倍,凸顯了算力層變革的重要性和緊迫性。

與此同時,隨著視頻生成大模型的興起,訓練大模型的處理框架也面臨的諸多挑戰(zhàn),包括成本、質(zhì)量以及性能等諸多方面。

畢竟,超大規(guī)模視頻訓練數(shù)據(jù)集會導致計算和處理成本激增,視頻樣本數(shù)據(jù)質(zhì)量參差不齊,數(shù)據(jù)樣本有待分類、分段和清洗,處理鏈路會涉及到多個環(huán)節(jié),工程復雜,需要多團隊的協(xié)同,而自研第三方CPU\GPU及多種機構(gòu)算力資源,也需要靈活的調(diào)度和部署。

相應地,對于視頻云來說,框架層面不僅要能夠處理大模型的高效運行,還要能夠滿足日益復雜的音視頻處理的需求,以應對生成式AI時代所帶來的挑戰(zhàn)。

在編解碼層面,作為視頻處理的核心技術(shù),編解碼技術(shù)的智能化升級正在推動著與智能技術(shù)的深度融合,這種融合不僅提升了編解碼效率,更為用戶帶來更加優(yōu)質(zhì)的視頻體驗。

盡管挑戰(zhàn)重重,但也伴隨著更大的發(fā)展機遇。王悅分享了一組來自市場調(diào)研機構(gòu)的數(shù)據(jù):

視頻是云業(yè)務中增長最快的工作負載之一;到2026年,視頻在數(shù)據(jù)中心基礎設施中的占比將從10%增長到20%~25%;到2024~2030年,市場規(guī)模預計將達千億美元。

這也就意味著,視頻云業(yè)務的市場增長空間還很大。不過,從算力、到編碼,再到框架,音視頻領域各層級的技術(shù)體系和架構(gòu),都需要適應AI時代所帶來的變革發(fā)展。

背靠抖音,火山引擎能否彎道超車在視頻云市場中,主要存在著三類玩家:

一類是云廠商,以阿里云、騰訊云、華為云、百度智能云等為主的玩家,其中阿里云和騰訊云長期占據(jù)視頻云領域云基礎設施和解決方案市場的首位。

一類是抖音和快手兩大視頻平臺,不過抖音背后的火山引擎,也屬于云服務商,但其視頻云業(yè)務實質(zhì)是脫胎于視頻生產(chǎn)平臺。

一類是實時音視頻行業(yè)垂直廠商聲網(wǎng)、七牛云等。

上述幾家廠商,主導了視頻云賽道的市常

IDC數(shù)據(jù)顯示,2024上半年,視頻內(nèi)容分發(fā)網(wǎng)絡服務(點播帶寬)市場中,阿里云、騰訊云、華為云、中國電信、火山引擎、網(wǎng)心科技合計市場份額環(huán)比提升,本期達到63.4%。

視頻直播云服務市場中,騰訊云、華為云、阿里云、火山引擎、金山云合計市場份額環(huán)比提升,本期達到66.1%。音視頻通信云服務(RTC/RTE)市場中,聲網(wǎng)、騰訊云、即構(gòu)科技、火山引擎、阿里云合計市場份額環(huán)比持平,為78.3%。

其中,騰訊云音視頻的解決方案市場份額連續(xù)8次蟬聯(lián)榜首,在視頻直播云服務市嘗視頻生產(chǎn)與媒資管理領域,市場份額也均排名第一。

AI大模型引燃,視頻云二次爆發(fā)

火山引擎作為后來者,生生的在競爭激烈且穩(wěn)固的視頻云賽道中,撕開了一條口子。2024上半年,火山引擎在中國視頻內(nèi)容分發(fā)網(wǎng)絡服務市場中,占了5.1%的市場份額。

但也不難看出,火山引擎的視頻云業(yè)務在國內(nèi)市場的競爭壓力還是不校

相比于云廠商和聲網(wǎng)、七牛云等,火山引擎視頻云業(yè)務能借力的,顯然就是抖音這顆大樹。

基于抖音生態(tài)場景實踐所推出的技術(shù)能力體系以及各類型解決方案,也將會成為火山引擎視頻云業(yè)務的“殺手锏”。

比如,王悅透露了字節(jié)自研視頻編解碼芯片的最新進展,經(jīng)過抖音內(nèi)部的實踐驗證,該芯片在同等視頻壓縮效率下,成本節(jié)省了95%以上,還在2024MSU世界編碼器大賽中一舉奪得最佳ASIC編碼器。

編碼對于視頻業(yè)務的發(fā)展至關(guān)重要。

畢竟視頻云是一個算力密集型行業(yè),視頻信息量很大,假如采用和文本、圖片一樣的壓縮模式,那么還原度是不夠的,所以視頻必須進行編碼處理。編碼要是做不好,不僅會損失視頻質(zhì)量,還會帶來傳輸難度高的問題。

與此同時,從視頻的生產(chǎn)端、交互端到消費端,火山引擎的跨語言同聲復刻直播方案、多模態(tài)視頻理解與生成方案、對話式AI實時交互方案和AIG3D&大場景重建方案也全鏈路融入AI能力,以適配AIGC時代對視頻云業(yè)務的需求。

在生產(chǎn)端,今年9月份,字節(jié)跳動正式發(fā)布了豆包視頻生成模型PixelDance。

AI大模型引燃,視頻云二次爆發(fā)

抖音集團視頻架構(gòu)負責人 王悅

為了降低用戶使用豆包視頻生成模型的成本,借助Intel的CPU、GPU等不同資源,火山引擎發(fā)布了大模型訓練視頻預處理方案,其依托于自研的多媒體處理框架BMF,能有效應對模型訓練的算力成本挑戰(zhàn)。

據(jù)Bytedance Research 負責人李航介紹,豆包視頻生成模型PixelDance在訓練過程中采用了火山引擎的大模型訓練視頻預處理方案,充分利用了大量潮汐資源,為模型訓練提供了有力支撐。

火山引擎視頻云團隊提供的點播解決方案還為PixelDance生產(chǎn)的視頻提供了從編輯、上傳、轉(zhuǎn)碼、分發(fā)、播放的全生命周期一站式服務,讓模型的商業(yè)化應用有了保障。

AI大模型引燃,視頻云二次爆發(fā)

值得一提的是,火山引擎還發(fā)布并開源了移動端后處理解決方案BMF lite版本。BMF lite支持端側(cè)大模型接入和算子加速,更加輕量、通用。

在通用性上,BMF-lite則提供了多平臺統(tǒng)一的接口形式,讓所有開發(fā)者都能輕松使用BMF-lite。而隨著視頻處理越來越從云上向端側(cè)遷移,BMF-lite還新增了對端側(cè)大模型的接入支持,為AI技術(shù)的融合提供了強大的支持。

“當前BMF-lite已經(jīng)廣泛地應用在了抖音的各個業(yè)務上,每天服務于上億用戶,處理視頻圖片萬億次。”王悅?cè)绱苏f道。

在交互端,火山引擎視頻云負責人Yongyuan 指出,在AI視頻時代,人和AI交互變得更加動態(tài)和生動,這要求處理鏈路更加智能和交互。

以對話式AI實時交互方案為例,依托豆包大模型和火山引擎視頻云自研的多項算法,火山引擎為用戶提供了智能對話和自然語言處理的強大能力,可實現(xiàn)毫秒級人聲檢測和打斷響應,以及絲滑穩(wěn)定的端到端響應體驗。

在消費端,尤其是沉浸式消費體驗方面,以蘋果Vision Pro為代表,開啟了空間計算的新時代。

在此之后,今年7月,抖音VR直播上線,9月《黑神話:悟空》以其極具震撼力的視頻畫面質(zhì)感、跌宕起伏的劇情架構(gòu)和深厚的文化底蘊,迅速吸引全球玩家。

3D、虛實融合與VR技術(shù),將成為消費端變革的主力軍,架起數(shù)字世界與物理世界之間的橋梁。

而火山引擎通過AI生成3D內(nèi)容和大場景重建方案,為山西高平二郎廟金代戲臺和北京正乙祠兩座珍貴的歷史建筑生成了3D數(shù)字資產(chǎn),并以虛擬直播間的形式應用于抖音的戲曲直播場景。

可以看到,火山引擎的視頻云業(yè)務,雖是行業(yè)中的后起之秀,但伴隨著自身抖音業(yè)務的發(fā)展和切實的場景需求,視頻云業(yè)務也在逐步上漲。

然而,長期以來,視頻云賽道也盤踞著各大巨頭,火山引擎想要彎道超車并不容易,而向海外尋求新的市場增量,則或許成為新的機會。

國內(nèi)競爭白熱化,出海尋求新增量雖然AI大模型時代的到來,重新開啟云計算市場的新增長,但國內(nèi)卻已然開啟了“內(nèi)卷” 模式。

今年2月份,阿里云率先開啟價格戰(zhàn)模式,宣布進行史上最大力度的一次降價,涉及100多款產(chǎn)品、500多個產(chǎn)品規(guī)格,覆蓋計算、存儲、數(shù)據(jù)庫等所有核心產(chǎn)品,降幅從9%到55%不等。

這是阿里云明確"AI驅(qū)動,公共云優(yōu)先”戰(zhàn)略3個月之后的首個大動作,也是自去年11月阿里云進行新一輪組織架構(gòu)調(diào)整,成立公共云業(yè)務事業(yè)部后舉行的首次重磅發(fā)布會。

而在此之后,京東云、百度智能云以及騰訊云等紛紛跟進,在各大營銷節(jié)點中,華為云也推出了各種低價促銷活動。

大模型端,則是在今年5月,由字節(jié)豆包大模型率先發(fā)起降價攻勢,宣布主流大模型在企業(yè)市場的定價為0.0008元/千Tokens,0.8厘就能處理1500多個漢字,比行業(yè)便宜99.3%。

此后,包括阿里云等在內(nèi)的云廠商、智譜AI等在內(nèi)的大模型公司,都開始紛紛降低大模型價格。

視頻云業(yè)務雖然是云計算領域中的細分市場,但卻難以避免受到這波“內(nèi)卷”的影響。

更何況,騰訊云、阿里云等頭部玩家,基本上已經(jīng)搶占了國內(nèi)大部分視頻云市場份額,留給火山引擎的“肉”和“湯”,并不多。

也正因此,近年來火山引擎的視頻云業(yè)務,也正加速走向海外市場,尋求更多的新的市場增量。

目前,火山引擎的出海業(yè)務主要聚焦在4大領域,包括互娛社交出海、短劇及內(nèi)容出海、游戲出海以及電商出海。

其中,在直播電商這塊,則主要依托于海外的抖音平臺Tiktok,“因為有利潤可以賺,海外市場的價格比較貴,而且向東南亞或歐洲市場做的直播電商,也是復制了中國的經(jīng)驗,所以我們才布局這些市場的直播電商業(yè)務。”火山引擎電商產(chǎn)品相關(guān)負責人對光錐智能說道。

據(jù)火山引擎視頻云國際業(yè)務負責人梁建介紹,火山引擎也會在海外版的方案中支持接入海外主流AI大模型服務,并通過整合這些先進大模型的技術(shù)和交互體驗,來深度優(yōu)化出海應用,使其能夠具備低時延、多模態(tài)的AI實時交互能力。

近年來,中國企業(yè)正在加速出海,尤其是在中國市場日益內(nèi)卷的情況,走向海外成為必然趨勢。與此同時,隨著大模型能力的不斷提升,國產(chǎn)AI應用也正在加速走向海外。

火山引擎作為國內(nèi)云計算賽道中的后來者,一直處于行業(yè)追趕者的地位,而借助抖音自身生態(tài)體系的力量,以及向海外尋求新的增量,或許能夠讓火山引擎在視頻云賽道中實現(xiàn)彎道超車。

贊助本站

相關(guān)熱詞: 大模型 引燃 視頻 二次 爆發(fā)

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港