劃重點
01火山引擎發(fā)布大模型訓練視頻預處理方案,助力解決視頻大模型訓練的成本、質(zhì)量、性能等方面的技術(shù)挑戰(zhàn)。
02該技術(shù)方案已應(yīng)用于豆包視頻生成模型,實現(xiàn)了大規(guī)模擴散生成模型、高壓縮比&高還原性視頻編碼解碼模型等核心技術(shù)。
03除此之外,火山引擎還推出跨語言同聲復刻直播方案、多模態(tài)視頻理解與生成方案、對話式AI實時交互方案和AIG3D&大場景重建方案等,從視頻的生產(chǎn)端、交互端到消費端,全鏈路融入AI能力。
04火山引擎自研視頻編解碼芯片在抖音集團內(nèi)部實踐驗證中實現(xiàn)了效率顯著提升和成本大幅降低,將于近期正式對外開放測試。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影
智東西10月15日報道,今日,火山引擎在視頻云技術(shù)大會上發(fā)布大模型訓練視頻預處理方案,助力解決視頻大模型訓練的成本、質(zhì)量、性能等方面的技術(shù)挑戰(zhàn)。該技術(shù)方案現(xiàn)已應(yīng)用于豆包視頻生成模型。
火山引擎還發(fā)布并開源了移動端后處理解決方案BMF lite版本。BMF lite支持端側(cè)大模型接入和算子加速,更加輕量、通用。
同時,火山引擎推出跨語言同聲復刻直播方案、多模態(tài)視頻理解與生成方案、對話式AI實時交互方案和AIG3D&大場景重建方案,從視頻的生產(chǎn)端、交互端到消費端,全鏈路融入AI能力。
去年推出的字節(jié)自研視頻編解碼芯片,經(jīng)過抖音集團內(nèi)部的實踐驗證,在同等視頻壓縮效率下,成本節(jié)省了95%以上,還在2024MSU世界編碼器大賽中一舉奪得最佳ASIC編碼器。該芯片將于近期正式對外開放測試,招募首批種子用戶,共同探索商業(yè)價值的可復制性。
火山引擎也與出海先鋒攜手,從趨勢、技術(shù)、玩法等角度共同探索出海新增長機遇;鹕揭嬉曨l云國際業(yè)務(wù)負責人梁建在會上發(fā)布了出海全景圖。
火山引擎總裁譚待在致辭時談道,洶涌而來的技術(shù)浪潮帶來前所未有的挑戰(zhàn):1)生成式AI帶動視頻數(shù)據(jù)指數(shù)級增長,對計算效能提出嚴峻考驗;2)多模態(tài)媒體處理需求日益凸顯,對音視頻處理的生產(chǎn)端、交互端、消費端提出了全新要求;3)如何讓技術(shù)應(yīng)用真正落地并帶來世紀業(yè)務(wù)價值,是當前必須面對的問題。
應(yīng)對這些挑戰(zhàn),火山引擎視頻云基于抖音真實業(yè)務(wù)實踐和與行業(yè)客戶共創(chuàng),正積極探索大模型AI與視頻技術(shù)的深度融合;在技術(shù)底座層面,依托自研的算力編解碼技術(shù)和多媒體處理框架,致力于優(yōu)化成本并提升計算效率;在處理鏈路層面,結(jié)合大模型和AI技術(shù),全面優(yōu)化了生產(chǎn)交互和消費鏈路,以打造更智能、更交互、更沉浸的用戶體驗;在業(yè)務(wù)增長層面,與抖音平臺生態(tài)緊密聯(lián)動,構(gòu)建從內(nèi)容分發(fā)到變現(xiàn)的全鏈條業(yè)務(wù)增長模式。
一、應(yīng)對AI視頻時代技術(shù)挑戰(zhàn):自研芯片對外開測,BML視頻處理框架上新
抖音集團視頻架構(gòu)負責人王悅分享了一組來自市場調(diào)研機構(gòu)的數(shù)據(jù):視頻是云業(yè)務(wù)中增長最快的工作負載之一;到2026年,視頻在數(shù)據(jù)中心基礎(chǔ)設(shè)施中的占比將從10%增長到20%~25%;到2024~2030年,市場規(guī)模預計將達千億美元。
他談道,AI視頻時代面臨三重挑戰(zhàn):一是計算效能,生成式AI技術(shù)大幅降低視頻生成的門檻,導致視頻數(shù)據(jù)以驚人的20倍速增長;二是編解碼極限,編解碼技術(shù)的智能化升級正推動與AI/大模型技術(shù)的深度融合,不僅提升了編解碼效率,而且為用戶帶來了更加優(yōu)質(zhì)的視頻體驗;三是框架瓶頸,需要構(gòu)建更強大、更靈活的多媒體處理框架,滿足日多模態(tài)/跨模態(tài)預訓練處理需求。
王悅宣布,火山引擎去年推出的自研視頻編解碼芯片取得顯著進展,在抖音集團內(nèi)部實踐驗證中實現(xiàn)了效率的顯著提升和成本的大幅降低,在同等視頻壓縮效率下,成本節(jié)省了95%以上;鹕揭嬉矊⑹状握綄ν忾_放測試,招募首批種子用戶,共同探索商業(yè)價值的可復制性。該芯片的BVE1.2編碼器,在2024MSU世界編碼器大賽中首次亮相就以其優(yōu)異的編解碼性能和吞吐率的大幅領(lǐng)先,奪得最佳ASIC編碼器。
在智能編解碼的算法層,火山引擎的圖像視頻壓縮技術(shù)也取得了突破性進展,其自研編解碼技術(shù)BVC升級到更高效的第二代,并融合了深度學習技術(shù),推出了傳統(tǒng)-智能混合編解碼解決方案。
該方案在充分理解傳統(tǒng)編碼技術(shù)和深度學習壓縮技術(shù)各自原理的基礎(chǔ)上,將二者有機的融合成一體。傳統(tǒng)編碼框架加入了非對稱四叉樹劃分等創(chuàng)新技術(shù),智能編碼模塊則引入了基于深度學習的環(huán)路濾波、自適應(yīng)變采樣等技術(shù)。這種結(jié)合極大提升了編解碼的效率,該方案在第六屆深度學習圖像壓縮挑戰(zhàn)賽的高碼率和低馬力兩個壓縮賽道上均取得了主觀和客觀的雙料指標冠軍。
在框架層面,火山引擎自研視頻處理框架BMF自去年開源以來,在助力AI初創(chuàng)項目落地和移動端開源層面不斷演進,今日進一步發(fā)布并開源移動端后處理解決方案BMF lite版本。
BMF lite具有更輕量、更通用、更高效、更前沿等特點,比如它沒有第三方依賴,具有輕量化的結(jié)構(gòu)設(shè)計、多平臺統(tǒng)一的接口形式、Kernel融合方案等,支持端側(cè)大模型接入和算子加速、算法間復用資源。
目前BMF lite已廣泛應(yīng)用于抖音各業(yè)務(wù)上,每天服務(wù)超10億名用戶,處理視頻圖片萬億次。
由于端側(cè)對功耗和內(nèi)存非常敏感,火山引擎重點建設(shè)基于跨平臺資源復用的算法包框架設(shè)計,整體對外將采用跨平臺的數(shù)據(jù)結(jié)構(gòu)設(shè)計,適配安卓、iOS、Web、PC等平臺,復用相同的算法實例,不同算法可復用算子及數(shù)據(jù)資源。這個方案針對點播和直播后處理的場景收益明顯。
在模塊算法層面,火山引擎此次開源對外輸出了超分、降噪、大模型文生圖算法能力,選取的模型是開源的,將在一些抖音實際落地的工程優(yōu)化方案應(yīng)用到模型加速中;鹕揭嬉餐介_源了基于GPU加速的7種常用基礎(chǔ)圖像算子能力,并充分擴充了客戶端的一些異構(gòu)能力,包括DSP、NPU、端側(cè)GPU。
二、依托BMF框架,視頻生成大模型已上線火山引擎
對訓練視頻進行預處理是保障大模型訓練效果的重要前提。預處理過程可統(tǒng)一視頻的數(shù)據(jù)格式、提高數(shù)據(jù)質(zhì)量、實現(xiàn)數(shù)據(jù)標準化、減少數(shù)據(jù)量以及處理標注信息,從而使模型能更高效地學習視頻中的特征和知識,提升訓練效果和效率。
隨著視頻生成模型興起,訓練大模型的處理框架面臨諸多挑戰(zhàn):首先是成本挑戰(zhàn),超大規(guī)模視頻訓練數(shù)據(jù)集導致計算和處理成本激增;其次是質(zhì)量挑戰(zhàn),視頻樣本數(shù)據(jù)質(zhì)量參差不齊,處理鏈路環(huán)節(jié)多、工程復雜,數(shù)據(jù)樣本待分類、分段和清洗;三是性能挑戰(zhàn),涉及多種異構(gòu)算力資源的調(diào)度和部署。
借助英特爾CPU等資源,火山引擎大模型訓練視頻預處理方案依托于自研多媒體處理框架BMF,能有效應(yīng)對模型訓練的算力成本挑戰(zhàn)。該方案還在算法和工程方面進行了調(diào)優(yōu),可以對海量視頻數(shù)據(jù)高質(zhì)量預處理,短時間內(nèi)實現(xiàn)處理鏈路的高效協(xié)同,提高模型訓練效率。
BMF通過和豆包大模型團隊合作,對海量視頻數(shù)據(jù)進行了預處理;诨鹕揭嬉曨l處理平臺和BMF框架,火山引擎短時間內(nèi)生產(chǎn)了足夠多高質(zhì)量的視頻素材用于模型訓練,也有力支撐了視頻生成大模型的上線與調(diào)優(yōu)。
火山BMF大模型訓練視頻預處理方案應(yīng)對成本挑戰(zhàn),使用了海量的潮汐資源和精細化混部調(diào)度;應(yīng)對質(zhì)量及性能挑戰(zhàn),使用30+種算子對視頻進行了多維度分析和篩選,利用DMF框架靈活調(diào)度將復雜的算子處理流程靈活部署在多種資源上,實現(xiàn)了快速的性能調(diào)優(yōu);應(yīng)對協(xié)同挑戰(zhàn),利用BMF動態(tài)模塊特性,實現(xiàn)插件化解耦、多語言開發(fā),相比傳統(tǒng)框架將迭代效率提升了數(shù)倍。
英特爾大數(shù)據(jù)高級首席工程師程從超分享說,大模型和生成式AI時代面臨高算力、高質(zhì)量數(shù)據(jù)集、改善描述復雜性、構(gòu)建開源生態(tài)等方面的挑戰(zhàn)。視頻轉(zhuǎn)碼性能對CPU的計算能力敏感,CPU的頻率、核數(shù)和cache的大小都很重要。通常視頻處理的節(jié)點都是數(shù)據(jù)中心里性能較為高端的服務(wù)器。
英特爾能夠為不同的視頻處理選擇最合適的平臺,比如一機多卡高密度GPU可滿足編解碼密度和成本需求,CPU和GPU方案的靈活配置能夠根據(jù)具體應(yīng)用來分配資源,至強CPU可實現(xiàn)視頻質(zhì)量最優(yōu)、編碼靈活、穩(wěn)定可靠。
三、多項“音視頻+AI”技術(shù)方案,助力企業(yè)全鏈路適配AIGC
火山引擎視頻云團隊為字節(jié)跳動提供音視頻技術(shù),并通過火山引擎服務(wù)外部客戶。
Bytedance Research負責人李航談道,豆包視頻生成模型PixelDance在訓練過程中采用了火山引擎大模型訓練視頻預處理方案,充分利用了大量潮汐資源,為模型訓練提供了有力支撐。
火山引擎視頻云團隊提供的點播解決方案還為PixelDance生產(chǎn)的視頻提供了從編輯、上傳、轉(zhuǎn)碼、分發(fā)、播放的全生命周期一站式服務(wù),讓模型的商業(yè)化應(yīng)用有了保障。
豆包視頻生成模型PixelDance于9月24日發(fā)布,該模型采用DiT架構(gòu),通過高效的DiT融合計算單元和全新設(shè)計的擴散模型訓練方法,突破了多主體運動的復雜交互、多鏡頭切換的內(nèi)容一致性難題。目前,豆包視頻生成模型已通過火山引擎面向企業(yè)開啟邀測。
PixelDance1.4新版本有四大特點:1、能生成人物的復雜連續(xù)動作;2、能生成復雜的多主體交互;3、能一次性生成多鏡頭視頻;4、擁有超強的運鏡控制能力。
其核心技術(shù)包括大規(guī)模擴散生成模型、高壓縮比&高還原性視頻編碼解碼模型、精準視頻描述模型、大規(guī)模公開視頻數(shù)據(jù)處理管線等。
火山引擎視頻云負責人Yongyuan談道,在AI視頻時代,人和AI交互變得更加動態(tài)和生動,這要求處理鏈路更加智能和交互。
會上,火山引擎發(fā)布了跨語言同聲復刻直播方案、多模態(tài)視頻理解與生成方案、對話式AI實時交互方案和AIG3D&大場景重建方案,從視頻的生產(chǎn)端、交互端到消費端,全鏈路融入AI能力。
在生產(chǎn)端,跨語言同聲復刻直播方案能夠優(yōu)化同傳直播,實現(xiàn)更加精準的字幕識別、更快輸出并帶有自然斷句,還通過虛擬人技術(shù)調(diào)整口型,支持6國以上的語言輸出;多模態(tài)視頻理解與生成方案能夠應(yīng)用于短劇、賽事、教育等場景;多模態(tài)電商素材生成方案可生成圖文、解說、AIGC視頻和3D模型。
在交互端,依托豆包大模型和火山引擎視頻云自研的多項算法,對話式AI實時交互方案使得人與AI的交互更加自然,提供了智能對話和自然語言處理的強大能力、媲美真人的自然生動音色,也支持聲音復刻,可實現(xiàn)毫秒級人聲檢測和打斷響應(yīng),能過濾90%噪聲,精準識別打斷意圖,并通過流式處理將端到端響應(yīng)延時降低至1秒。
在消費端,AIG3D方案使3D構(gòu)建更便捷;大場景重建方案具有高效渲染速度,支持二次創(chuàng)作,可低成本生成直播布景,使場景重建更真實;6DoF直播方案提供實時3D模型渲染、低延時6DoF并能降低采集成本,讓空間體驗更沉浸。
例如,火山引擎通過AI生成3D內(nèi)容和大場景重建方案,為山西高平二郎廟金代戲臺和北京正乙祠兩座珍貴的歷史建筑生成了3D數(shù)字資產(chǎn),并以虛擬直播間的形式應(yīng)用于抖音戲曲直播場景。
抖音開放平臺開發(fā)者運營負責人李建男分享了AI新產(chǎn)能助力業(yè)務(wù)增長的三個關(guān)鍵詞創(chuàng)建新場景、制造新體驗、塑造新產(chǎn)能。她分享了一些數(shù)據(jù):AI智能體將直播間變現(xiàn)效率提升了36%;生成式AI大大降低創(chuàng)作門檻,帶動圖片、視頻、故事、IP、辦公、學習等優(yōu)質(zhì)內(nèi)容量級增長200%;引入AI創(chuàng)作工具能帶動視頻投稿量、平均W數(shù)、內(nèi)容豐富度的有效增長。
李建男總結(jié)道,通過三方模型引入數(shù)據(jù)場景開放,能夠?qū)崿F(xiàn)垂類深度支持,帶動線索轉(zhuǎn)化率提升,從而提升營銷效果,這對服務(wù)商是一個非常好的機遇,可帶動服務(wù)商商業(yè)價值提升,進而帶來更多精準語料,進一步驅(qū)動技術(shù)進步,實現(xiàn)更好的模型訓練效果提升。
結(jié)語:AI+視頻技術(shù)深度融合,推動用戶體驗多維度轉(zhuǎn)變
生成式AI為視頻化社會帶來了革命性變化,不僅能提升內(nèi)容創(chuàng)作效果,還豐富了交互體驗。在AIGC、多模態(tài)等技術(shù)的共同推動下,用戶體驗在多個維度上經(jīng)歷著深刻轉(zhuǎn)變。
與此同時,AI+視頻也給底層技術(shù)的效能化、編解碼的智能化、處理框架的廣泛化帶來新挑戰(zhàn)。作為AI視頻時代智能底座的構(gòu)建商,火山引擎希望讓多媒體處理框架的部署更加規(guī)模化、普惠化,進一步控制算力成本和提高計算效率,推動編解碼與智能技術(shù)更好融合,從而提升最終的體驗效果。