展會(huì)信息港展會(huì)大全

李飛飛團(tuán)隊(duì)新作:AI透視眼,穿越障礙看清你,渲染遮擋人體有新突破了
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-01-04 13:03:44   瀏覽:7652次  

導(dǎo)讀:機(jī)器之心報(bào)道 編輯:大盤(pán)雞、小舟 即使遮擋,也能渲染出高保真的 3D 人體。 AR/VR 、電影和醫(yī)療等領(lǐng)域都在廣泛地應(yīng)用視頻渲染人類(lèi)形象。由于單目攝像頭的視頻獲取較為容易,因此從單目攝像頭中渲染人體一直是研究的主要方式。Vid2Avatar、MonoHuman 和 NeuMa...

機(jī)器之心報(bào)道

編輯:大盤(pán)雞、小舟

即使遮擋,也能渲染出高保真的 3D 人體。

AR/VR 、電影和醫(yī)療等領(lǐng)域都在廣泛地應(yīng)用視頻渲染人類(lèi)形象。由于單目攝像頭的視頻獲取較為容易,因此從單目攝像頭中渲染人體一直是研究的主要方式。Vid2Avatar、MonoHuman 和 NeuMan 等方法都取得了令人矚目的成績(jī)。盡管只有一個(gè)攝像頭視角,這些方法仍能從新的視角準(zhǔn)確地渲染人體。

不過(guò),大多數(shù)現(xiàn)有的方法在渲染人體時(shí)都是針對(duì)較為理想的實(shí)驗(yàn)場(chǎng)景進(jìn)行設(shè)計(jì)的。在這些場(chǎng)景中,障礙物幾乎不存在,人的各個(gè)身體部分在每一幀中也都能全部展示出來(lái)。可這與現(xiàn)實(shí)場(chǎng)景大為不同,F(xiàn)實(shí)場(chǎng)景中常有多個(gè)障礙物,人體也會(huì)在移動(dòng)過(guò)程中被障礙物遮擋。

大多數(shù)的神經(jīng)渲染方法在處理現(xiàn)實(shí)世界的場(chǎng)景時(shí)都會(huì)因?yàn)檎趽醵щy重重,其中一大原因就是缺乏監(jiān)督。實(shí)際場(chǎng)景往往無(wú)法提供有關(guān)人體外觀(guān)、形狀和姿態(tài)的真實(shí)監(jiān)督數(shù)據(jù),因此模型需要根據(jù)現(xiàn)有的少量證據(jù)來(lái)推斷其他信息,而這十分具有挑戰(zhàn)性,尤其是大部分人體被遮擋的情況。

由于許多神經(jīng)方法采用的基于點(diǎn)的渲染方案,當(dāng)一個(gè)被遮擋和一個(gè)未被遮擋時(shí),兩個(gè)非常接近的坐標(biāo)會(huì)在渲染輸出上產(chǎn)生巨大差異。因此,那些未適應(yīng)被遮擋場(chǎng)景的方法在遇到遮擋時(shí)經(jīng)常會(huì)顯示出不完整的人體,或者渲染出漂浮物和其他視覺(jué)上的錯(cuò)誤。

最近,著名人工智能教授李飛飛在 X 上發(fā)布了有關(guān) 3D 人體渲染工作的新進(jìn)展 一種名為 Wild2Avatar 的新模型,該模型即使在有遮擋的情況下仍然能夠完整、高保真地渲染人體。

Wild2Avatar 是一種適用于有遮擋的野外單目視頻的神經(jīng)渲染方法。研究團(tuán)隊(duì)提出了遮擋感知場(chǎng)景參數(shù)化,將場(chǎng)景解耦為三個(gè)部分 遮擋、人體和背景,分別渲染這三個(gè)部分,并設(shè)計(jì)了新穎的優(yōu)化目標(biāo)。

論文地址:https://arxiv.org/pdf/2401.00431.pdf

項(xiàng)目地址:https://cs.stanford.edu/~xtiange/projects/wild2avatar/

方法介紹

Wild2Avatar 可以為帶有遮擋的野外單目視頻渲染具有完整幾何形狀和高保真外觀(guān)的 3D 人體。Wild2Avatar 模型的整體架構(gòu)如下圖 2 所示:

具體來(lái)說(shuō),Wild2Avatar 將遮擋物、人體和背景建模為三個(gè)獨(dú)立的神經(jīng)場(chǎng),無(wú)論遮擋物如何,都能對(duì)人體進(jìn)行清晰的三維重建。為此,該研究采用場(chǎng)景自分解技術(shù),在倒球參數(shù)化(inverted sphere parametrization)的基礎(chǔ)上,提出了遮擋感知場(chǎng)景參數(shù)化。

除了倒球參數(shù)化定義的第一個(gè)球外,該研究還引入了第二個(gè)內(nèi)球,并將從攝像機(jī)到內(nèi)球邊緣的區(qū)域定義為遮擋區(qū)域。通過(guò)單獨(dú)渲染這一區(qū)域,Wild2Avatar 成功將遮擋與場(chǎng)景的其他部分分離開(kāi)來(lái)。

此外,為了確保高保真和完整地渲染人體,該研究提出通過(guò)像素光度損失、場(chǎng)景分解損失、遮擋解耦損失和幾何完整性損失的組合來(lái)匯總?cè)N渲染。

實(shí)驗(yàn)及結(jié)果

數(shù)據(jù)集

OcMotion:該數(shù)據(jù)集由人體與各種物體接觸的室內(nèi)場(chǎng)景組成,同時(shí)被這些物體部分遮擋。研究者從該數(shù)據(jù)集的 48 個(gè)視頻中選用了 5 個(gè),它們展示了不同程度的遮擋。他們從每個(gè)視頻中只抽取了 100 幀來(lái)訓(xùn)練模型,并使用數(shù)據(jù)集提供的相機(jī)矩陣、人體姿態(tài)和 SMPL 參數(shù)來(lái)初始化優(yōu)化過(guò)程。幀內(nèi)的二進(jìn)制人體分割掩碼是通過(guò)「分割一切 (SAM)」獲得的。

野外視頻:研究者對(duì)兩段真實(shí)世界的視頻進(jìn)行了額外的實(shí)驗(yàn),其中一段是從 YouTube 下載的,另一段是研究團(tuán)隊(duì)使用手機(jī)攝像頭拍攝的。他們從這兩段視頻中抽取了 150 幀進(jìn)行訓(xùn)練,并使用 SLAHMR 獲取了攝像機(jī)矩陣、人體姿勢(shì)和 SMPL 參數(shù)。由于沒(méi)有提供真實(shí)姿態(tài),因此對(duì)這些視頻的評(píng)估也表明了各種方法對(duì)不準(zhǔn)確估計(jì)的穩(wěn)健性。

被遮擋單目攝像頭視頻上的結(jié)果

圖 5 比較了 Vid2Avatar 和 Wild2Avatar 在兩個(gè)數(shù)據(jù)集上的渲染結(jié)果。

在表 1 中,研究者報(bào)告了兩種方法的量化結(jié)果,并觀(guān)察到二者在可見(jiàn)部分的渲染性能不相上下。不過(guò),需要注意的是,Wild2Avatar 在身體幾何形狀和遮擋部分的渲染質(zhì)量上始終優(yōu)于 Vid2Avatar。

與 OccNeRF 的比較

研究者將 Wild2Avatar 與最近推出的遮擋人體渲染軟件 OccNeRF 進(jìn)行比較。比較結(jié)果如圖 6 所示。

為了進(jìn)行公平比較,他們分別在 500 幀和 100 幀圖像上對(duì) OccNeRF 進(jìn)行了訓(xùn)練。由于沒(méi)有隱式 SDF 表征,OccNeRF 存在浮游物和偽影等常見(jiàn)缺陷。雖然 OccNeRF 也能恢復(fù)被遮擋的人體部位,但人體通常會(huì)意外扭曲,導(dǎo)致渲染質(zhì)量較低。

場(chǎng)景分解的可視化

Wild2Avatar 以組合的方式渲染了三個(gè)場(chǎng)景部分。人和背景 / 遮擋物分別在兩個(gè)不同的神經(jīng)場(chǎng)中建模。圖 7 展示了這三個(gè)場(chǎng)景部分的單獨(dú)渲染圖。需要注意的是,由于這項(xiàng)工作只專(zhuān)注于人體渲染,因此背景和遮擋物的無(wú)偽影渲染不在這項(xiàng)工作的討論范圍內(nèi)。

消融實(shí)驗(yàn)

盡管 Wild2Avatar 仍能恢復(fù)被遮擋的外觀(guān),但在沒(méi)有提出的參數(shù)化的情況下,渲染結(jié)果中會(huì)出現(xiàn)許多偽影,見(jiàn)圖 8 第一行。

如果不采用建議的損失函數(shù),則無(wú)法完全恢復(fù)被遮擋的區(qū)域,見(jiàn)圖 8 第二行。

提出的損失函數(shù)作為一個(gè)正則化器,強(qiáng)制人體幾何形態(tài)與 SMPL 網(wǎng)格先驗(yàn)保持一致,這防止了錯(cuò)誤姿態(tài)的渲染,見(jiàn)圖 8 第三行。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港