展會(huì)信息港展會(huì)大全

聲網(wǎng)RTE大會(huì)開幕,生成式AI成實(shí)時(shí)互動(dòng)焦點(diǎn)!硅谷創(chuàng)投教父暢談未來社交
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-10-25 18:12:00   瀏覽:5185次  

導(dǎo)讀:智東西(公眾號(hào):zhidxcom) 作者 | 程茜 編輯 | 心緣 智東西10月25日?qǐng)?bào)道,昨天,RTE2023實(shí)時(shí)互聯(lián)網(wǎng)大會(huì)正式開幕。RTE(Real-Time Engagement)指的是實(shí)時(shí)互動(dòng)技術(shù),正廣泛應(yīng)用于直播、電競(jìng)、遠(yuǎn)程辦公、在線教育、IoT、元宇宙。 生成式AI技術(shù)的發(fā)展給實(shí)時(shí)互...

智東西(公眾號(hào):zhidxcom)

作者 | 程茜

編輯 | 心緣

智東西10月25日?qǐng)?bào)道,昨天,RTE2023實(shí)時(shí)互聯(lián)網(wǎng)大會(huì)正式開幕。RTE(Real-Time Engagement)指的是實(shí)時(shí)互動(dòng)技術(shù),正廣泛應(yīng)用于直播、電競(jìng)、遠(yuǎn)程辦公、在線教育、IoT、元宇宙。

生成式AI技術(shù)的發(fā)展給實(shí)時(shí)互動(dòng)行業(yè)、技術(shù)、應(yīng)用場(chǎng)景和用戶體驗(yàn)等都帶來了大量的影響和改變,其應(yīng)用外延隨著技術(shù)的發(fā)展不斷擴(kuò)展。

聲網(wǎng)創(chuàng)始人兼CEO趙斌談道,AI領(lǐng)域的發(fā)展給RTE行業(yè)帶來新的發(fā)展機(jī)遇,例如在QoE體驗(yàn)、交互對(duì)象、集成方式方面。

硅谷創(chuàng)投教父、Founders Space創(chuàng)始人兼CEO史蒂夫霍夫曼(Steve Hoffman)也談道,AI將改變?nèi)伺c人、人與AI之間的交互方式,基于數(shù)據(jù)分析為用戶打造更加個(gè)性化的體驗(yàn)。

他還談到了當(dāng)下很多人擔(dān)心的AI會(huì)不會(huì)產(chǎn)生意識(shí),霍夫曼認(rèn)為,答案是AI永遠(yuǎn)不可能像我們一樣有意識(shí)。因?yàn),AI是數(shù)學(xué),也就是從字面上理解文字和圖像之間的聯(lián)系并讀取方程,通過算法來繪制向量,從而理解其中的關(guān)系。

一、智能+高清,加速開啟實(shí)時(shí)互動(dòng)體驗(yàn)新時(shí)代

聲網(wǎng)創(chuàng)始人兼CEO趙斌先回顧了近段時(shí)間以來科技行業(yè)的年度大事件。

毋庸置疑,對(duì)整個(gè)科技行業(yè)影響最大的就是生成式AI的突破,OpenAI網(wǎng)站的單月訪問數(shù)量超過18億次。人們對(duì)生成式AI的看法從像互聯(lián)網(wǎng)一樣的革命,升級(jí)為類似于電的發(fā)現(xiàn)和發(fā)明。趙斌談道,生成式AI對(duì)整個(gè)科技行業(yè)、人類生活的改造剛剛開始。

還有蘋果發(fā)布Vision Pro,其沒有單純復(fù)制此前VR/AR設(shè)備,而是提出了空間計(jì)算的框架和概念,打開了行業(yè)新的想象空間和理解這種設(shè)備能力的視野,未來將展現(xiàn)出顯示和虛擬空間融合互動(dòng)的全新發(fā)展領(lǐng)域。Vision Pro的單目分辨率達(dá)到4K,他補(bǔ)充說,想要真正做到人眼不能分辨顆粒感的效果,4K算入門水平,16K及以上的分辨率才能實(shí)現(xiàn)。因此,分辨率的提升不可避免。

谷歌推出Starline全息電話亭,隨著技術(shù)的升級(jí)和成本的降低,該技術(shù)有希望商業(yè)化。其畫面并不是攝像頭直接拍攝的畫面,而是多個(gè)攝像頭采集信號(hào)生成的3D效果。通過對(duì)用戶使用體驗(yàn)的量化分析,對(duì)比二維效果,各項(xiàng)體驗(yàn)都有所提升,包括手飾動(dòng)作能提升40%、點(diǎn)頭動(dòng)作提升25%、會(huì)議記憶力提升30%等。

此外還有谷歌放棄Iris項(xiàng)目,轉(zhuǎn)攻Micro XR平臺(tái);數(shù)字人點(diǎn)燃亞運(yùn)會(huì)主火炬,體現(xiàn)了社會(huì)對(duì)虛實(shí)結(jié)合、數(shù)字化結(jié)合和真實(shí)場(chǎng)景融合的歡迎;社交平臺(tái)中,彈幕玩法成為了新的火爆的點(diǎn);大疆推出脫離單機(jī)、人手操控使用方式的自動(dòng)機(jī)場(chǎng),無人機(jī)可以遠(yuǎn)程自動(dòng)可視、可控、可記錄等。

標(biāo)準(zhǔn)化方面,聲網(wǎng)和中國(guó)信通院聯(lián)合發(fā)布了實(shí)時(shí)互動(dòng)系列標(biāo)準(zhǔn)體系,包括聲網(wǎng)視頻體驗(yàn)質(zhì)量測(cè)評(píng)標(biāo)準(zhǔn)、聲網(wǎng)音頻體驗(yàn)質(zhì)量測(cè)評(píng)標(biāo)準(zhǔn)、聲網(wǎng)會(huì)議體驗(yàn)質(zhì)量測(cè)評(píng)標(biāo)準(zhǔn)、聲網(wǎng)可視門禁體驗(yàn)質(zhì)量測(cè)評(píng)標(biāo)準(zhǔn)。

AI領(lǐng)域的發(fā)展給RTE行業(yè)帶來新的發(fā)展機(jī)遇,例如QoE體驗(yàn)、交互對(duì)象、集成方式方面。

聲網(wǎng)鳳鳴AI引擎能對(duì)聲音沉浸和真實(shí)感方面進(jìn)行優(yōu)化,如課堂上為教師錄音,學(xué)生想要聽回放復(fù)盤時(shí),錄音往往會(huì)受到桌椅移動(dòng)等聲音干擾很難被聽清楚,經(jīng)過鳳鳴AI引擎處理后,同一信號(hào)中的干擾雜音被消除了。

在視頻方面,基于AI技術(shù)的算法和創(chuàng)新,能實(shí)現(xiàn)畫質(zhì)提升、AI美顏、虛擬背景、AI驅(qū)動(dòng)表情和動(dòng)作生成等。

還有社交和泛娛樂領(lǐng)域,虛擬人和AIGC的結(jié)合能提供接近于真人的情感和情緒價(jià)值,包括AI助理、AI親友、AI女友、AI虛擬偶像等。AIGC也能為元宇宙提供更多的人物分身,讓虛擬世界更加現(xiàn)實(shí)。

生成式AI能大幅提高應(yīng)用開發(fā)效率,產(chǎn)生對(duì)高質(zhì)量API的更強(qiáng)需求,云原生應(yīng)用能分為API、APP兩層,從低代碼、無代碼到AI生成。

聲網(wǎng)還首創(chuàng)了AIGC-RTC,讓大模型能實(shí)時(shí)語(yǔ)音對(duì)話,私有化部署的小規(guī)模模型也可以對(duì)接,把文字交流的溝通方式,轉(zhuǎn)化成接近自然對(duì)話的方式,接近人人對(duì)話的體驗(yàn)。

QoE體驗(yàn)展現(xiàn)出對(duì)用戶留存和使用行為的強(qiáng)大影響;ヂ(lián)網(wǎng)社交行業(yè)的目標(biāo)就是用戶增長(zhǎng),其中的難題在于在增長(zhǎng)背后,隨著用戶流量增加,如何讓用戶體驗(yàn)更好。

聲網(wǎng)合伙人兼客戶成功副總裁孫雨潤(rùn)針對(duì)這一難題提出了四種解法,分別為標(biāo)清升級(jí)為高清、CDN升級(jí)為極速直播、開啟AI降噪、上線實(shí)時(shí)多人實(shí)時(shí)合唱。其中CDN直播僅支持單向、長(zhǎng)延時(shí)、不能互動(dòng),極速直播具備短延時(shí)、實(shí)時(shí)互動(dòng)等優(yōu)點(diǎn)。

在企業(yè)場(chǎng)景上的應(yīng)用,實(shí)時(shí)互動(dòng)平臺(tái)提供的無所不達(dá)的實(shí)施網(wǎng)絡(luò)和無所不及的音視頻能力,已經(jīng)成為企業(yè)數(shù)字化轉(zhuǎn)型的重要支撐,滿足企業(yè)全域一張網(wǎng)、全業(yè)務(wù)一張網(wǎng)、全設(shè)備一網(wǎng)通、全業(yè)務(wù)多形態(tài)能力封裝等多元化應(yīng)用的需求。

物聯(lián)網(wǎng)方面,實(shí)時(shí)互動(dòng)正在成為智能家居新標(biāo)配,包括智能音箱、智能手表、掃地機(jī)器人、寵物攝像頭等設(shè)備。

RTE行業(yè)呈現(xiàn)出生態(tài)共創(chuàng)的特征,內(nèi)容、大模型、數(shù)字人、視頻特效等領(lǐng)域都聚集了眾多生態(tài)伙伴,涵蓋泛娛樂、教育、企業(yè)服務(wù)等各項(xiàng)應(yīng)用場(chǎng)景。

生成式AI正在顛覆主流人機(jī)交互界面,將觸屏、鍵盤鼠標(biāo)變?yōu)樽匀徽Z(yǔ)言對(duì)話,將釋放更大的人機(jī)交互想象空間。

未來,趙斌認(rèn)為,RTC技術(shù)的成熟將顛覆2s以下的直播技術(shù)方案、神經(jīng)場(chǎng)輻射技術(shù)(NeRF)可能成為全息實(shí)時(shí)互動(dòng)的基礎(chǔ)技術(shù)、聲網(wǎng)將在RTE行業(yè)實(shí)現(xiàn)廣播級(jí)4K超高清實(shí)時(shí)互動(dòng)。

二、AI將改變?nèi)伺c人、人與AI的交互

Founders Space創(chuàng)始人兼CEO史蒂夫霍夫分享了對(duì)于AI將如何改變RTE的看法。

人們將獲得更加個(gè)性化的體驗(yàn),AI可以基于用戶數(shù)據(jù)提供更深層次的體驗(yàn),不斷調(diào)整應(yīng)用程序,用戶還能體驗(yàn)到實(shí)時(shí)連接的視頻圖像。AI允許人們以此前從未見過的方式進(jìn)行交互,以應(yīng)用程序Halo為例,其將人類的聲音轉(zhuǎn)化為其中角色的聲音,并且用戶可以將其嵌入其它應(yīng)用程序,從而創(chuàng)造出用戶與朋友交流的新方式。

這也進(jìn)一步探討了人們將在未來的社交應(yīng)用中看到的內(nèi)容,當(dāng)用戶在社交應(yīng)用程序中和朋友交流時(shí),AI能傾聽人們的對(duì)話,如果用戶在談?wù)搶櫸锕,AI會(huì)呈現(xiàn)出狗的形象,并插入對(duì)話中。如果用戶正在創(chuàng)建視頻與朋友共享,AI也允許用戶通過語(yǔ)音提示或文本提示快速更改視頻,例如刪除某個(gè)人物、改變頭發(fā)顏色、添加特效等。

AI也會(huì)影響動(dòng)態(tài)生成的虛擬世界,生成式AI能實(shí)時(shí)定制虛擬世界,用戶可以換掉汽車、前往中世紀(jì)、換墻紙、換燈光,未來當(dāng)用戶在虛擬世界中移動(dòng),它會(huì)根據(jù)用戶想要的東西發(fā)生動(dòng)態(tài)變化。

下一步,大多數(shù)交互方式會(huì)成為語(yǔ)音交流,因此,企業(yè)必須開發(fā)新的適用于AR和VR的語(yǔ)言。人們?nèi)绾我宰钣行У姆绞街庇^傳達(dá)想表達(dá)的意思,霍夫曼說,我們還沒到那一步,這仍然是開發(fā)人員未來想要突破的領(lǐng)域。

AI的下一波浪潮實(shí)際上是一個(gè)AI代理。AI代理能為用戶打開應(yīng)用程序、找到討論產(chǎn)品的資料、相關(guān)人員的資料,并為用戶協(xié)調(diào)工作。例如用戶在進(jìn)行一項(xiàng)商業(yè)交易談判,AI代理可以處理?xiàng)l款、了解業(yè)務(wù)需求,甚至于幫用戶進(jìn)行談判。

未來,AI將在RTE領(lǐng)域發(fā)揮重要的作用。

工廠中的數(shù)據(jù)也正在被AI可視化,如果工廠的生產(chǎn)進(jìn)度下降,AI將視覺識(shí)別、分析整條產(chǎn)線,判斷某些機(jī)器需要維護(hù),在它影響生產(chǎn)線之前進(jìn)行修理或者更換。

還有一大改變是AI和陪伴,企業(yè)構(gòu)建了一大批有情感陪伴功能的AI伴侶,用戶可以和其交談。

對(duì)于設(shè)備而言,AI會(huì)使得感官提升,如腦機(jī)接口、電子皮膚、交互服裝等,他們有計(jì)算機(jī)界面,能允許用戶控制無人機(jī)和其它設(shè)備。隨著時(shí)間的推移,這些感覺被映射到人的大腦中,人的眼睛、耳朵、皮膚并沒有接收到任何信號(hào)。未來這些設(shè)備將真正進(jìn)入市場(chǎng),實(shí)現(xiàn)轉(zhuǎn)型,讓人類能夠用更多樣的形式與世界互動(dòng)。

最后,霍夫曼用“超級(jí)智能”進(jìn)行了總結(jié)。未來大多人將能與超級(jí)AI互動(dòng),也意味著AI變得越來越聰明,像人一樣。

很多人擔(dān)心AI會(huì)不會(huì)產(chǎn)生意識(shí)?霍夫曼認(rèn)為,答案是,AI永遠(yuǎn)不可能像人一樣有意識(shí)。因?yàn),AI是數(shù)學(xué),也就是從字面上理解文字和圖像之間的聯(lián)系,并讀取方程,通過算法來繪制向量,從而理解其中的關(guān)系。

AI將在未來改變?nèi)伺c人之間的溝通方式,人與AI本身的溝通方式,改變?nèi)藗儕蕵贰⑸缃环绞降,隨著超級(jí)智能的出現(xiàn),它將接管人們今天所做的許多工作。

三、端邊實(shí)時(shí)智能+高清實(shí)時(shí)互動(dòng)能力成新趨勢(shì)

隨著信息傳播、消費(fèi)與智能化的發(fā)展,內(nèi)容生成、內(nèi)容表達(dá)、內(nèi)容分發(fā)、內(nèi)容消費(fèi)的方式也在不斷變化。聲網(wǎng)首席科學(xué)家、CTO鐘聲稱,大模型取得突破,據(jù)爆料GPT-5的參數(shù)可能超過100萬(wàn)億,還會(huì)加上視覺能力。

他補(bǔ)充道,與此同時(shí)大模型也帶來新的問題,如計(jì)算需求增長(zhǎng)很快;算力受能源供給力限制;大模型面臨數(shù)據(jù)資源不夠,到2026年可供訓(xùn)練AI的高質(zhì)量公共數(shù)據(jù)集缺乏;存儲(chǔ)需求增長(zhǎng)過快等。

還有要構(gòu)建負(fù)責(zé)任AI的道德標(biāo)準(zhǔn)要求。鐘聲認(rèn)為,從技術(shù)上來說,要做分布式、實(shí)時(shí)智能。

其中,分布式就是做端上、邊緣智能,使得計(jì)算、能耗、數(shù)據(jù)需求更合理,做到實(shí)時(shí)且低成本,同時(shí)還能針對(duì)用戶數(shù)據(jù)進(jìn)行個(gè)性化分析、處理,并注重隱私保護(hù)。

此外還有新型算法和芯片架構(gòu),例如高效算法、去中心化技術(shù)的Web 3,更底層的存算一體、神經(jīng)形態(tài)學(xué)計(jì)算等芯片架構(gòu)。

當(dāng)AGI與實(shí)時(shí)互動(dòng)相結(jié)合,會(huì)加速AI分身的產(chǎn)生,可以復(fù)制名師、朋友、網(wǎng)紅等。其具體的實(shí)現(xiàn)過程可以總結(jié)為,語(yǔ)音轉(zhuǎn)文字、ChatGPT產(chǎn)生對(duì)話文字、文字轉(zhuǎn)語(yǔ)音、語(yǔ)音驅(qū)動(dòng)寫實(shí)的形象出現(xiàn)。

在這背后,需要寫實(shí)的對(duì)話、形象、聲音。

寫實(shí)的對(duì)話要基于底層芯片和算法上的探索,包括高通芯片明年將支持部分開源模型Llama 2的部署。還有因?yàn)榛ヂ?lián)網(wǎng)上的內(nèi)容良莠不齊,需要教科書式的數(shù)據(jù)和互聯(lián)網(wǎng)的內(nèi)容做結(jié)合,這樣能使得參數(shù)規(guī)模更小的模型效果也會(huì)更好。

寫實(shí)形象通過擴(kuò)散模型、三維重構(gòu),來實(shí)現(xiàn)形象的寫實(shí)。如下圖中展示的提示詞不同生成的各類圖片:

鐘聲談道,打造寫實(shí)的聲音最好的方式是有一個(gè)模型可泛化。Meta發(fā)布的Text to Speech模型擴(kuò)散模型能預(yù)測(cè)中間的變量,用TTS做文本生成語(yǔ)音。并且為了將文本和語(yǔ)音連起來,這一模型還引入了更多層的注意力機(jī)制。

鐘聲認(rèn)為,具備端邊實(shí)時(shí)智能的高清實(shí)時(shí)互動(dòng)能力將成新趨勢(shì)和競(jìng)爭(zhēng)焦點(diǎn)。

實(shí)時(shí)高清需要更多端上實(shí)時(shí)AI,包括支持1080P/4K視頻的底層計(jì)算機(jī)視覺處理能力、支持高音質(zhì)的計(jì)算機(jī)聽覺處理能力、對(duì)物體、聲音、場(chǎng)景的理解和重構(gòu)能力等。

結(jié)語(yǔ):生成式AI加速實(shí)時(shí)互動(dòng)體驗(yàn)升級(jí)

各類前沿技術(shù)的出現(xiàn)與快速發(fā)展正在賦予人們交互方式新的想象空間,同時(shí),實(shí)時(shí)互動(dòng)技術(shù)的出現(xiàn)為IoT、工業(yè)、AR/VR等領(lǐng)域的玩家?guī)砀鄵碛胁町惢?jìng)爭(zhēng)優(yōu)勢(shì)的可能性。

生成式AI技術(shù)的出現(xiàn)正在加速實(shí)時(shí)互動(dòng)的應(yīng)用與落地,革新用戶的真實(shí)體驗(yàn),曾被賦予“眼睛”和“耳朵”的硬件設(shè)備與人的交互方式也有望發(fā)生變化,其承載的信息密度正在不斷提升,為人們帶來更加個(gè)性化的體驗(yàn)。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港