當(dāng)前位置：人工智能實(shí)驗(yàn)室> 展會(huì)會(huì)議 > 聲網(wǎng)RTE大會(huì)開幕，生成式AI成實(shí)時(shí)互動(dòng)焦點(diǎn)！硅谷創(chuàng)投教父暢談未來社交

聲網(wǎng)RTE大會(huì)開幕，生成式AI成實(shí)時(shí)互動(dòng)焦點(diǎn)！硅谷創(chuàng)投教父暢談未來社交
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-10-25 18:12:00 瀏覽：5185次

導(dǎo)讀：智東西（公眾號(hào)：zhidxcom）作者 | 程茜編輯 | 心緣智東西10月25日?qǐng)?bào)道，昨天，RTE2023實(shí)時(shí)互聯(lián)網(wǎng)大會(huì)正式開幕。RTE（Real-Time Engagement）指的是實(shí)時(shí)互動(dòng)技術(shù)，正廣泛應(yīng)用于直播、電競(jìng)、遠(yuǎn)程辦公、在線教育、IoT、元宇宙。生成式AI技術(shù)的發(fā)展給實(shí)時(shí)互...

智東西（公眾號(hào)：zhidxcom）

作者 | 程茜

編輯 | 心緣

智東西10月25日?qǐng)?bào)道，昨天，RTE2023實(shí)時(shí)互聯(lián)網(wǎng)大會(huì)正式開幕。RTE（Real-Time Engagement）指的是實(shí)時(shí)互動(dòng)技術(shù)，正廣泛應(yīng)用于直播、電競(jìng)、遠(yuǎn)程辦公、在線教育、IoT、元宇宙。

生成式AI技術(shù)的發(fā)展給實(shí)時(shí)互動(dòng)行業(yè)、技術(shù)、應(yīng)用場(chǎng)景和用戶體驗(yàn)等都帶來了大量的影響和改變，其應(yīng)用外延隨著技術(shù)的發(fā)展不斷擴(kuò)展。

聲網(wǎng)創(chuàng)始人兼CEO趙斌談道，AI領(lǐng)域的發(fā)展給RTE行業(yè)帶來新的發(fā)展機(jī)遇，例如在QoE體驗(yàn)、交互對(duì)象、集成方式方面。

硅谷創(chuàng)投教父、Founders Space創(chuàng)始人兼CEO史蒂夫霍夫曼（Steve Hoffman）也談道，AI將改變?nèi)伺c人、人與AI之間的交互方式，基于數(shù)據(jù)分析為用戶打造更加個(gè)性化的體驗(yàn)。

他還談到了當(dāng)下很多人擔(dān)心的AI會(huì)不會(huì)產(chǎn)生意識(shí)，霍夫曼認(rèn)為，答案是AI永遠(yuǎn)不可能像我們一樣有意識(shí)。因?yàn)�，AI是數(shù)學(xué)，也就是從字面上理解文字和圖像之間的聯(lián)系并讀取方程，通過算法來繪制向量，從而理解其中的關(guān)系。

一、智能+高清，加速開啟實(shí)時(shí)互動(dòng)體驗(yàn)新時(shí)代

聲網(wǎng)創(chuàng)始人兼CEO趙斌先回顧了近段時(shí)間以來科技行業(yè)的年度大事件。

毋庸置疑，對(duì)整個(gè)科技行業(yè)影響最大的就是生成式AI的突破，OpenAI網(wǎng)站的單月訪問數(shù)量超過18億次。人們對(duì)生成式AI的看法從像互聯(lián)網(wǎng)一樣的革命，升級(jí)為類似于電的發(fā)現(xiàn)和發(fā)明。趙斌談道，生成式AI對(duì)整個(gè)科技行業(yè)、人類生活的改造剛剛開始。

還有蘋果發(fā)布Vision Pro，其沒有單純復(fù)制此前VR/AR設(shè)備，而是提出了空間計(jì)算的框架和概念，打開了行業(yè)新的想象空間和理解這種設(shè)備能力的視野，未來將展現(xiàn)出顯示和虛擬空間融合互動(dòng)的全新發(fā)展領(lǐng)域。Vision Pro的單目分辨率達(dá)到4K，他補(bǔ)充說，想要真正做到人眼不能分辨顆粒感的效果，4K算入門水平，16K及以上的分辨率才能實(shí)現(xiàn)。因此，分辨率的提升不可避免。

谷歌推出Starline全息電話亭，隨著技術(shù)的升級(jí)和成本的降低，該技術(shù)有希望商業(yè)化。其畫面并不是攝像頭直接拍攝的畫面，而是多個(gè)攝像頭采集信號(hào)生成的3D效果。通過對(duì)用戶使用體驗(yàn)的量化分析，對(duì)比二維效果，各項(xiàng)體驗(yàn)都有所提升，包括手飾動(dòng)作能提升40%、點(diǎn)頭動(dòng)作提升25%、會(huì)議記憶力提升30%等。

此外還有谷歌放棄Iris項(xiàng)目，轉(zhuǎn)攻Micro XR平臺(tái)；數(shù)字人點(diǎn)燃亞運(yùn)會(huì)主火炬，體現(xiàn)了社會(huì)對(duì)虛實(shí)結(jié)合、數(shù)字化結(jié)合和真實(shí)場(chǎng)景融合的歡迎；社交平臺(tái)中，彈幕玩法成為了新的火爆的點(diǎn)；大疆推出脫離單機(jī)、人手操控使用方式的自動(dòng)機(jī)場(chǎng)，無人機(jī)可以遠(yuǎn)程自動(dòng)可視、可控、可記錄等。

標(biāo)準(zhǔn)化方面，聲網(wǎng)和中國(guó)信通院聯(lián)合發(fā)布了實(shí)時(shí)互動(dòng)系列標(biāo)準(zhǔn)體系，包括聲網(wǎng)視頻體驗(yàn)質(zhì)量測(cè)評(píng)標(biāo)準(zhǔn)、聲網(wǎng)音頻體驗(yàn)質(zhì)量測(cè)評(píng)標(biāo)準(zhǔn)、聲網(wǎng)會(huì)議體驗(yàn)質(zhì)量測(cè)評(píng)標(biāo)準(zhǔn)、聲網(wǎng)可視門禁體驗(yàn)質(zhì)量測(cè)評(píng)標(biāo)準(zhǔn)。

AI領(lǐng)域的發(fā)展給RTE行業(yè)帶來新的發(fā)展機(jī)遇，例如QoE體驗(yàn)、交互對(duì)象、集成方式方面。

聲網(wǎng)鳳鳴AI引擎能對(duì)聲音沉浸和真實(shí)感方面進(jìn)行優(yōu)化，如課堂上為教師錄音，學(xué)生想要聽回放復(fù)盤時(shí)，錄音往往會(huì)受到桌椅移動(dòng)等聲音干擾很難被聽清楚，經(jīng)過鳳鳴AI引擎處理后，同一信號(hào)中的干擾雜音被消除了。

在視頻方面，基于AI技術(shù)的算法和創(chuàng)新，能實(shí)現(xiàn)畫質(zhì)提升、AI美顏、虛擬背景、AI驅(qū)動(dòng)表情和動(dòng)作生成等。

還有社交和泛娛樂領(lǐng)域，虛擬人和AIGC的結(jié)合能提供接近于真人的情感和情緒價(jià)值，包括AI助理、AI親友、AI女友、AI虛擬偶像等。AIGC也能為元宇宙提供更多的人物分身，讓虛擬世界更加現(xiàn)實(shí)。

生成式AI能大幅提高應(yīng)用開發(fā)效率，產(chǎn)生對(duì)高質(zhì)量API的更強(qiáng)需求，云原生應(yīng)用能分為API、APP兩層，從低代碼、無代碼到AI生成。

聲網(wǎng)還首創(chuàng)了AIGC-RTC，讓大模型能實(shí)時(shí)語(yǔ)音對(duì)話，私有化部署的小規(guī)模模型也可以對(duì)接，把文字交流的溝通方式，轉(zhuǎn)化成接近自然對(duì)話的方式，接近人人對(duì)話的體驗(yàn)。

QoE體驗(yàn)展現(xiàn)出對(duì)用戶留存和使用行為的強(qiáng)大影響�；ヂ�(lián)網(wǎng)社交行業(yè)的目標(biāo)就是用戶增長(zhǎng)，其中的難題在于在增長(zhǎng)背后，隨著用戶流量增加，如何讓用戶體驗(yàn)更好。

聲網(wǎng)合伙人兼客戶成功副總裁孫雨潤(rùn)針對(duì)這一難題提出了四種解法，分別為標(biāo)清升級(jí)為高清、CDN升級(jí)為極速直播、開啟AI降噪、上線實(shí)時(shí)多人實(shí)時(shí)合唱。其中CDN直播僅支持單向、長(zhǎng)延時(shí)、不能互動(dòng)，極速直播具備短延時(shí)、實(shí)時(shí)互動(dòng)等優(yōu)點(diǎn)。

在企業(yè)場(chǎng)景上的應(yīng)用，實(shí)時(shí)互動(dòng)平臺(tái)提供的無所不達(dá)的實(shí)施網(wǎng)絡(luò)和無所不及的音視頻能力，已經(jīng)成為企業(yè)數(shù)字化轉(zhuǎn)型的重要支撐，滿足企業(yè)全域一張網(wǎng)、全業(yè)務(wù)一張網(wǎng)、全設(shè)備一網(wǎng)通、全業(yè)務(wù)多形態(tài)能力封裝等多元化應(yīng)用的需求。

物聯(lián)網(wǎng)方面，實(shí)時(shí)互動(dòng)正在成為智能家居新標(biāo)配，包括智能音箱、智能手表、掃地機(jī)器人、寵物攝像頭等設(shè)備。

RTE行業(yè)呈現(xiàn)出生態(tài)共創(chuàng)的特征，內(nèi)容、大模型、數(shù)字人、視頻特效等領(lǐng)域都聚集了眾多生態(tài)伙伴，涵蓋泛娛樂、教育、企業(yè)服務(wù)等各項(xiàng)應(yīng)用場(chǎng)景。

生成式AI正在顛覆主流人機(jī)交互界面，將觸屏、鍵盤鼠標(biāo)變?yōu)樽匀徽Z(yǔ)言對(duì)話，將釋放更大的人機(jī)交互想象空間。

未來，趙斌認(rèn)為，RTC技術(shù)的成熟將顛覆2s以下的直播技術(shù)方案、神經(jīng)場(chǎng)輻射技術(shù)（NeRF）可能成為全息實(shí)時(shí)互動(dòng)的基礎(chǔ)技術(shù)、聲網(wǎng)將在RTE行業(yè)實(shí)現(xiàn)廣播級(jí)4K超高清實(shí)時(shí)互動(dòng)。

二、AI將改變?nèi)伺c人、人與AI的交互

Founders Space創(chuàng)始人兼CEO史蒂夫霍夫分享了對(duì)于AI將如何改變RTE的看法。

人們將獲得更加個(gè)性化的體驗(yàn)，AI可以基于用戶數(shù)據(jù)提供更深層次的體驗(yàn)，不斷調(diào)整應(yīng)用程序，用戶還能體驗(yàn)到實(shí)時(shí)連接的視頻圖像。AI允許人們以此前從未見過的方式進(jìn)行交互，以應(yīng)用程序Halo為例，其將人類的聲音轉(zhuǎn)化為其中角色的聲音，并且用戶可以將其嵌入其它應(yīng)用程序，從而創(chuàng)造出用戶與朋友交流的新方式。

這也進(jìn)一步探討了人們將在未來的社交應(yīng)用中看到的內(nèi)容，當(dāng)用戶在社交應(yīng)用程序中和朋友交流時(shí)，AI能傾聽人們的對(duì)話，如果用戶在談?wù)搶櫸锕�，AI會(huì)呈現(xiàn)出狗的形象，并插入對(duì)話中。如果用戶正在創(chuàng)建視頻與朋友共享，AI也允許用戶通過語(yǔ)音提示或文本提示快速更改視頻，例如刪除某個(gè)人物、改變頭發(fā)顏色、添加特效等。

AI也會(huì)影響動(dòng)態(tài)生成的虛擬世界，生成式AI能實(shí)時(shí)定制虛擬世界，用戶可以換掉汽車、前往中世紀(jì)、換墻紙、換燈光，未來當(dāng)用戶在虛擬世界中移動(dòng)，它會(huì)根據(jù)用戶想要的東西發(fā)生動(dòng)態(tài)變化。

下一步，大多數(shù)交互方式會(huì)成為語(yǔ)音交流，因此，企業(yè)必須開發(fā)新的適用于AR和VR的語(yǔ)言。人們?nèi)绾我宰钣行У姆绞街庇^傳達(dá)想表達(dá)的意思，霍夫曼說，我們還沒到那一步，這仍然是開發(fā)人員未來想要突破的領(lǐng)域。

AI的下一波浪潮實(shí)際上是一個(gè)AI代理。AI代理能為用戶打開應(yīng)用程序、找到討論產(chǎn)品的資料、相關(guān)人員的資料，并為用戶協(xié)調(diào)工作。例如用戶在進(jìn)行一項(xiàng)商業(yè)交易談判，AI代理可以處理?xiàng)l款、了解業(yè)務(wù)需求，甚至于幫用戶進(jìn)行談判。

未來，AI將在RTE領(lǐng)域發(fā)揮重要的作用。

工廠中的數(shù)據(jù)也正在被AI可視化，如果工廠的生產(chǎn)進(jìn)度下降，AI將視覺識(shí)別、分析整條產(chǎn)線，判斷某些機(jī)器需要維護(hù)，在它影響生產(chǎn)線之前進(jìn)行修理或者更換。

還有一大改變是AI和陪伴，企業(yè)構(gòu)建了一大批有情感陪伴功能的AI伴侶，用戶可以和其交談。

對(duì)于設(shè)備而言，AI會(huì)使得感官提升，如腦機(jī)接口、電子皮膚、交互服裝等，他們有計(jì)算機(jī)界面，能允許用戶控制無人機(jī)和其它設(shè)備。隨著時(shí)間的推移，這些感覺被映射到人的大腦中，人的眼睛、耳朵、皮膚并沒有接收到任何信號(hào)。未來這些設(shè)備將真正進(jìn)入市場(chǎng)，實(shí)現(xiàn)轉(zhuǎn)型，讓人類能夠用更多樣的形式與世界互動(dòng)。

最后，霍夫曼用“超級(jí)智能”進(jìn)行了總結(jié)。未來大多人將能與超級(jí)AI互動(dòng)，也意味著AI變得越來越聰明，像人一樣。

很多人擔(dān)心AI會(huì)不會(huì)產(chǎn)生意識(shí)？霍夫曼認(rèn)為，答案是，AI永遠(yuǎn)不可能像人一樣有意識(shí)。因?yàn)�，AI是數(shù)學(xué)，也就是從字面上理解文字和圖像之間的聯(lián)系，并讀取方程，通過算法來繪制向量，從而理解其中的關(guān)系。

AI將在未來改變?nèi)伺c人之間的溝通方式，人與AI本身的溝通方式，改變?nèi)藗儕蕵贰⑸缃环绞降�，隨著超級(jí)智能的出現(xiàn)，它將接管人們今天所做的許多工作。

三、端邊實(shí)時(shí)智能+高清實(shí)時(shí)互動(dòng)能力成新趨勢(shì)

隨著信息傳播、消費(fèi)與智能化的發(fā)展，內(nèi)容生成、內(nèi)容表達(dá)、內(nèi)容分發(fā)、內(nèi)容消費(fèi)的方式也在不斷變化。聲網(wǎng)首席科學(xué)家、CTO鐘聲稱，大模型取得突破，據(jù)爆料GPT-5的參數(shù)可能超過100萬(wàn)億，還會(huì)加上視覺能力。

他補(bǔ)充道，與此同時(shí)大模型也帶來新的問題，如計(jì)算需求增長(zhǎng)很快；算力受能源供給力限制；大模型面臨數(shù)據(jù)資源不夠，到2026年可供訓(xùn)練AI的高質(zhì)量公共數(shù)據(jù)集缺乏；存儲(chǔ)需求增長(zhǎng)過快等。

還有要構(gòu)建負(fù)責(zé)任AI的道德標(biāo)準(zhǔn)要求。鐘聲認(rèn)為，從技術(shù)上來說，要做分布式、實(shí)時(shí)智能。

其中，分布式就是做端上、邊緣智能，使得計(jì)算、能耗、數(shù)據(jù)需求更合理，做到實(shí)時(shí)且低成本，同時(shí)還能針對(duì)用戶數(shù)據(jù)進(jìn)行個(gè)性化分析、處理，并注重隱私保護(hù)。

此外還有新型算法和芯片架構(gòu)，例如高效算法、去中心化技術(shù)的Web 3，更底層的存算一體、神經(jīng)形態(tài)學(xué)計(jì)算等芯片架構(gòu)。

當(dāng)AGI與實(shí)時(shí)互動(dòng)相結(jié)合，會(huì)加速AI分身的產(chǎn)生，可以復(fù)制名師、朋友、網(wǎng)紅等。其具體的實(shí)現(xiàn)過程可以總結(jié)為，語(yǔ)音轉(zhuǎn)文字、ChatGPT產(chǎn)生對(duì)話文字、文字轉(zhuǎn)語(yǔ)音、語(yǔ)音驅(qū)動(dòng)寫實(shí)的形象出現(xiàn)。

在這背后，需要寫實(shí)的對(duì)話、形象、聲音。

寫實(shí)的對(duì)話要基于底層芯片和算法上的探索，包括高通芯片明年將支持部分開源模型Llama 2的部署。還有因?yàn)榛ヂ?lián)網(wǎng)上的內(nèi)容良莠不齊，需要教科書式的數(shù)據(jù)和互聯(lián)網(wǎng)的內(nèi)容做結(jié)合，這樣能使得參數(shù)規(guī)模更小的模型效果也會(huì)更好。

寫實(shí)形象通過擴(kuò)散模型、三維重構(gòu)，來實(shí)現(xiàn)形象的寫實(shí)。如下圖中展示的提示詞不同生成的各類圖片：

鐘聲談道，打造寫實(shí)的聲音最好的方式是有一個(gè)模型可泛化。Meta發(fā)布的Text to Speech模型擴(kuò)散模型能預(yù)測(cè)中間的變量，用TTS做文本生成語(yǔ)音。并且為了將文本和語(yǔ)音連起來，這一模型還引入了更多層的注意力機(jī)制。

鐘聲認(rèn)為，具備端邊實(shí)時(shí)智能的高清實(shí)時(shí)互動(dòng)能力將成新趨勢(shì)和競(jìng)爭(zhēng)焦點(diǎn)。

實(shí)時(shí)高清需要更多端上實(shí)時(shí)AI，包括支持1080P/4K視頻的底層計(jì)算機(jī)視覺處理能力、支持高音質(zhì)的計(jì)算機(jī)聽覺處理能力、對(duì)物體、聲音、場(chǎng)景的理解和重構(gòu)能力等。

結(jié)語(yǔ)：生成式AI加速實(shí)時(shí)互動(dòng)體驗(yàn)升級(jí)

各類前沿技術(shù)的出現(xiàn)與快速發(fā)展正在賦予人們交互方式新的想象空間，同時(shí)，實(shí)時(shí)互動(dòng)技術(shù)的出現(xiàn)為IoT、工業(yè)、AR/VR等領(lǐng)域的玩家?guī)砀鄵碛胁町惢?jìng)爭(zhēng)優(yōu)勢(shì)的可能性。

生成式AI技術(shù)的出現(xiàn)正在加速實(shí)時(shí)互動(dòng)的應(yīng)用與落地，革新用戶的真實(shí)體驗(yàn)，曾被賦予“眼睛”和“耳朵”的硬件設(shè)備與人的交互方式也有望發(fā)生變化，其承載的信息密度正在不斷提升，為人們帶來更加個(gè)性化的體驗(yàn)。