當(dāng)前位置：人工智能實(shí)驗(yàn)室> 機(jī)器人 > 資深機(jī)器人專家：蘋果Vision Pro空間計(jì)算技術(shù)和深度學(xué)習(xí)結(jié)合，將給諸多領(lǐng)域帶來革命

資深機(jī)器人專家：蘋果Vision Pro空間計(jì)算技術(shù)和深度學(xué)習(xí)結(jié)合，將給諸多領(lǐng)域帶來革命
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-06-15 20:08:55 瀏覽：6866次

導(dǎo)讀：本文首先結(jié)合蘋果公司最新推出的 Vision Pro 詳細(xì)回顧虛擬現(xiàn)實(shí)增強(qiáng)現(xiàn)實(shí)和混合現(xiàn)實(shí)等技術(shù)的來龍去脈，然后結(jié)合一家混合現(xiàn)實(shí)創(chuàng)業(yè)公司的發(fā)展歷程展望 Vision Pro 為世界帶來的可能性。增強(qiáng)現(xiàn)實(shí)和空間計(jì)算人類文明在近代突飛猛進(jìn)地發(fā)展，許多技術(shù)的出現(xiàn)極大改...

本文首先結(jié)合蘋果公司最新推出的 Vision Pro 詳細(xì)回顧“虛擬現(xiàn)實(shí)”“增強(qiáng)現(xiàn)實(shí)”和“混合現(xiàn)實(shí)”等技術(shù)的來龍去脈，然后結(jié)合一家混合現(xiàn)實(shí)創(chuàng)業(yè)公司的發(fā)展歷程展望 Vision Pro 為世界帶來的可能性。

增強(qiáng)現(xiàn)實(shí)和空間計(jì)算

人類文明在近代突飛猛進(jìn)地發(fā)展，許多技術(shù)的出現(xiàn)極大改變了我們的生產(chǎn)力和看待世界的方式。

技術(shù)對一個單獨(dú)的人類個體的幫助主要有兩點(diǎn)：

第一點(diǎn)，減少該個體獲取信息的難度。舉例來說，從印刷術(shù)到電報(bào)、電話，再到互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)，技術(shù)幫助人們更快地把信息傳遞和分發(fā)給不同的人。而從另一個角度說，馬車、火車、飛機(jī)這些交通工具讓人類個體更快地移動，也可以看作是幫助個人更快去到不同的地方收集更多的信息。人們對這些信息分發(fā)、信息收集的速度要求主導(dǎo)了過去近 200 年的主要技術(shù)進(jìn)步。

第二點(diǎn)，提供對世界量化的認(rèn)知。對時間和空間的量化需求同樣在人類歷史發(fā)展中扮演了重要的角色，例如早期的鐘表采用日晷、滴水計(jì)時，隨后在中世紀(jì)發(fā)展了出擒縱機(jī)構(gòu)、復(fù)雜齒輪組，然后在當(dāng)代發(fā)展到了石英電路、原子鐘，這每一項(xiàng)在量化時間方面的技術(shù)進(jìn)步都來自于各種科學(xué)和工程領(lǐng)域?qū)α炕澜绲淖非蟆?/p>

圖 | 本文作者楊碩（來源：楊碩）

獲取信息和量化世界不僅提高生產(chǎn)力，還可以提供發(fā)自人類本能的安全感。一個人身處野外雖然感到惶恐，但如果通過手表知道離天黑還有多少小時（對時間的量化認(rèn)知）、通過 GPS 接收機(jī)知道自己離附近的城鎮(zhèn)還有多遠(yuǎn)距離（對空間的量化認(rèn)知）、通過對講機(jī)或者手機(jī)可以實(shí)時與熟悉的人交流（獲取信息），則這個人可以獲得極大的安全感。

因此，獲取信息和量化世界可以說源自生物趨利避害的本能，或者說他們也就是人類本能的一部分，它讓技術(shù)的洪流不可阻擋地在歷史長河中前進(jìn)。

由于對這些技術(shù)的追求是人類的本能，所以從古至今、無論實(shí)現(xiàn)與否，每個人都明白任何一件幫助我們獲取信息和量化世界的技術(shù)的極限是什么越快越好、越精確越好：2000 年前通過鴿子傳遞文書的羅馬人，一定幻想過未來會出現(xiàn)讓自己手中的信息瞬間傳遞到千里之外的技術(shù)；中世紀(jì)的鐘表匠只懂得重力擒縱機(jī)構(gòu)，但他們明白在長期技術(shù)發(fā)展之后一定會有未來的工匠造出運(yùn)行萬年依然分秒不差的鐘表。

同樣地，每個人都會因?yàn)樽约罕灸艿刈非螳@取信息和量化世界而能夠幻想出一些所有人都會喜歡和追求的技術(shù)。比如，古往今來一定有無數(shù)人類個體曾想象過這樣一種技術(shù)我們睜開眼看世界，視野中不僅有我們身邊其他人類個體以及自然和人造的物體的影像，還有對于這些物體量化的或者描述性的信息一個非洲的原始人迫切需要知道視野中樹根邊的一片蘑菇里哪些有毒哪些沒毒、一個歐洲的石匠希望可以實(shí)時知道手中正在加工的石槽的寬度、一個當(dāng)代的辦公室職員想要努力回想自己昨天隨手把一個 U 盤放在了桌上哪個角落……如果我們看向周圍就能額外看到蘑菇的類型、石料的長度、辦公桌上特定物體的位置等信息，我們的生活將會多么安全和高效！

這就是我們今日津津樂道的“增強(qiáng)現(xiàn)實(shí)”技術(shù)。它源自人類內(nèi)心的本能，代表了人類對獲取信息和量化世界的極致追求，一代一代人類都曾經(jīng)幻想過它的存在以及可能的實(shí)現(xiàn)方式。

二十一世紀(jì)二十年代的人類基于當(dāng)前時代的科技發(fā)展水平，對這種技術(shù)的可能實(shí)現(xiàn)方式是這樣思考的：這是一臺佩戴在人眼前方的機(jī)電設(shè)備，重量和制造成本越低越好，最好重量能夠忽略不計(jì)，人眼透過這臺設(shè)備看到周圍環(huán)境反射的光線，同時這臺設(shè)備會投射光線到人眼中，讓人看到虛擬的、關(guān)于周圍環(huán)境物體的量化信息。這臺設(shè)備有自己的計(jì)算單元、信息存儲器，可以分析理解周圍環(huán)境中物體的信息，還能夠接入互聯(lián)網(wǎng)獲取更多的相關(guān)信息。我們可以用如下的架構(gòu)圖來表示：

（來源：楊碩）

蘋果最新推出的 Vision Pro 以及此前已經(jīng)存在的微軟 Hololens 正是實(shí)現(xiàn)了這樣功能的機(jī)電設(shè)備。不過兩者還有一些小區(qū)別，這區(qū)別與“混合現(xiàn)實(shí)”的概念有關(guān)。

當(dāng)代人類還想出了另一種方式來達(dá)到極致獲取信息和量化世界的目的：如果我們身處的不是現(xiàn)實(shí)世界，而是數(shù)字和計(jì)算構(gòu)成的世界，那么在這個本身就是由人類自己構(gòu)建的世界中自由移動、量化一切事物就是自然而然的事情。將人類的意識接入數(shù)字化的虛擬世界，就是被稱為“虛擬現(xiàn)實(shí)”的技術(shù)。這種技術(shù)的極限超出了當(dāng)代人類的想象，我們現(xiàn)有的被稱為虛擬現(xiàn)實(shí)設(shè)備的大部分機(jī)電產(chǎn)品只是一些拙劣的實(shí)現(xiàn)，因?yàn)槿祟愑幸曈X、聽覺、觸覺等等不同的感覺，我們不知道如何把所有的感官信息都用數(shù)字化的信息來取代。當(dāng)代的虛擬現(xiàn)實(shí)設(shè)備往往只替換人類視覺系統(tǒng)輸入的信息，采用如下的架構(gòu)方式：

（來源：楊碩）

采用上述架構(gòu)的虛擬現(xiàn)實(shí)設(shè)備有一個巨大的缺點(diǎn)幾乎難以用現(xiàn)有的技術(shù)手段克服頭暈。每一個人類個體無時無刻不在大腦中進(jìn)行“傳感器融合”，通過幾種感官傳感器來確定自己在空間中的狀態(tài)。其中最重要的一種傳感器融合行為是對頭部運(yùn)動速度的測量。

當(dāng)我們轉(zhuǎn)動頭部和身體時，人腦會通過視覺系統(tǒng)看到的圖像計(jì)算自己的運(yùn)動速度；另外人的耳蝸中存在一些固體狀的顆粒稱為耳石，它們受到慣性力加減速時會牽引耳石膜，讓耳蝸感知頭部的運(yùn)動速度。

再者，人體運(yùn)動時，各個相關(guān)肌肉的伸長和縮短情況也提供了一些關(guān)于運(yùn)動的信息。當(dāng)這三者測量的運(yùn)動速度不一致時，人就很容易出現(xiàn)頭暈的癥狀。暈車是一個典型的例子，暈車的主要原因是人看向車內(nèi)，通過視覺系統(tǒng)認(rèn)為自己沒有運(yùn)動，但此時車輛的加減速和顛簸會讓耳石告訴大腦說身體正在運(yùn)動，大腦因此會出現(xiàn)混亂。

另一個例子是恐高癥，人在高處看地面時，由于地面的景象離自己太遠(yuǎn)，視覺系統(tǒng)測量不出運(yùn)動，和耳蝸感知到的微小運(yùn)動信息出現(xiàn)了不一致，大腦又進(jìn)入了眩暈狀態(tài)，此時如果人趕快坐下、扶住欄桿或者扶住地面，通過身體肌肉信息向大腦傳達(dá)身體的運(yùn)動信息狀況（此時至少身體肌肉和耳蝸測量的運(yùn)動信息是一致的），就可以減弱頭暈的反應(yīng)在下圖右側(cè)的幾種姿勢中，從上到下頭暈反應(yīng)越來越嚴(yán)重：

（來源：楊碩）

因此可想而知，只替換視覺系統(tǒng)輸入的虛擬現(xiàn)實(shí)設(shè)備給大腦將造成多少迷惑。當(dāng)然，就像暈車和恐高可以通過訓(xùn)練來克服一樣通過反復(fù)經(jīng)歷傳感器信息不一致的場景鍛煉大腦只關(guān)注耳蝸和身體肌肉提供的運(yùn)動信息虛擬現(xiàn)實(shí)設(shè)備也可以通過用戶自己的訓(xùn)練來減少甚至消除眩暈感，但這對用戶提出了很高的要求。

另外一個折衷的解決方案是虛擬現(xiàn)實(shí)設(shè)備還是要讓用戶的大腦感受到視覺系統(tǒng)該看到的信息，把一個隨著用戶視線移動的相機(jī)捕捉的圖像同樣顯示給用戶作為虛擬世界的背景，這樣用戶的視覺系統(tǒng)依然可以獲得和其他感官一致的運(yùn)動速度測量。這種設(shè)計(jì)被稱為“混合現(xiàn)實(shí)”，如下圖所示：

（來源：楊碩）

在混合現(xiàn)實(shí)設(shè)備中，用戶不僅看到虛擬世界呈現(xiàn)的信息，還可以看到背景中的環(huán)境圖像，從而讓大腦明白自己在空間中的運(yùn)動狀態(tài)。

另外，“混合現(xiàn)實(shí)”設(shè)備和“增強(qiáng)現(xiàn)實(shí)”設(shè)備的結(jié)構(gòu)有相似之處，區(qū)別是環(huán)境光線是直接通過設(shè)備的開口通路進(jìn)入人眼（這種設(shè)計(jì)學(xué)名叫做光學(xué)透視，Optical See-through），還是被設(shè)備的數(shù)字?jǐn)z像頭轉(zhuǎn)換成數(shù)字圖像再發(fā)給人眼。把環(huán)境轉(zhuǎn)換為數(shù)字圖像的便捷之處是設(shè)備可以利用當(dāng)代的計(jì)算機(jī)視覺算法對圖像做處理和分析，這樣能夠結(jié)合分析結(jié)果呈現(xiàn)更多更準(zhǔn)確的信息。根據(jù)蘋果發(fā)布會中 Vision Pro 的介紹，我們可以看出它是一臺混合現(xiàn)實(shí)設(shè)備。

我們可以說混合現(xiàn)實(shí)設(shè)備是一種對虛擬現(xiàn)實(shí)的頭暈問題的補(bǔ)償方案，又是對增強(qiáng)現(xiàn)實(shí)技術(shù)的另一種實(shí)現(xiàn)和優(yōu)化方式。但是，混合現(xiàn)實(shí)設(shè)備如果性能不好，反而會加重頭暈的問題，因?yàn)橛脩艨吹降牟皇侵苯觼碜原h(huán)境的光線，而是經(jīng)過了計(jì)算設(shè)備后處理的圖像的光線。

如果計(jì)算設(shè)備采集圖像、處理圖像需要的時間太久，圖像的延遲還是會造成視覺系統(tǒng)和耳蝸的運(yùn)動估計(jì)信息不一致：視覺系統(tǒng)通過數(shù)字圖像估計(jì)當(dāng)前時刻減去一小段時間前的頭部運(yùn)動速度，而耳蝸估計(jì)的是當(dāng)前時刻的速度。計(jì)算設(shè)備的圖像延遲越大，估計(jì)不一致越明顯，頭暈的問題越嚴(yán)重。

一般的理論認(rèn)為這個延遲必須小于人眼視覺暫留效應(yīng)的時間（約 1/16 秒或 60 毫秒）。在蘋果發(fā)布 Vision Pro 的介紹中，提到了一個 12 毫秒把數(shù)字圖像顯示到屏幕的數(shù)值，但是并沒有詳細(xì)介紹究竟這個數(shù)值是轉(zhuǎn)換數(shù)字圖像的處理時間，還是包含了轉(zhuǎn)換圖像、疊加虛擬信息的全部時間。不論是哪一種，這個數(shù)值都是很驚人的，因?yàn)楫?dāng)前市面上所有的類似設(shè)備，延遲基本都在 100 毫秒上下。

微軟的 Hololens 號稱延遲可以做到 60 毫秒以下，但是它只是增強(qiáng)現(xiàn)實(shí)設(shè)備，光學(xué)透視節(jié)省了處理數(shù)字圖像的時間，而疊加信息的圖像通過類似抬頭顯示器的光路呈現(xiàn)，而這些圖像的像素比較低，最終觀看體驗(yàn)應(yīng)該不如 Vision Pro 的紙面數(shù)值。

這種種不同的方案和對設(shè)備性能的追求是因?yàn)樘摂M現(xiàn)實(shí)本質(zhì)是一種欺騙大腦的技術(shù)，但是大腦是人類智慧的核心，豈是這么容易好欺騙的，大腦總是能夠敏銳地意識到身體感官傳感器信號之間的誤差，然后拒絕正常工作。

最合理的虛擬現(xiàn)實(shí)技術(shù)一定是直接替換掉大腦所有的感官輸入，不過人類尚不知道有什么簡單的機(jī)電系統(tǒng)可以在不損傷人體的情況下代替掉耳石提供的運(yùn)動速度測量和肌肉感知到的運(yùn)動信息，也許未來我們會發(fā)展出直接替換掉大腦入口神經(jīng)鏈路上的信息的技術(shù)，但這個時代的人類對此沒有任何系統(tǒng)性的理解。“虛擬現(xiàn)實(shí)”在當(dāng)代不是一個準(zhǔn)確被實(shí)現(xiàn)的技術(shù)，也往往和增強(qiáng)現(xiàn)實(shí)技術(shù)和混合現(xiàn)實(shí)技術(shù)混淆。

因此，在逐漸發(fā)展之后，“虛擬現(xiàn)實(shí)”“增強(qiáng)現(xiàn)實(shí)”和“混合現(xiàn)實(shí)”三個概念開始變得非常相似，采用了類似的技術(shù)實(shí)現(xiàn)方式。用這三個概念作為相關(guān)的機(jī)電設(shè)備的分類方式并不準(zhǔn)確，普通消費(fèi)者感到迷惑、從業(yè)人士多有爭議�？赡苷且�?yàn)槿绱�，蘋果在發(fā)布會中只談到了 Vision Pro 是一臺“空間計(jì)算”（spatial computing）設(shè)備，而沒有強(qiáng)調(diào)它是一臺混合現(xiàn)實(shí)設(shè)備。

“空間計(jì)算”一詞更好地突出了這類顯示設(shè)備最大的技術(shù)難點(diǎn)：信息呈現(xiàn)需要考慮人與周圍環(huán)境物體的空間關(guān)系。我們已經(jīng)用了相當(dāng)多的篇幅討論為什么虛擬現(xiàn)實(shí)設(shè)備（從這里開始我們統(tǒng)稱它們?yōu)榭臻g計(jì)算設(shè)備）必須調(diào)整方案、優(yōu)化性能來保證人的大腦始終具備對自身空間狀態(tài)的認(rèn)知。

接下來，我們要著重介紹一下“信息呈現(xiàn)”環(huán)節(jié)中對空間關(guān)系的關(guān)注。有些時候簡單的架構(gòu)圖會讓人產(chǎn)生其中某些部件非常容易實(shí)現(xiàn)的錯覺，但其實(shí)空間計(jì)算設(shè)備最浩瀚的工程隱藏在這一個環(huán)節(jié)中。

簡單來說，就像我們看電影的時候經(jīng)常通過字幕獲得額外的信息一樣，空間計(jì)算設(shè)備也可以把一些信息直接像字幕那樣顯示在用戶的視野中的固定位置。但是，我們的大腦很聰明也很蠢，如果視野中出現(xiàn)了很多字，而我們又在認(rèn)真讀這些字，視覺系統(tǒng)就會開始把這些字當(dāng)作是環(huán)境中的物體并通過它們來估計(jì)自身的運(yùn)動信息，而它們是相對視野靜止的于是又要頭暈了。

更妥當(dāng)?shù)霓k法是把信息呈現(xiàn)在環(huán)境物體之間，讓可視化的信息看起來是環(huán)境的一部分。比如用戶在視野中看到一個人在說話，相對應(yīng)的語言翻譯顯示在這個人的胸口處，用戶稍微動一動頭，顯示的翻譯信息也跟著人運(yùn)動，看起來是固定在人的身體上，而不是固定在自己眼前的屏幕上。

為了實(shí)現(xiàn)這個功能，“信息呈現(xiàn)”部分中其實(shí)發(fā)生了下面這樣一些子環(huán)節(jié)：空間計(jì)算設(shè)備計(jì)算出自身在空間中的位置、設(shè)備計(jì)算出另一個人在空間中的位置、收集語音信息并翻譯、把翻譯語句可視化并虛擬出一個字句的圖形、把文字圖形調(diào)整在合適的三維空間位置并渲染出二維圖像、把圖像疊加在環(huán)境的數(shù)字圖像上然后顯示在用戶的視野中。

實(shí)現(xiàn)這些子環(huán)節(jié)涉及到的技術(shù)各有千秋，橫跨計(jì)算機(jī)視覺、深度學(xué)習(xí)、自然語言處理、機(jī)器人學(xué)等不同工程和科學(xué)領(lǐng)域。更重要的是，所有這些子環(huán)節(jié)運(yùn)行的時間要求非常嚴(yán)格，如果用戶看到的圖像不能延遲超過 60 毫秒，那么每一個子環(huán)節(jié)都只能分配到幾十毫秒甚至不到十毫秒的時間。

下面的架構(gòu)圖是筆者根據(jù)已有的技術(shù)構(gòu)思的子環(huán)節(jié)關(guān)系和各個環(huán)節(jié)的延遲要求，它可能與 Vision Pro 實(shí)際的情況有差別（設(shè)備整體輸入輸出的總延遲數(shù)值究竟是多少在發(fā)布會中沒有明確，實(shí)時語音翻譯也不是他們展示的功能），但是足夠說明空間計(jì)算設(shè)備的復(fù)雜和對實(shí)時計(jì)算的嚴(yán)苛程度。

（來源：楊碩）

其中，實(shí)時語音識別和翻譯是自然語言處理領(lǐng)域的“圣杯”，今年開始通過大語言模型我們終于窺見了這種技術(shù)的曙光，但是怎么能在 50ms 或者更短的時間內(nèi)做到實(shí)時的翻譯和呈現(xiàn)還是很有技術(shù)挑戰(zhàn)性。在有些應(yīng)用場景下，即使翻譯和顯示語句慢一點(diǎn)可能也不會太影響用戶體驗(yàn)，所以我們可能不需要追求這種技術(shù)的極致。

通過實(shí)時定位與地圖重建技術(shù)（Simultanous Localization And Mapping）進(jìn)行傳感器融合，進(jìn)而確定設(shè)備和環(huán)境物體的空間位置是過去二十年機(jī)器人學(xué)領(lǐng)域最蓬勃發(fā)展的一個課題，相關(guān)的技術(shù)業(yè)已成熟，難點(diǎn)同樣在于如何優(yōu)化算法減少時間消耗。

這個環(huán)節(jié)的時間消耗是整體系統(tǒng)的性能瓶頸，因?yàn)榭臻g計(jì)算設(shè)備的體驗(yàn)來自于呈現(xiàn)的信息融入環(huán)境的融洽程度，因此每一毫秒的延遲縮減都能提高設(shè)備的使用體驗(yàn)。當(dāng)然，每一毫秒的延遲縮減也需要從硬件到軟件不同層面巨量的工程投入：采用更好的傳感器和處理器硬件、盡可能使用并行計(jì)算處理傳感器數(shù)據(jù)、盡量利用融合算法中出現(xiàn)的矩陣的稀疏性、使用優(yōu)化的匯編語言編寫矩陣計(jì)算的數(shù)學(xué)庫……

發(fā)布會中展示的 R1 芯片可能就是專門負(fù)責(zé)這些子環(huán)節(jié)的芯片，它就像是一個站在奔流的大河邊的漁夫試圖在幾十毫秒內(nèi)數(shù)清自己面前經(jīng)過了多少條魚一般，從多路相機(jī)、激光雷達(dá)、慣性導(dǎo)航元件的信息洪流中總結(jié)出自身和環(huán)境物體的空間信息。

這個架構(gòu)圖并沒有涉及 Vision Pro 的手勢識別和眼動追蹤功能，這兩個交互性的功能并不影響系統(tǒng)整體的空間計(jì)算性能，屬于錦上添花。但是能夠在滿足空間計(jì)算的大計(jì)算量需求之外還能塞入這兩個功能，足見 Vision Pro 硬件性能的強(qiáng)大。

回到我們開頭所說的人們對“增強(qiáng)現(xiàn)實(shí)”的美好幻想，Vision Pro 達(dá)到我們的美好幻想了嗎？遠(yuǎn)遠(yuǎn)沒有。我們腦海中想要的的增強(qiáng)現(xiàn)實(shí)應(yīng)該一毫秒延遲都沒有（60 毫秒或者 12 毫秒聽起來可太差了）、毫不笨重（而不是一大坨戴在頭上的金屬）、戴上可以用一整天（而不是在懷里揣著電池才只能用兩小時）。

但是，它是走向未來的關(guān)鍵一步，我們確信沿著這條路走下去，繼續(xù)一毫秒一毫秒地減少延遲，同時繼續(xù)減少設(shè)備的發(fā)熱、重量、成本，我們總會到達(dá)增強(qiáng)現(xiàn)實(shí)技術(shù)的極致。

八十年前，面對占地超過一個籃球場的電腦的科學(xué)家可能想象不到，幾十年后性能更強(qiáng)的電腦可以方便地揣進(jìn)人的口袋；同樣地，三十年后比 Vision Pro 性能更好的空間計(jì)算設(shè)備可以作為隱形眼鏡佩戴并不是癡人說夢。我們正在這條路的起點(diǎn)。

空間計(jì)算可以做什么？

Vision Pro 并不完美，但是低延遲、高分辨率、兩小時續(xù)航以及一些試用者對重量的良好反饋都讓人感覺非常樂觀。但是，和虛擬現(xiàn)實(shí)相關(guān)的熱潮在過去十年中幾次高漲又幾次衰退，這些年中我們經(jīng)歷了太多的新設(shè)備的誕生，也經(jīng)歷了太多戴完這類設(shè)備之后的頭暈?zāi)X脹，這一次我們又是虛假的樂觀嗎？

在討論我們可以用 Vision Pro 做什么之前，我想先講一位朋友的故事。我對空間計(jì)算技術(shù)的思考大多來自他的幫助。

2014 年，我隨大疆的團(tuán)隊(duì)拜訪硅谷的公司和投資人，行程期間突然有一位人人網(wǎng)的朋友聯(lián)系我希望我去他的車庫看看。一向樂于結(jié)交工程師的我和這位叫 Amber 的朋友約在斯坦福購物中心的蘋果店見面，然后他帶我驅(qū)車去向硅谷房價最貴的富人區(qū)阿瑟頓這個區(qū)一棟豪宅的主人把車庫租給了他說是車庫但是車庫附帶一套傭人住的套間，比一般人的家都大。在那里我看到 Amber 在早期的 HTC Vive 開發(fā)者版本上開發(fā)的一些虛擬現(xiàn)實(shí)應(yīng)用。第一次進(jìn)入虛擬世界的我每隔十分鐘就會頭昏腦脹得難受，必須停下來躺在地上讓大腦重新把傳感器們配準(zhǔn)。但是，在大腦不出問題的間隙中，我還是能感受到虛擬現(xiàn)實(shí)的壯麗。

直到我玩了一陣子虛擬現(xiàn)實(shí)以后，才坐下來和 Amber 好好聊天。我才知道他畢業(yè)于清華姚班，本科期間在香港科技大學(xué)跟著名計(jì)算機(jī)科學(xué)家楊強(qiáng)教授做科研，在斯坦福大學(xué)讀完計(jì)算機(jī)碩士之后并不想安于在大科技公司打工，而是想創(chuàng)業(yè)探索虛擬現(xiàn)實(shí)和數(shù)字媒體藝術(shù)。多年以后再回想起來我總覺得認(rèn)識 Amber 的經(jīng)歷非常超現(xiàn)實(shí)，Amber 自己也覺得很超現(xiàn)實(shí)，畢竟不是每個人都有機(jī)會在青年時期住在硅谷的核心地區(qū)的豪宅車庫里。此后的多年里，每次有機(jī)會到硅谷我總會去 Amber 的車庫做客。

2015 年我開始與 Amber 合作開發(fā)結(jié)合四旋翼飛行器的虛擬現(xiàn)實(shí)應(yīng)用。我在大疆工作的早期參與了 DJI SDK 的開發(fā)，通過 DJI SDK 用戶可以編程控制四旋翼飛行器在空中的位置和相機(jī)朝向角度等行為。2016 年，Amber 的公司公布了一款基于 DJI SDK 開發(fā)的應(yīng)用叫做 Skywand，它的想法非�？幔汉芏鄷r候我們在規(guī)劃飛行器航線之前缺乏對航線上飛行器會看到什么東西的直觀理解。

為了解決這個問題，可以先用 Google Earth 的航拍數(shù)據(jù)構(gòu)建和現(xiàn)實(shí)世界一樣的虛擬世界，然后在數(shù)字世界里規(guī)劃和預(yù)覽飛行器的航線，通過虛擬現(xiàn)實(shí)頭顯設(shè)備來從空中查看航線非常直觀（除了隔一陣子要停下來從頭暈中恢復(fù)）。航線規(guī)劃完成后，接著把航線發(fā)送給飛行器，真實(shí)世界中的飛行器可以啟動一個航線任務(wù)，在現(xiàn)實(shí)空間中飛過一模一樣的航線。這項(xiàng)技術(shù)非常適合電影拍攝時重復(fù)執(zhí)行相同的航拍鏡頭。

（來源：Skywand）

Skywand 想法很好，但是它必須適配特定版本的 HTC Vive 虛擬現(xiàn)實(shí)設(shè)備和改裝的 DJI Inspire 飛行器，這使得軟件對硬件的兼容性非常難維持。此后一年多，在 HTC 和 DJI 各種進(jìn)行了硬件迭代之后，繼續(xù)維護(hù) Skywand 變得非常困難。

另外，虛擬現(xiàn)實(shí)的頭暈問題也限制了它能夠給航拍帶來的生產(chǎn)力提升。這讓我們相信虛擬現(xiàn)實(shí)更準(zhǔn)確地說是我們前面討論的這種拙劣的版本本身的上限很低。讓用戶還是看到環(huán)境光線的增強(qiáng)現(xiàn)實(shí)或者混合現(xiàn)實(shí)技術(shù)才更加有用。

2017 年，恰逢蘋果推出了 ARKit 功能，Amber 開始探索如何結(jié)合 ARKit 低成本地實(shí)現(xiàn)增強(qiáng)現(xiàn)實(shí)技術(shù)，并且希望能在增強(qiáng)現(xiàn)實(shí)眼鏡成熟之前，提供一種低成本的替代品用于實(shí)驗(yàn)和研究，于是他發(fā)明出了 HoloKit 這款設(shè)備。

（來源：楊碩）

Holokit 是一款便宜又巧妙的增強(qiáng)現(xiàn)實(shí)設(shè)備，售價僅僅 129 美金。它本身只有一套實(shí)現(xiàn)光學(xué)透視的鏡片組，同樣用抬頭顯示器的原理把安裝至其中的 iPhone 手機(jī)屏幕圖像疊加在用戶看到的環(huán)境光線中，原理雖然很簡單，但呈現(xiàn)效果和昂貴的 Hololens 非常類似，有 60 多度的視場角度，所有的空間計(jì)算都依托蘋果手機(jī)的 ARKit。

Amber 用了多年的時間自己摸清了深圳的消費(fèi)電子供應(yīng)鏈，實(shí)現(xiàn)了 Holokit 的量產(chǎn)。Amber 偶爾會找我討論我們可以用 Holokit 做什么，由于他對數(shù)字媒體藝術(shù)的熱情，他更多關(guān)注的是此類設(shè)備的多人游戲?qū)傩?(Co-presence)，以及通過虛擬的場景和現(xiàn)實(shí)場景的結(jié)合來展示藝術(shù)。比如在 Holokit 上最令人印象深刻的演示是下面這個視頻所展示的多人協(xié)作和龍戰(zhàn)斗的場景，這個展示剛剛在人機(jī)交互頂級會議 CHI2023 上拿到最佳演示獎：

（來源：Holokit）

在這個演示中，多個玩家和一名觀察者都身處紐約市的 World Trade Center，所有人帶上 Holokit 進(jìn)入到一個相同的虛擬游戲空間中，這個空間里有一條飛龍。玩家們手上佩戴蘋果手表，手表內(nèi)內(nèi)置運(yùn)動感應(yīng)元件，手表通過藍(lán)牙和手機(jī)連接，這樣當(dāng)他們揮動手臂時就可以像用魔杖發(fā)射咒語一般攻擊龍。

玩家被龍攻擊時，可以通過左右跑動來躲開龍焰。這個演示極好地利用了低成本空間計(jì)算設(shè)備的優(yōu)勢并避免了劣勢在巨大的開闊空間里用戶主要通過光學(xué)透視看清周圍環(huán)境，所以不容易產(chǎn)生眩暈。手機(jī)的性能有限，龍的定位有一定的延時，但是由于環(huán)境開闊，延遲不會太影響體驗(yàn)；延遲影響了發(fā)射咒語的方向精度，但這反而增加了游戲的隨機(jī)性和趣味性。

(來源：Holokit)

Holokit 高度依托于蘋果手機(jī)的生態(tài)，確實(shí)在誕生之初也得到了蘋果的關(guān)注。在 Amber 基于 Holokit 做出一些演示之后不久，2018 年開始蘋果公司有團(tuán)隊(duì)與他接觸，想要把 Holokit 打造成蘋果 ARkit 生態(tài)中重要的開發(fā)者的實(shí)驗(yàn)平臺。后來因?yàn)橐咔榈确N種原因，這項(xiàng)合作沒能繼續(xù)進(jìn)行下去，非常可惜。在蘋果公司內(nèi)部有多個空間計(jì)算項(xiàng)目和計(jì)劃在運(yùn)作，有的項(xiàng)目組希望推動 Holokit 這樣低成本、以 iPhone 為中心的組合式平臺。

有的項(xiàng)目組希望推動 Vision Pro 這樣從軟件到硬件都重頭打造，一起共同優(yōu)化的全新項(xiàng)目。現(xiàn)在看來最后蘋果公司高層決定了巨額投入全新的空間計(jì)算平臺開發(fā)，這樣的決定可謂是極有魄力。但就像我們在上一節(jié)分析的那樣，iPhone 的 ARkit 再加上 Holokit 是一個非常好的方案，但是手機(jī)的硬件設(shè)計(jì)為實(shí)現(xiàn)其他的通用功能做出了妥協(xié)，所以它不是一個專門為空間計(jì)算打造的設(shè)備，只有項(xiàng)目組自身能夠?qū)︓浖陀布嬲莆�，設(shè)計(jì)專用的硬件系統(tǒng)全力支持空間計(jì)算軟件的性能，一毫秒一毫秒地?fù)赶到y(tǒng)的性能，才能把空間計(jì)算技術(shù)推到極致。

在 Vision Pro 發(fā)布之后，Holokit 依然有不小的優(yōu)勢可以與之互補(bǔ)。一方面它很便宜，另一方面 HoloKit 相對于其他獨(dú)立的混合顯示設(shè)備又能利用目前 Apple iPhone 的軟件和硬件體系（如 ARKit 和 LiDAR)。這樣的價格和適配性更加適合 Amber 研究的多人 AR 互動場景（因?yàn)槟壳坝?VisionPro 玩 3-4 人的 AR 游戲，買設(shè)備一共都要投入上萬美金）。另外，Vision Pro 的開發(fā)環(huán)境可能會和 ARkit 有相關(guān)性，Holokit 可能可以為 Vision Pro 上的應(yīng)用做低成本驗(yàn)證。不論如何，Amber 和他的 Holokit 是空間計(jì)算技術(shù)的先行者，他們開拓和啟發(fā)了這項(xiàng)技術(shù)的種種可能性。

Amber 第一次把他和同伴在紐約 World Trade Center 多人打龍的視頻發(fā)給我的時候，我正在匹茲堡蕭瑟的莫農(nóng)加希拉河南岸找加油站，銹帶區(qū)的城鎮(zhèn)夜晚人煙稀少，我停在加油站看他發(fā)來的視頻，贊嘆于 World Trade Center 本就恢弘的內(nèi)部空間被這個游戲襯托得更加宏偉。心想如果在加油站空曠的場地上玩這個游戲，可能這個荒涼的地方會顯得更有生機(jī)一些。這讓我進(jìn)一步意識到，空間計(jì)算應(yīng)用喚起人們對空間的認(rèn)知，本質(zhì)上是在響應(yīng)人們量化世界的本能。

打龍的空間計(jì)算游戲讓我們認(rèn)識一個大尺度空曠空間具有的價值，并且獲得改造它的途徑。在更微觀和精細(xì)一些的層面上，空間計(jì)算設(shè)備也可以幫助我們丈量空間，獲得空間可以如何被應(yīng)用的信息。比如說 ARkit 最受歡迎的一些應(yīng)用包括宜家和亞馬遜網(wǎng)站上把家具實(shí)時放入家中的功能：

因此，我覺得思考空間計(jì)算設(shè)備的用處時，一定要從我們最本能的獲取信息和量化世界的需求出發(fā)。玩游戲、看電影、打電話等已有的一些混合現(xiàn)實(shí)應(yīng)用并沒有直接去滿足我們的這些需求，或者說和已有的其他設(shè)備的功能有重疊，并沒有凸顯空間計(jì)算設(shè)備獲取信息和量化世界的優(yōu)勢。頭戴式的空間計(jì)算設(shè)備解放了雙手，呈現(xiàn)的信息能夠幫助我們更好地量化世界。有哪些人類日常的行為是需要雙手操作空間中的物體的同時，需要大量的關(guān)于空間的新信息來提高工作效率的呢？從這個思路出發(fā)我們能夠想到許多嶄新的 Vision Pro 提供的應(yīng)用場景：

第一個，藝術(shù)和設(shè)計(jì)創(chuàng)作者的效率提升。比如畫家可以通過空間計(jì)算設(shè)備在自己的畫布上呈現(xiàn)輔助線和線稿、蛋糕師可以在自己的蛋糕坯上疊加蛋糕花樣的設(shè)計(jì)思路、陶藝制作者可以看到自己的物件的尺寸和外形、插花師可以獲得插花的建議。家居空間設(shè)計(jì)師可以和客戶一起在毛坯房里預(yù)覽設(shè)計(jì)的實(shí)際空間感并討論改進(jìn)意見、電影導(dǎo)演可以和特效師在片場預(yù)覽增加特效后的場景并指揮演員和攝影師。所有這些輔助都可以幫助工作者在不停手的情況下獲得自己正在交互的空間中物體的額外信息。

第二個，機(jī)械、家具等物件組裝的效率提升。不管是專業(yè)還是非專業(yè)人士，在組裝一些物件的時候經(jīng)常會感到煩惱，比如說宜家的家具，雖然會有詳細(xì)的說明書，但有的復(fù)雜家具里中會有非常相似、僅長度不同的螺絲，這種情況下，通過空間計(jì)算設(shè)備更好地呈現(xiàn)組裝說明、提示零件的長度、類型等信息可以大大提升組裝效率。這類組裝任務(wù)在家庭生活中大量出現(xiàn)，在工業(yè)生產(chǎn)中也無處不在，十分容易針對性進(jìn)行空間計(jì)算應(yīng)用的開發(fā)。

（來源：楊碩）

第三個，需要搜索和尋找的場景效率提升。比如圖書管理員需要在書架中尋找該歸還的書籍的位置，頭戴式空間計(jì)算設(shè)備可以大幅減少搜索耗時。

（來源：Pixabay）

同樣的需求也出現(xiàn)在商場貨架、滿是零件和工具的工作臺、放有大量文件的辦公桌等場景。在這些場景中，用戶通常身處一個固定的工作區(qū)域，可以把空間計(jì)算設(shè)備連接外部電源來保證長時間工作。影響長時間佩戴的負(fù)面因素可能是空間計(jì)算設(shè)備的重量會給頸椎額外的壓力，有消息說 Vision Pro 的重量不是特別理想，希望明年發(fā)布的量產(chǎn)版本可以進(jìn)一步優(yōu)化一些。

總結(jié)

我們在一波空間計(jì)算技術(shù)發(fā)展浪潮的起點(diǎn)，過往在虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)和混合現(xiàn)實(shí)技術(shù)領(lǐng)域開拓的先行者們已經(jīng)證明了相關(guān)技術(shù)的潛力，如今隨著蘋果 Vision Pro 的誕生，空間計(jì)算技術(shù)即將得到更大的發(fā)展和應(yīng)用。

空間計(jì)算如果能夠和逐漸成熟的深度學(xué)習(xí)技術(shù)以及大語言模型結(jié)合，將會給很多領(lǐng)域帶來革命，本文中談?wù)摰姆N種潛在應(yīng)用只是冰山一角，作者權(quán)當(dāng)拋磚引玉，未來等待廣大的開發(fā)者和用戶來創(chuàng)造。

作者簡介：楊碩，美國卡內(nèi)基梅隆大學(xué)在讀博士生，研究足式機(jī)器人的運(yùn)動控制和感知，即將加入 Tesla Optimus 人形機(jī)器人項(xiàng)目組任職高級控制工程師。曾在大疆創(chuàng)新領(lǐng)導(dǎo)開發(fā)智能導(dǎo)航算法、無人機(jī)平臺、RoboMaster 等項(xiàng)目。在 TRO、 RAL、 ICRA 和 IROS 等機(jī)器人學(xué)術(shù)雜志和會議發(fā)表論文多篇，擁有 5 項(xiàng)傳感器融合方面的美國發(fā)明專利。長期從事機(jī)器人技術(shù)科普與教學(xué)工作，在中文互聯(lián)網(wǎng)有較高知名度。