當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人物報(bào)道 > “AI教母”李飛飛揭秘創(chuàng)業(yè)方向：有了空間智能，AI將能夠理解現(xiàn)實(shí)世界

“AI教母”李飛飛揭秘創(chuàng)業(yè)方向：有了空間智能，AI將能夠理解現(xiàn)實(shí)世界
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-05-17 22:12:16 瀏覽：5525次

導(dǎo)讀：劃重點(diǎn) 1、李飛飛稱，空間智能將使機(jī)器高效處理視覺(jué)數(shù)據(jù)，精準(zhǔn)做出預(yù)測(cè)，并基于這些預(yù)測(cè)采取行動(dòng)。 2、李飛飛透露，他的團(tuán)隊(duì)曾開(kāi)發(fā)名為Walt的生成視頻模型，比OpenAI的Sora還要早幾個(gè)月問(wèn)世。 3、空間智能將賦予機(jī)器彼此互動(dòng)的能力，甚至還能與人類(lèi)互動(dòng)，與...

劃重點(diǎn)

1、李飛飛稱，空間智能將使機(jī)器高效處理視覺(jué)數(shù)據(jù)，精準(zhǔn)做出預(yù)測(cè)，并基于這些預(yù)測(cè)采取行動(dòng)。

2、李飛飛透露，他的團(tuán)隊(duì)曾開(kāi)發(fā)名為Walt的生成視頻模型，比OpenAI的Sora還要早幾個(gè)月問(wèn)世。

3、空間智能將賦予機(jī)器彼此互動(dòng)的能力，甚至還能與人類(lèi)互動(dòng)，與真實(shí)或虛擬的三維世界互動(dòng)。

科技新聞?dòng)嵧饷较⒎Q，知名計(jì)算機(jī)科學(xué)家李飛飛正積極籌備一家初創(chuàng)企業(yè)，該企業(yè)旨在通過(guò)借鑒人類(lèi)視覺(jué)數(shù)據(jù)處理技術(shù)，賦予人工智能高級(jí)推理能力，此舉無(wú)疑將推動(dòng)該領(lǐng)域技術(shù)實(shí)現(xiàn)質(zhì)的飛躍。

作為人工智能領(lǐng)域的佼佼者，李飛飛開(kāi)創(chuàng)性的貢獻(xiàn)已得到業(yè)界的廣泛認(rèn)可。據(jù)知情人士透露，她已成功在近期種子輪融資中為公司吸引了大量資金。其中，硅谷知名風(fēng)險(xiǎn)投資公司AndreessenHorowitz以及她去年加入的加拿大科技投資公司RadicalVentures均位列投資者名單之中。

在近期公開(kāi)亮相的時(shí)候，李飛飛也避談她新的創(chuàng)業(yè)項(xiàng)目。外媒稱，在描述這家初創(chuàng)公司的愿景時(shí)，一位消息人士引用了李飛飛上個(gè)月在溫哥華TED大會(huì)上的精彩演講。在演講中，她詳細(xì)闡述了一種前沿算法，該算法能夠合理推斷圖像和文本在三維環(huán)境中的表現(xiàn)，并根據(jù)這些預(yù)測(cè)采取行動(dòng)。這一創(chuàng)新理念被業(yè)內(nèi)專家譽(yù)為“空間智能”。

近日，李飛飛在X上放出來(lái)她在TED上的這段演講。

在宇宙誕生的初始階段，無(wú)盡的黑暗籠罩著一切，直至首批生物逐步演化出了視力，那一刻，生命的光輝得以綻放。如今，李飛飛預(yù)言，一個(gè)類(lèi)似的轉(zhuǎn)折點(diǎn)即將在計(jì)算機(jī)與機(jī)器人領(lǐng)域上演。

在演講中，李飛飛詳細(xì)闡述了機(jī)器將如何逐步獲得所謂的“空間智能”，這一能力使得機(jī)器能夠高效地處理復(fù)雜的視覺(jué)數(shù)據(jù)，精準(zhǔn)地做出預(yù)測(cè)，并基于這些預(yù)測(cè)迅速采取行動(dòng)。此外，她還預(yù)判了這一突破性進(jìn)展將如何改變?nèi)斯ぶ悄茉诂F(xiàn)實(shí)世界中與人類(lèi)交互的方式。

以下為李飛飛演講全文：

首先，讓我為你們描繪一個(gè)畫(huà)面。準(zhǔn)確地說(shuō)，我并非要向你們展示任何具體的畫(huà)面，而是帶你們回到5.4億年前的世界。那是一個(gè)純粹而深邃的黑暗世界。由于光線微弱，天空并非呈現(xiàn)我們所熟悉的黑色。而由于視覺(jué)的缺失，使得周?chē)囊磺酗@得如此漆黑。

盡管陽(yáng)光可以穿透到海面下1000多米的地方，再?gòu)臒崛谡障蚝５�，那里充滿了生命，但在這古老的海水中，卻沒(méi)有一只眼睛去捕捉這些光影。沒(méi)有視網(wǎng)膜，沒(méi)有角膜，沒(méi)有晶狀體，所有的光和生命都隱匿在未知的黑暗中。那時(shí)，視覺(jué)這一概念尚未成形，前無(wú)古人，未有來(lái)者。直到那個(gè)特殊的時(shí)刻到來(lái)。

由于一些我們剛剛開(kāi)始理解的原因，三葉蟲(chóng)，這些最早能夠感知光線的生物，開(kāi)始在這片古老的海洋中嶄露頭角。它們成為了我們今日所熟知現(xiàn)實(shí)世界的首批居民，首次發(fā)現(xiàn)了除了自己之外，還有一個(gè)充滿無(wú)數(shù)生命的世界。

人們普遍認(rèn)為，視覺(jué)能力的出現(xiàn)，是寒武紀(jì)生物大爆發(fā)的關(guān)鍵所在。在這一時(shí)期，各種動(dòng)物物種如雨后春筍般涌現(xiàn)。最初，視覺(jué)只是一種被動(dòng)的體驗(yàn)，一種簡(jiǎn)單的讓光線進(jìn)入感知的過(guò)程，但隨著時(shí)間的推移，它逐漸變成為主動(dòng)技能。神經(jīng)系統(tǒng)開(kāi)始進(jìn)化，視覺(jué)不僅僅用于感知，更成為了理解和行動(dòng)的源泉。這一切都推動(dòng)了智慧的誕生。

如今，我們不再滿足于大自然賦予我們的視覺(jué)智能，好奇心驅(qū)使著我們創(chuàng)造出與我們一樣聰明的機(jī)器。

九年前，在這個(gè)舞臺(tái)上，我發(fā)表了一份關(guān)于計(jì)算機(jī)視覺(jué)的早期進(jìn)展報(bào)告，這是人工智能領(lǐng)域的一個(gè)重要分支。當(dāng)時(shí)，三股強(qiáng)大的力量首次匯聚一堂。一種被稱為神經(jīng)網(wǎng)絡(luò)的算法，一種被稱為圖形處理單元的專用硬件，以及龐大的數(shù)據(jù)集，如我的實(shí)驗(yàn)室數(shù)年來(lái)整理的1500萬(wàn)張圖片，被稱為ImageNet。這三者的結(jié)合，共同開(kāi)啟了現(xiàn)代人工智能的新紀(jì)元。

我們確實(shí)已經(jīng)跨越了漫漫長(zhǎng)路。曾幾何時(shí)，僅僅是給圖片加上標(biāo)簽便被視為一次巨大的飛躍。然而，這些算法的速度和準(zhǔn)確性都在以驚人的速度提升。我領(lǐng)導(dǎo)的實(shí)驗(yàn)室所主辦的ImageNet年度挑戰(zhàn)賽，正是這一進(jìn)步的鮮明寫(xiě)照。

在此圖表中，你們可以清晰地觀察到每年的改進(jìn)以及那些具有里程碑意義的模型。我的學(xué)生和合作者們更是在這些工作的基礎(chǔ)上更進(jìn)一步，他們創(chuàng)造了能夠精準(zhǔn)分割物體，甚至預(yù)測(cè)物體間動(dòng)態(tài)關(guān)系的先進(jìn)算法。

然而，這僅僅是冰山一角。記得上次我向你們展示的，那個(gè)能夠用人類(lèi)自然語(yǔ)言描述照片內(nèi)容的計(jì)算機(jī)視覺(jué)算法嗎？那是我與我的學(xué)生安德烈卡爾帕西（AndrejKarpathy）共同努力的成果。

當(dāng)時(shí)，我半開(kāi)玩笑地問(wèn)他：“安德烈，我們能讓電腦做相反的事嗎？”他笑著回答：“哈哈，那簡(jiǎn)直不可能。”但正如今天所見(jiàn)到的樣子，不可能最終變?yōu)榱丝赡�。這得益于一系列擴(kuò)散模型的突破，它們?yōu)楫?dāng)今的生成式人工智能算法注入了強(qiáng)大動(dòng)力，使得這些算法能夠?qū)⑷祟?lèi)的提示轉(zhuǎn)化為圖片和視頻。

你們中的許多人或許已經(jīng)見(jiàn)證了OpenAI最近推出的Sora的驚艷表現(xiàn)。但值得一提的是，即便沒(méi)有龐大的GPU資源支持，我的學(xué)生和我們的合作者們依然成功開(kāi)發(fā)了一個(gè)名為Walt的生成視頻模型，它比Sora還要早幾個(gè)月問(wèn)世。

你們可以看到其中的一些初步成果，盡管仍有改進(jìn)的空間。舉例來(lái)說(shuō)，看看那只貓的眼睛，它在波浪下的模樣，顯然有些失真，像是從未被水打濕過(guò)一般。這確實(shí)是一個(gè)需要我們進(jìn)一步優(yōu)化的地方。

若以過(guò)去為序幕，我們將從這些錯(cuò)誤中汲取寶貴的教訓(xùn)，共同創(chuàng)造一個(gè)我們夢(mèng)寐以求的未來(lái)。在這個(gè)未來(lái)，我們期待人工智能能夠?yàn)槲覀兺瓿伤瞄L(zhǎng)的一切，或是成為我們得力的助手。

多年來(lái)，我一直強(qiáng)調(diào)拍照與觀看、理解之間存在顯著差異。而今天，我想再補(bǔ)充一點(diǎn)：僅僅觀看是遠(yuǎn)遠(yuǎn)不夠的。觀看是為了行動(dòng)，為了學(xué)習(xí)。當(dāng)我們?cè)谶@個(gè)三維空間和時(shí)間交織的世界中采取行動(dòng)時(shí)，我們不斷學(xué)習(xí)，我們學(xué)會(huì)如何更深入地觀察，如何更有效地行動(dòng)。大自然為我們樹(shù)立了榜樣，它創(chuàng)造了一個(gè)由“空間智能”驅(qū)動(dòng)的良性循環(huán)，將觀察與行動(dòng)緊密相連。

為了更具體地闡述空間智能在日常生活中的作用，請(qǐng)仔細(xì)觀察這張圖。當(dāng)你準(zhǔn)備采取行動(dòng)時(shí)，請(qǐng)舉手示意。就在那一刻，你的大腦迅速捕捉到了這個(gè)杯子的幾何形狀，它在三維空間中的精確位置，以及它與桌子、貓和其他物體的相互關(guān)系。這種瞬間的分析能力讓你能夠預(yù)測(cè)接下來(lái)可能發(fā)生的事情。這種行動(dòng)的沖動(dòng)，是所有具備空間智能的生物與生俱來(lái)的本能，它將我們的感知與行動(dòng)緊密相連。

若想推動(dòng)人工智能超越其現(xiàn)有的界限，我們所追求的不再是僅限于視覺(jué)識(shí)別和語(yǔ)言交流的智能體。我們渴望的是那些能夠行動(dòng)的人工智能，能夠主動(dòng)介入并與我們生活的世界互動(dòng)。

確實(shí)，我們正在取得令人興奮的進(jìn)展。在空間智能領(lǐng)域，最近的里程碑便是教會(huì)計(jì)算機(jī)觀察、學(xué)習(xí)、行動(dòng)，并在實(shí)踐中不斷提高其觀察能力。這并非易事。大自然歷經(jīng)數(shù)百萬(wàn)年的進(jìn)化才賦予了生物空間智能，它依賴于眼睛接收光線，在視網(wǎng)膜上形成二維圖像，隨后大腦將這些數(shù)據(jù)轉(zhuǎn)化為三維信息。直到最近，谷歌的一組研究人員才開(kāi)發(fā)出一種算法，能夠通過(guò)拍攝一系列照片，將它們轉(zhuǎn)化為三維空間模型，就像我們?cè)谶@里所展示的例子一樣。

我的學(xué)生和我們的合作者們更進(jìn)一步，他們創(chuàng)造了一種算法，能夠?qū)⑤斎氲亩S圖像轉(zhuǎn)換成三維形狀。這里有更多的實(shí)例供你們參考。

回想一下，我們之前討論過(guò)計(jì)算機(jī)程序如何將人類(lèi)的文字提示轉(zhuǎn)化為視頻�，F(xiàn)在，密歇根大學(xué)的一組研究人員已經(jīng)找到了一種方法，可以將簡(jiǎn)單的文字描述轉(zhuǎn)化為三維房間的布局，就像這里所展示的這樣。與此同時(shí)，我在斯坦福大學(xué)的同事們及其學(xué)生也已經(jīng)開(kāi)發(fā)了一種算法，僅憑一張圖像便能生成無(wú)限逼真、可供觀眾探索的三維空間。

這些進(jìn)展只是未來(lái)可能性的初步跡象，它們?yōu)槲覀兘沂玖艘粋€(gè)嶄新的世界。在這個(gè)世界中，人類(lèi)可以將整個(gè)現(xiàn)實(shí)世界轉(zhuǎn)化為數(shù)字形式，并對(duì)其豐富性和細(xì)微差別進(jìn)行建模。大自然在我們個(gè)人的意識(shí)中悄無(wú)聲息地完成了這一壯舉，而空間智能技術(shù)有望為我們的集體意識(shí)帶來(lái)同樣的變革。

隨著空間智能技術(shù)的飛速發(fā)展，一個(gè)良性循環(huán)的新時(shí)代正在我們眼前展開(kāi)。這種反復(fù)循環(huán)的過(guò)程將極大地促進(jìn)機(jī)器人的學(xué)習(xí)，這對(duì)于任何需要理解三維世界并與之互動(dòng)的智能系統(tǒng)來(lái)說(shuō)都是至關(guān)重要的組成部分。

十年前，我的實(shí)驗(yàn)室通過(guò)啟用ImageNet數(shù)據(jù)庫(kù)，引入了一個(gè)包含數(shù)百萬(wàn)張高質(zhì)量照片的龐大資源，為訓(xùn)練計(jì)算機(jī)的識(shí)別能力奠定了堅(jiān)實(shí)的基矗如今，我們采用類(lèi)似的方法，但目標(biāo)已經(jīng)轉(zhuǎn)向訓(xùn)練計(jì)算機(jī)和機(jī)器人在三維世界中的行為和動(dòng)作。不過(guò)，這次我們不再局限于收集靜態(tài)圖像，而是著手開(kāi)發(fā)由三維空間模型驅(qū)動(dòng)的模擬環(huán)境，這樣計(jì)算機(jī)就能擁有無(wú)限多種學(xué)習(xí)行動(dòng)的可能性。在我實(shí)驗(yàn)室領(lǐng)導(dǎo)的一項(xiàng)名為“Behavior”的開(kāi)創(chuàng)性項(xiàng)目中，你們所見(jiàn)的僅僅是教導(dǎo)我們機(jī)器人的一小部分例子。

在機(jī)器人語(yǔ)言智能領(lǐng)域，我們也取得了令人矚目的進(jìn)展。借助基于語(yǔ)言模型的大型輸入，我的學(xué)生和我們的合作者成功展示了機(jī)械臂如何根據(jù)口頭指令執(zhí)行多種任務(wù)，比如打開(kāi)抽屜、拔掉手機(jī)充電插頭，甚至是用面包、生菜和西紅柿制作三明治，并貼心地為使用者放置一張餐巾。盡管我總是希望在三明治里多加一些配料，但這無(wú)疑是一個(gè)良好的開(kāi)端。

回溯到生命起源的海洋，在遙遠(yuǎn)的古代，生物通過(guò)感知和觀察環(huán)境的能力，開(kāi)啟了與其他生命形式互動(dòng)的寒武紀(jì)大爆發(fā)。今天，這束照亮生命起源的光束已經(jīng)觸及了數(shù)字思維的領(lǐng)域�？臻g智能賦予了機(jī)器與彼此互動(dòng)的能力，更重要的是，它們還能與人類(lèi)互動(dòng)，與真實(shí)或虛擬的三維世界互動(dòng)。隨著這樣的未來(lái)逐漸成形，它將對(duì)許多人的生活產(chǎn)生深遠(yuǎn)的影響。

以醫(yī)療保健為例，過(guò)去的十年里，我的實(shí)驗(yàn)室在利用人工智能解決影響患者結(jié)果和醫(yī)務(wù)人員倦怠的挑戰(zhàn)方面，已經(jīng)邁出了初步的嘗試。我們與斯坦福醫(yī)學(xué)院緊密合作，正在試驗(yàn)智能傳感器，這些傳感器能夠檢測(cè)臨床醫(yī)生進(jìn)入病房前是否正確洗手，或者記錄手術(shù)器械的使用情況，甚至在病人面臨身體危險(xiǎn)（如摔倒）時(shí)及時(shí)提醒護(hù)理團(tuán)隊(duì)。我們認(rèn)為這些技術(shù)是一種環(huán)境智能，它們?nèi)缤嗔艘浑p眼睛，確實(shí)能夠在醫(yī)療保健領(lǐng)域產(chǎn)生積極的影響。然而，我期望我們的病人、臨床醫(yī)生和護(hù)理人員能夠得到更多互動(dòng)的幫助，他們同樣迫切需要一雙額外的手。想象一下，一個(gè)自動(dòng)化機(jī)器人負(fù)責(zé)運(yùn)輸醫(yī)療用品，而護(hù)理人員則能專注于照顧病人�；蛘咄ㄟ^(guò)增強(qiáng)現(xiàn)實(shí)技術(shù)，引導(dǎo)外科醫(yī)生進(jìn)行更安全、更快速、侵入性更小的手術(shù)。

想象一下，那些嚴(yán)重癱瘓的病人僅憑思想便能控制機(jī)器人。是的，通過(guò)解讀腦電波，他們能夠完成我們?nèi)粘Ｖ辛?xí)以為常的任務(wù)。在我實(shí)驗(yàn)室最近進(jìn)行的初步研究中，你們已經(jīng)窺見(jiàn)了這一未來(lái)的面貌。在這段視頻中，機(jī)械臂正在烹飪?nèi)毡緣巯矡�，而它的每一個(gè)動(dòng)作，都僅由佩戴者通過(guò)腦電圖帽非侵入性地收集的腦電波來(lái)控制。

五億年前，視覺(jué)的出現(xiàn)如同一道曙光，照亮了一個(gè)原本黑暗的世界。它引領(lǐng)了生命史上最深刻的進(jìn)化過(guò)程，推動(dòng)了動(dòng)物世界智力的飛速發(fā)展。與此相似，人工智能在過(guò)去十年中的進(jìn)步同樣令人震驚。但在我看來(lái)，除非我們賦予計(jì)算機(jī)和機(jī)器人空間智能，否則數(shù)字寒武紀(jì)大爆發(fā)的全部潛力將不會(huì)完全實(shí)現(xiàn)，正如大自然為我們所有人所創(chuàng)造的那樣。

這是一個(gè)激動(dòng)人心的時(shí)刻，我們有機(jī)會(huì)教導(dǎo)我們的數(shù)字伴侶學(xué)習(xí)推理，并與我們稱之為家的美麗三維空間互動(dòng)。更進(jìn)一步，我們還能創(chuàng)造更多新世界，等待我們共同去探索。然而，實(shí)現(xiàn)這樣的未來(lái)并非易事，它要求我們所有人都采取深思熟慮的步驟，開(kāi)發(fā)出始終以人為中心的技術(shù)。

但只要我們做對(duì)了，由空間智能驅(qū)動(dòng)的計(jì)算機(jī)和機(jī)器人將不再僅僅是工具，它們將成為我們值得信賴的合作伙伴。在尊重我們的個(gè)人尊嚴(yán)和促進(jìn)我們的集體繁榮的同時(shí)，它們將提高和增強(qiáng)我們的生產(chǎn)力和人性。

最令我對(duì)未來(lái)感到興奮的是，人工智能將變得更有洞察力和空間意識(shí)。它們將加入我們的行列，一同追求以更好的方式創(chuàng)造一個(gè)更美好的世界。（編譯/金鹿）