展會(huì)信息港展會(huì)大全

“AI教母”李飛飛揭秘創(chuàng)業(yè)方向:有了空間智能,AI將能夠理解現(xiàn)實(shí)世界
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-05-17 22:12:16   瀏覽:5525次  

導(dǎo)讀:劃重點(diǎn) 1、李飛飛稱,空間智能將使機(jī)器高效處理視覺(jué)數(shù)據(jù),精準(zhǔn)做出預(yù)測(cè),并基于這些預(yù)測(cè)采取行動(dòng)。 2、李飛飛透露,他的團(tuán)隊(duì)曾開(kāi)發(fā)名為Walt的生成視頻模型,比OpenAI的Sora還要早幾個(gè)月問(wèn)世。 3、空間智能將賦予機(jī)器彼此互動(dòng)的能力,甚至還能與人類(lèi)互動(dòng),與...

劃重點(diǎn)

1、李飛飛稱,空間智能將使機(jī)器高效處理視覺(jué)數(shù)據(jù),精準(zhǔn)做出預(yù)測(cè),并基于這些預(yù)測(cè)采取行動(dòng)。

2、李飛飛透露,他的團(tuán)隊(duì)曾開(kāi)發(fā)名為Walt的生成視頻模型,比OpenAI的Sora還要早幾個(gè)月問(wèn)世。

3、空間智能將賦予機(jī)器彼此互動(dòng)的能力,甚至還能與人類(lèi)互動(dòng),與真實(shí)或虛擬的三維世界互動(dòng)。

科技新聞?dòng)嵧饷较⒎Q,知名計(jì)算機(jī)科學(xué)家李飛飛正積極籌備一家初創(chuàng)企業(yè),該企業(yè)旨在通過(guò)借鑒人類(lèi)視覺(jué)數(shù)據(jù)處理技術(shù),賦予人工智能高級(jí)推理能力,此舉無(wú)疑將推動(dòng)該領(lǐng)域技術(shù)實(shí)現(xiàn)質(zhì)的飛躍。

作為人工智能領(lǐng)域的佼佼者,李飛飛開(kāi)創(chuàng)性的貢獻(xiàn)已得到業(yè)界的廣泛認(rèn)可。據(jù)知情人士透露,她已成功在近期種子輪融資中為公司吸引了大量資金。其中,硅谷知名風(fēng)險(xiǎn)投資公司AndreessenHorowitz以及她去年加入的加拿大科技投資公司RadicalVentures均位列投資者名單之中。

在近期公開(kāi)亮相的時(shí)候,李飛飛也避談她新的創(chuàng)業(yè)項(xiàng)目。外媒稱,在描述這家初創(chuàng)公司的愿景時(shí),一位消息人士引用了李飛飛上個(gè)月在溫哥華TED大會(huì)上的精彩演講。在演講中,她詳細(xì)闡述了一種前沿算法,該算法能夠合理推斷圖像和文本在三維環(huán)境中的表現(xiàn),并根據(jù)這些預(yù)測(cè)采取行動(dòng)。這一創(chuàng)新理念被業(yè)內(nèi)專家譽(yù)為“空間智能”。

近日,李飛飛在X上放出來(lái)她在TED上的這段演講。

在宇宙誕生的初始階段,無(wú)盡的黑暗籠罩著一切,直至首批生物逐步演化出了視力,那一刻,生命的光輝得以綻放。如今,李飛飛預(yù)言,一個(gè)類(lèi)似的轉(zhuǎn)折點(diǎn)即將在計(jì)算機(jī)與機(jī)器人領(lǐng)域上演。

在演講中,李飛飛詳細(xì)闡述了機(jī)器將如何逐步獲得所謂的“空間智能”,這一能力使得機(jī)器能夠高效地處理復(fù)雜的視覺(jué)數(shù)據(jù),精準(zhǔn)地做出預(yù)測(cè),并基于這些預(yù)測(cè)迅速采取行動(dòng)。此外,她還預(yù)判了這一突破性進(jìn)展將如何改變?nèi)斯ぶ悄茉诂F(xiàn)實(shí)世界中與人類(lèi)交互的方式。

以下為李飛飛演講全文:

首先,讓我為你們描繪一個(gè)畫(huà)面。準(zhǔn)確地說(shuō),我并非要向你們展示任何具體的畫(huà)面,而是帶你們回到5.4億年前的世界。那是一個(gè)純粹而深邃的黑暗世界。由于光線微弱,天空并非呈現(xiàn)我們所熟悉的黑色。而由于視覺(jué)的缺失,使得周?chē)囊磺酗@得如此漆黑。

盡管陽(yáng)光可以穿透到海面下1000多米的地方,再?gòu)臒崛谡障蚝5,那里充滿了生命,但在這古老的海水中,卻沒(méi)有一只眼睛去捕捉這些光影。沒(méi)有視網(wǎng)膜,沒(méi)有角膜,沒(méi)有晶狀體,所有的光和生命都隱匿在未知的黑暗中。那時(shí),視覺(jué)這一概念尚未成形,前無(wú)古人,未有來(lái)者。直到那個(gè)特殊的時(shí)刻到來(lái)。

由于一些我們剛剛開(kāi)始理解的原因,三葉蟲(chóng),這些最早能夠感知光線的生物,開(kāi)始在這片古老的海洋中嶄露頭角。它們成為了我們今日所熟知現(xiàn)實(shí)世界的首批居民,首次發(fā)現(xiàn)了除了自己之外,還有一個(gè)充滿無(wú)數(shù)生命的世界。

人們普遍認(rèn)為,視覺(jué)能力的出現(xiàn),是寒武紀(jì)生物大爆發(fā)的關(guān)鍵所在。在這一時(shí)期,各種動(dòng)物物種如雨后春筍般涌現(xiàn)。最初,視覺(jué)只是一種被動(dòng)的體驗(yàn),一種簡(jiǎn)單的讓光線進(jìn)入感知的過(guò)程,但隨著時(shí)間的推移,它逐漸變成為主動(dòng)技能。神經(jīng)系統(tǒng)開(kāi)始進(jìn)化,視覺(jué)不僅僅用于感知,更成為了理解和行動(dòng)的源泉。這一切都推動(dòng)了智慧的誕生。

如今,我們不再滿足于大自然賦予我們的視覺(jué)智能,好奇心驅(qū)使著我們創(chuàng)造出與我們一樣聰明的機(jī)器。

九年前,在這個(gè)舞臺(tái)上,我發(fā)表了一份關(guān)于計(jì)算機(jī)視覺(jué)的早期進(jìn)展報(bào)告,這是人工智能領(lǐng)域的一個(gè)重要分支。當(dāng)時(shí),三股強(qiáng)大的力量首次匯聚一堂。一種被稱為神經(jīng)網(wǎng)絡(luò)的算法,一種被稱為圖形處理單元的專用硬件,以及龐大的數(shù)據(jù)集,如我的實(shí)驗(yàn)室數(shù)年來(lái)整理的1500萬(wàn)張圖片,被稱為ImageNet。這三者的結(jié)合,共同開(kāi)啟了現(xiàn)代人工智能的新紀(jì)元。

我們確實(shí)已經(jīng)跨越了漫漫長(zhǎng)路。曾幾何時(shí),僅僅是給圖片加上標(biāo)簽便被視為一次巨大的飛躍。然而,這些算法的速度和準(zhǔn)確性都在以驚人的速度提升。我領(lǐng)導(dǎo)的實(shí)驗(yàn)室所主辦的ImageNet年度挑戰(zhàn)賽,正是這一進(jìn)步的鮮明寫(xiě)照。

在此圖表中,你們可以清晰地觀察到每年的改進(jìn)以及那些具有里程碑意義的模型。我的學(xué)生和合作者們更是在這些工作的基礎(chǔ)上更進(jìn)一步,他們創(chuàng)造了能夠精準(zhǔn)分割物體,甚至預(yù)測(cè)物體間動(dòng)態(tài)關(guān)系的先進(jìn)算法。

然而,這僅僅是冰山一角。記得上次我向你們展示的,那個(gè)能夠用人類(lèi)自然語(yǔ)言描述照片內(nèi)容的計(jì)算機(jī)視覺(jué)算法嗎?那是我與我的學(xué)生安德烈卡爾帕西(AndrejKarpathy)共同努力的成果。

當(dāng)時(shí),我半開(kāi)玩笑地問(wèn)他:“安德烈,我們能讓電腦做相反的事嗎?”他笑著回答:“哈哈,那簡(jiǎn)直不可能。”但正如今天所見(jiàn)到的樣子,不可能最終變?yōu)榱丝赡。這得益于一系列擴(kuò)散模型的突破,它們?yōu)楫?dāng)今的生成式人工智能算法注入了強(qiáng)大動(dòng)力,使得這些算法能夠?qū)⑷祟?lèi)的提示轉(zhuǎn)化為圖片和視頻。

你們中的許多人或許已經(jīng)見(jiàn)證了OpenAI最近推出的Sora的驚艷表現(xiàn)。但值得一提的是,即便沒(méi)有龐大的GPU資源支持,我的學(xué)生和我們的合作者們依然成功開(kāi)發(fā)了一個(gè)名為Walt的生成視頻模型,它比Sora還要早幾個(gè)月問(wèn)世。

你們可以看到其中的一些初步成果,盡管仍有改進(jìn)的空間。舉例來(lái)說(shuō),看看那只貓的眼睛,它在波浪下的模樣,顯然有些失真,像是從未被水打濕過(guò)一般。這確實(shí)是一個(gè)需要我們進(jìn)一步優(yōu)化的地方。

若以過(guò)去為序幕,我們將從這些錯(cuò)誤中汲取寶貴的教訓(xùn),共同創(chuàng)造一個(gè)我們夢(mèng)寐以求的未來(lái)。在這個(gè)未來(lái),我們期待人工智能能夠?yàn)槲覀兺瓿伤瞄L(zhǎng)的一切,或是成為我們得力的助手。

多年來(lái),我一直強(qiáng)調(diào)拍照與觀看、理解之間存在顯著差異。而今天,我想再補(bǔ)充一點(diǎn):僅僅觀看是遠(yuǎn)遠(yuǎn)不夠的。觀看是為了行動(dòng),為了學(xué)習(xí)。當(dāng)我們?cè)谶@個(gè)三維空間和時(shí)間交織的世界中采取行動(dòng)時(shí),我們不斷學(xué)習(xí),我們學(xué)會(huì)如何更深入地觀察,如何更有效地行動(dòng)。大自然為我們樹(shù)立了榜樣,它創(chuàng)造了一個(gè)由“空間智能”驅(qū)動(dòng)的良性循環(huán),將觀察與行動(dòng)緊密相連。

為了更具體地闡述空間智能在日常生活中的作用,請(qǐng)仔細(xì)觀察這張圖。當(dāng)你準(zhǔn)備采取行動(dòng)時(shí),請(qǐng)舉手示意。就在那一刻,你的大腦迅速捕捉到了這個(gè)杯子的幾何形狀,它在三維空間中的精確位置,以及它與桌子、貓和其他物體的相互關(guān)系。這種瞬間的分析能力讓你能夠預(yù)測(cè)接下來(lái)可能發(fā)生的事情。這種行動(dòng)的沖動(dòng),是所有具備空間智能的生物與生俱來(lái)的本能,它將我們的感知與行動(dòng)緊密相連。

若想推動(dòng)人工智能超越其現(xiàn)有的界限,我們所追求的不再是僅限于視覺(jué)識(shí)別和語(yǔ)言交流的智能體。我們渴望的是那些能夠行動(dòng)的人工智能,能夠主動(dòng)介入并與我們生活的世界互動(dòng)。

確實(shí),我們正在取得令人興奮的進(jìn)展。在空間智能領(lǐng)域,最近的里程碑便是教會(huì)計(jì)算機(jī)觀察、學(xué)習(xí)、行動(dòng),并在實(shí)踐中不斷提高其觀察能力。這并非易事。大自然歷經(jīng)數(shù)百萬(wàn)年的進(jìn)化才賦予了生物空間智能,它依賴于眼睛接收光線,在視網(wǎng)膜上形成二維圖像,隨后大腦將這些數(shù)據(jù)轉(zhuǎn)化為三維信息。直到最近,谷歌的一組研究人員才開(kāi)發(fā)出一種算法,能夠通過(guò)拍攝一系列照片,將它們轉(zhuǎn)化為三維空間模型,就像我們?cè)谶@里所展示的例子一樣。

我的學(xué)生和我們的合作者們更進(jìn)一步,他們創(chuàng)造了一種算法,能夠?qū)⑤斎氲亩S圖像轉(zhuǎn)換成三維形狀。這里有更多的實(shí)例供你們參考。

回想一下,我們之前討論過(guò)計(jì)算機(jī)程序如何將人類(lèi)的文字提示轉(zhuǎn)化為視頻,F(xiàn)在,密歇根大學(xué)的一組研究人員已經(jīng)找到了一種方法,可以將簡(jiǎn)單的文字描述轉(zhuǎn)化為三維房間的布局,就像這里所展示的這樣。與此同時(shí),我在斯坦福大學(xué)的同事們及其學(xué)生也已經(jīng)開(kāi)發(fā)了一種算法,僅憑一張圖像便能生成無(wú)限逼真、可供觀眾探索的三維空間。

這些進(jìn)展只是未來(lái)可能性的初步跡象,它們?yōu)槲覀兘沂玖艘粋(gè)嶄新的世界。在這個(gè)世界中,人類(lèi)可以將整個(gè)現(xiàn)實(shí)世界轉(zhuǎn)化為數(shù)字形式,并對(duì)其豐富性和細(xì)微差別進(jìn)行建模。大自然在我們個(gè)人的意識(shí)中悄無(wú)聲息地完成了這一壯舉,而空間智能技術(shù)有望為我們的集體意識(shí)帶來(lái)同樣的變革。

隨著空間智能技術(shù)的飛速發(fā)展,一個(gè)良性循環(huán)的新時(shí)代正在我們眼前展開(kāi)。這種反復(fù)循環(huán)的過(guò)程將極大地促進(jìn)機(jī)器人的學(xué)習(xí),這對(duì)于任何需要理解三維世界并與之互動(dòng)的智能系統(tǒng)來(lái)說(shuō)都是至關(guān)重要的組成部分。

十年前,我的實(shí)驗(yàn)室通過(guò)啟用ImageNet數(shù)據(jù)庫(kù),引入了一個(gè)包含數(shù)百萬(wàn)張高質(zhì)量照片的龐大資源,為訓(xùn)練計(jì)算機(jī)的識(shí)別能力奠定了堅(jiān)實(shí)的基矗如今,我們采用類(lèi)似的方法,但目標(biāo)已經(jīng)轉(zhuǎn)向訓(xùn)練計(jì)算機(jī)和機(jī)器人在三維世界中的行為和動(dòng)作。不過(guò),這次我們不再局限于收集靜態(tài)圖像,而是著手開(kāi)發(fā)由三維空間模型驅(qū)動(dòng)的模擬環(huán)境,這樣計(jì)算機(jī)就能擁有無(wú)限多種學(xué)習(xí)行動(dòng)的可能性。在我實(shí)驗(yàn)室領(lǐng)導(dǎo)的一項(xiàng)名為“Behavior”的開(kāi)創(chuàng)性項(xiàng)目中,你們所見(jiàn)的僅僅是教導(dǎo)我們機(jī)器人的一小部分例子。

在機(jī)器人語(yǔ)言智能領(lǐng)域,我們也取得了令人矚目的進(jìn)展。借助基于語(yǔ)言模型的大型輸入,我的學(xué)生和我們的合作者成功展示了機(jī)械臂如何根據(jù)口頭指令執(zhí)行多種任務(wù),比如打開(kāi)抽屜、拔掉手機(jī)充電插頭,甚至是用面包、生菜和西紅柿制作三明治,并貼心地為使用者放置一張餐巾。盡管我總是希望在三明治里多加一些配料,但這無(wú)疑是一個(gè)良好的開(kāi)端。

回溯到生命起源的海洋,在遙遠(yuǎn)的古代,生物通過(guò)感知和觀察環(huán)境的能力,開(kāi)啟了與其他生命形式互動(dòng)的寒武紀(jì)大爆發(fā)。今天,這束照亮生命起源的光束已經(jīng)觸及了數(shù)字思維的領(lǐng)域?臻g智能賦予了機(jī)器與彼此互動(dòng)的能力,更重要的是,它們還能與人類(lèi)互動(dòng),與真實(shí)或虛擬的三維世界互動(dòng)。隨著這樣的未來(lái)逐漸成形,它將對(duì)許多人的生活產(chǎn)生深遠(yuǎn)的影響。

以醫(yī)療保健為例,過(guò)去的十年里,我的實(shí)驗(yàn)室在利用人工智能解決影響患者結(jié)果和醫(yī)務(wù)人員倦怠的挑戰(zhàn)方面,已經(jīng)邁出了初步的嘗試。我們與斯坦福醫(yī)學(xué)院緊密合作,正在試驗(yàn)智能傳感器,這些傳感器能夠檢測(cè)臨床醫(yī)生進(jìn)入病房前是否正確洗手,或者記錄手術(shù)器械的使用情況,甚至在病人面臨身體危險(xiǎn)(如摔倒)時(shí)及時(shí)提醒護(hù)理團(tuán)隊(duì)。我們認(rèn)為這些技術(shù)是一種環(huán)境智能,它們?nèi)缤嗔艘浑p眼睛,確實(shí)能夠在醫(yī)療保健領(lǐng)域產(chǎn)生積極的影響。然而,我期望我們的病人、臨床醫(yī)生和護(hù)理人員能夠得到更多互動(dòng)的幫助,他們同樣迫切需要一雙額外的手。想象一下,一個(gè)自動(dòng)化機(jī)器人負(fù)責(zé)運(yùn)輸醫(yī)療用品,而護(hù)理人員則能專注于照顧病人;蛘咄ㄟ^(guò)增強(qiáng)現(xiàn)實(shí)技術(shù),引導(dǎo)外科醫(yī)生進(jìn)行更安全、更快速、侵入性更小的手術(shù)。

想象一下,那些嚴(yán)重癱瘓的病人僅憑思想便能控制機(jī)器人。是的,通過(guò)解讀腦電波,他們能夠完成我們?nèi)粘V辛?xí)以為常的任務(wù)。在我實(shí)驗(yàn)室最近進(jìn)行的初步研究中,你們已經(jīng)窺見(jiàn)了這一未來(lái)的面貌。在這段視頻中,機(jī)械臂正在烹飪?nèi)毡緣巯矡,而它的每一個(gè)動(dòng)作,都僅由佩戴者通過(guò)腦電圖帽非侵入性地收集的腦電波來(lái)控制。

五億年前,視覺(jué)的出現(xiàn)如同一道曙光,照亮了一個(gè)原本黑暗的世界。它引領(lǐng)了生命史上最深刻的進(jìn)化過(guò)程,推動(dòng)了動(dòng)物世界智力的飛速發(fā)展。與此相似,人工智能在過(guò)去十年中的進(jìn)步同樣令人震驚。但在我看來(lái),除非我們賦予計(jì)算機(jī)和機(jī)器人空間智能,否則數(shù)字寒武紀(jì)大爆發(fā)的全部潛力將不會(huì)完全實(shí)現(xiàn),正如大自然為我們所有人所創(chuàng)造的那樣。

這是一個(gè)激動(dòng)人心的時(shí)刻,我們有機(jī)會(huì)教導(dǎo)我們的數(shù)字伴侶學(xué)習(xí)推理,并與我們稱之為家的美麗三維空間互動(dòng)。更進(jìn)一步,我們還能創(chuàng)造更多新世界,等待我們共同去探索。然而,實(shí)現(xiàn)這樣的未來(lái)并非易事,它要求我們所有人都采取深思熟慮的步驟,開(kāi)發(fā)出始終以人為中心的技術(shù)。

但只要我們做對(duì)了,由空間智能驅(qū)動(dòng)的計(jì)算機(jī)和機(jī)器人將不再僅僅是工具,它們將成為我們值得信賴的合作伙伴。在尊重我們的個(gè)人尊嚴(yán)和促進(jìn)我們的集體繁榮的同時(shí),它們將提高和增強(qiáng)我們的生產(chǎn)力和人性。

最令我對(duì)未來(lái)感到興奮的是,人工智能將變得更有洞察力和空間意識(shí)。它們將加入我們的行列,一同追求以更好的方式創(chuàng)造一個(gè)更美好的世界。(編譯/金鹿)

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港