不知道你是否曾有過這樣的想法:當(dāng)一個「甩手掌柜」,把一切家務(wù)都交給家務(wù)機器人。說實話,這是在科幻作品中經(jīng)常能夠看到的場景。
畢竟,誰不想擁有一位任勞任怨的「 賽博仆人」呢?
來自舊金山的初創(chuàng)公司 Physical Intelligence(物理智能,簡稱 Pi)正在致力于幫助人們實現(xiàn)這個夢想。這家公司近日展示了一種「接受了前所未有的數(shù)據(jù)量訓(xùn)練」的人工智能模型,它已經(jīng)學(xué)會了干各種有用的家務(wù)活。
關(guān)注 AI 第一新媒體,率先獲取 AI 前沿資訊和洞察
Physical Intelligence 發(fā)布的視頻顯示,他們的機器人可以十分靈巧地完成各種家務(wù)活,包括但不限于: 整理擺滿了杯子和盤子的桌面:
把咖啡豆從袋子舀到機器當(dāng)中:
展開全文
甚至可以組裝紙箱:
最令人深刻的是,它們 可以取出烘干機內(nèi)的衣物并折疊整齊。兩只機械臂如同人類的雙手一般,配合熟練:
有趣的是,該公司開發(fā)的這種算法有時會表現(xiàn)出一些的 類似人類的怪癖,例如搖晃 T 恤和短褲,讓它們平整地鋪開。
Physical Intelligence 的首席執(zhí)行官豪斯曼(Hausman)指出,折疊衣服對于機器人來說尤其具有挑戰(zhàn)性,需要更多關(guān)于物理世界的一般智能,因為它涉及處理各種會不可預(yù)測地變形和皺折的柔性物品。
他還表示,目前的算法并不很穩(wěn)定。就像 AI 聊天機器人有時也會「 崩潰」一樣,這些「家務(wù)機器人」有時也會做出一些令人不可思議的舉動:比如它會將雞蛋塞滿已經(jīng)裝不下的紙箱,把紙箱強行合上;有一次在裝東西時,機器人突然把盒子從桌上扔了下去。
Physical Intelligence 的 CEO 豪斯曼. 圖片來自:The Information
盡管算法還不完美,但 Physical Intelligence 至少為未來的「 通用家務(wù)機器人」提供了一種可能性。
然而,豪斯曼的野心遠不止于此!讣覄(wù)」只是其中一種用途,「 通用」才是公司的雄心壯志:
我們的目標(biāo)是通過一個通用模型將人工智能帶入物理世界,基本上對于任何應(yīng)用程序來講,該模型可以為任何機器人或任何物理設(shè)備提供動力。
圖片來自:maginative
換句話說,Physical Intelligence 的目標(biāo)是創(chuàng)建一個類似于大型語言模型(LLMs)的 物理世界模型,這是一種「 通用人工智能模型」。
他們將構(gòu)建語言模型的技術(shù)與控制和指導(dǎo)機器的自有方法相結(jié)合,并通過訓(xùn)練大量的機器人數(shù)據(jù)來實現(xiàn)。豪斯曼表示,他們的方法「 非常通用」,可以利用來自不同機器人類型的數(shù)據(jù)進行訓(xùn)練,類似于人們訓(xùn)練語言模型的方式。
公司在過去八個月中開發(fā)了其「基礎(chǔ)模型」,名為 π0(pi-zero)。π0 通過使用來自多種機器人執(zhí)行各種家務(wù)的數(shù)據(jù)進行訓(xùn)練,公司還經(jīng)常讓人類遠程操作機器人以提供必要的教學(xué)。
Physical Intelligence 的聯(lián)合創(chuàng)始人之一、加州大學(xué)伯克利分校的副教授謝爾蓋萊文(Sergey Levine)表示,他們訓(xùn)練的 數(shù)據(jù)量比以往任何機器人模型都要大得多,并且「幅度非常大」。
謝爾蓋萊文(Sergey Levine). 圖片來自:YouTube
與其他公司譬如 Figure AI 和特斯拉專注于構(gòu)建仿人機器人,以及像 Covariant 這樣的公司開發(fā)通用機器人軟件不同,Pi 旨在創(chuàng)建 可以應(yīng)用于廣泛機器人硬件的軟件。
對此,知名科技投資者,也是 Pi 的聯(lián)合創(chuàng)始人之一的拉奇格魯姆(Lachy Groom)表示「使人類變得有趣的是我們的大腦,而不是我們的硬件,我們是 終極的通用主義者」。
特斯拉開發(fā)的名為「Optimus」的人形機器人
Physical Intelligence 面臨的一個關(guān)鍵挑戰(zhàn)是,與大型語言模型訓(xùn)練中可用的文本數(shù)據(jù)相比, 用于訓(xùn)練的機器人數(shù)據(jù)規(guī)模有限。
因此,公司必須生成自己的數(shù)據(jù),并想出提高從更有限數(shù)據(jù)集中學(xué)習(xí)的技巧。
實際上,為了開發(fā) π0,公司結(jié)合了所謂的 視覺語言模型(在圖像和文本上訓(xùn)練)和 擴散建模(從 AI 圖像生成中借鑒的技術(shù)),以實現(xiàn) 更通用的學(xué)習(xí)。
一切的一切,都在為「 通用」而努力。
對于 Physical Intelligence 的現(xiàn)狀和未來,萊文的觀點是:
為了讓機器人能夠承擔(dān)人類要求它們做的任何雜務(wù),這種學(xué)習(xí)需要大幅擴大。盡管還有很長的路要走,但我們有一些你可以認(rèn)為是基礎(chǔ)框架的東西,未來的事情從中可見一斑。
但同時,萊文對 Pi 的發(fā)展充滿信心。他表示有足夠的跡象表明,在現(xiàn)實世界中使用機器人的最大障礙「 現(xiàn)在已經(jīng)可以解決」。
文|范津瑞