展會(huì)信息港展會(huì)大全

Midjourney CEO大衛(wèi)·霍爾茲:AI應(yīng)該是我們自身的延伸
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-07-09 13:52:35   瀏覽:10024次  

導(dǎo)讀:騰訊科技訊 7月7日,MidjourneyCEO大衛(wèi)霍爾茲在2023世界人工智能大會(huì)上發(fā)言,認(rèn)為AI將成為創(chuàng)造和想象力的新的載體和引擎。通過AI,我們有可能放大整個(gè)人類種族的原始想象力。針對(duì)公司的名字Midjouney,霍爾茲表明它來自于道教著作《莊周》中的中道概念,他認(rèn)...

科技新聞?dòng)?/strong>7月7日,MidjourneyCEO大衛(wèi)霍爾茲在2023世界人工智能大會(huì)上發(fā)言,認(rèn)為AI將成為創(chuàng)造和想象力的新的載體和引擎。通過AI,我們有可能放大整個(gè)人類種族的原始想象力。針對(duì)公司的名字Midjouney,霍爾茲表明它來自于道教著作《莊周》中的中道概念,他認(rèn)為中國古典文學(xué)帶來了很多最美麗的,最深沉的思想。

目前Midjouney正在進(jìn)行5.3版本的開發(fā),并會(huì)在版本6中提供一系列對(duì)生成圖像進(jìn)行縮放,平移來自動(dòng)生成新的不同角度相關(guān)圖像的能力,并且可以控制生成圖像的隨機(jī)性,讓作者在詭異的美和令人迷惑的畫面間找到平衡。在未來,Midjourney的目標(biāo)是發(fā)展出三維,實(shí)時(shí),動(dòng)態(tài)可調(diào)的生成圖像。

關(guān)于技術(shù)的未來,他并不確定可能的走向。但融合模型(圖像 /文字用的模型進(jìn)行融合)可能是比較可能的發(fā)展方向。他認(rèn)為AI的這次技術(shù)進(jìn)步的潛力還沒有完全發(fā)揮出來,比現(xiàn)在強(qiáng)上十倍,百倍的進(jìn)步是必然的。

他認(rèn)為到目前為止技術(shù)上的大部分進(jìn)步都來自于試圖讓人變得更好,試圖放大人的能力。因此AGI也許并非是必要的,AI作為我們?nèi)说难由欤x能人類才是更好的選擇。

以下為演講實(shí)錄:

大家好,我是大衛(wèi)霍爾茲,Midjourney的CEO和創(chuàng)始人. 我很榮幸受上海市政府邀請我參加這次人工智能世界大會(huì),并很期待加入今天的活動(dòng)。

世界上最重要的技術(shù)之一就是引擎。引擎是一種用于產(chǎn)生、轉(zhuǎn)移或放大的機(jī)器。我們使用引擎在各種工廠建造各種各樣的交通工具,如汽車、飛機(jī)和船只。而現(xiàn)在,是時(shí)侯把人工智能看作一種新型引擎了。

在 MidJourney,我們正試圖用這種引擎來打造一種新型的載體,這載體不是交通工具,而是承載我們的思維和想象力的載體。

就像你可以用足球轉(zhuǎn)動(dòng)世界,但仍需要腿去踢球一樣。我們希望能創(chuàng)造一種新型的載體,你可以用它來進(jìn)行想象,而不僅是產(chǎn)生運(yùn)動(dòng)。在我們創(chuàng)造之前,我們必須首先去想象,想象我們能成為什么,我們可以去哪里,什么是可能的。我認(rèn)為我們制造的工具,比任何東西都更專注于放大想象力的原初力量。我們有機(jī)會(huì)放大的不僅僅是任何個(gè)體,而是整個(gè)人類種族的想象力。我曾多次隨Leap Motion(手勢識(shí)別設(shè)備)訪問過中國,Leap Motion的第一個(gè)辦公室就在上海。上海有一種特殊的感覺,我非常喜歡,它似乎是舊金山、洛杉磯、紐約以及一些歐洲老城市的組合體。它擁有一種古老歷史和文化的力量,同時(shí)也有一種未經(jīng)雕琢的未來感。這真的很酷,這是我最喜歡的兩件事。

事實(shí)上,我基本上是個(gè)科幻小說的狂熱讀者,而我看到的最瘋狂的設(shè)定來自于中國古典文學(xué)。我認(rèn)為古代中國文學(xué)擁有人類歷史上最美麗、最深沉的思想。MidJourney(中道)這個(gè)名字實(shí)際上源于我最喜歡的一個(gè)古老道家文本的翻譯,它出自《莊周》。比如《莊周夢蝶》、《子非魚》、《庖丁解牛》、《不材之木》、《空舟》,我喜歡這些。我喜歡MidJourney這個(gè)名字的原因是,我覺得人們有時(shí)容易忘記過去,可能會(huì)感到迷茫,對(duì)未來感到不確定。但我更多的是覺得我們其實(shí)是在中途旅程,我們來自豐饒美麗的過去,前方是荒野而不可思議的未來。

我們最近發(fā)布了Mid Journey 5.2版本,現(xiàn)在正進(jìn)行著5.3版本的開發(fā)。之后我希望能發(fā)布一個(gè)重大更新版本,我希望稱之為版本6。我們引入的最新特性是關(guān)于圖像的縮放,并在你縮小的同時(shí),可以創(chuàng)造不同的故事和環(huán)境,圍繞中心主題進(jìn)行變化。這周我們將發(fā)布一個(gè)類似的功能,它允許你移動(dòng)相機(jī),然后當(dāng)你橫向移動(dòng)相機(jī)時(shí),可以不斷改變提示,然后講述故事,我們還發(fā)布了這個(gè)奇特的控制系統(tǒng),可以結(jié)合這些新功能來更好地控制圖像生成。

你也可以將其與風(fēng)格控制相結(jié)合。“風(fēng)格控制”略有點(diǎn)混淆,但是這個(gè)想法是,你想要告訴AI想生成多美的產(chǎn)物,你要承擔(dān)多大的風(fēng)險(xiǎn)來制造這種美。哪怕它是非常規(guī)的,混亂的,奇特的,但有時(shí)結(jié)果真的非常出色。

有時(shí)你需要勇于冒險(xiǎn),這讓人們可以控制風(fēng)險(xiǎn)性和美的隨機(jī)性之間的平衡,或者是平衡對(duì)圖像的常規(guī)普遍美予以多少關(guān)注。我們還引入了一種我們稱之為渦輪模式的東西。渦輪模式就是我們盡可能多地使用GPU,使圖像產(chǎn)生非?臁_@讓生成的速度提升了4到5倍。這個(gè)模式讓你好像在用64個(gè)或100個(gè)以上的GPU去生成圖像。能達(dá)到這個(gè)算力,你的計(jì)算機(jī)大概得值50萬美元。這聽起來多少有點(diǎn)瘋狂,而我們還在研發(fā)更瘋狂的技術(shù)。雖然它們大部分還在醞釀之中,但我們認(rèn)為隨著時(shí)間的推移,Midjourney將發(fā)展為不僅能創(chuàng)造二維圖像,而且能創(chuàng)造三維圖像,動(dòng)態(tài)圖像,你甚至可以與像素本身交互。在將來也許你能實(shí)時(shí)回流和重塑的你畫出來的東西。

人們只需要這樣一個(gè)龐大的AI處理器,然后它就可以夢想所有的不同世界,而且夢想可以與我們的思維互動(dòng)。而我們從某種意義上是通過它(AI)在做夢,那將是真正酷的事。Diffusion模型、Transformer模型、Clip模型的依次發(fā)現(xiàn),實(shí)際上讓AI開始進(jìn)入圖像空間。大約在2年前,任何圖像AI服務(wù)都還沒有出來時(shí),我們所有的研究者在舊金山交流,我記得我當(dāng)時(shí)說這些模型,特別是Diffusion模型的橫空出世肯定會(huì)帶來完全不同的東西。還有生成對(duì)抗網(wǎng)絡(luò)技術(shù),這是大家在之前用來制作圖像生成的基本技術(shù)。

我只記得每個(gè)人都以一種不尋常的方式立刻點(diǎn)頭,說Diffusion模型真的不一樣。那一時(shí)間氣氛非常嚴(yán)肅,我有了一種必須參與其中,并給這個(gè)技術(shù)帶來更人性化的用戶界面的強(qiáng)烈感覺。

但是關(guān)于未來,我們很難確知技術(shù)會(huì)如何發(fā)展。有時(shí)我們會(huì)談?wù)摤F(xiàn)在如何將語言模型轉(zhuǎn)向Diffusion模型,也即使用Diffusion模型來制作文本;蛘哒f圖像模型會(huì)變得更像語言模型。這到底怎么達(dá)成呢?這種方式的技術(shù)術(shù)語是自回歸Transformer,或者說AI會(huì)向著混合模型發(fā)展。但這真的很難說。我認(rèn)為我們只是在這場變革的開端,但我百分之百確定還有很多進(jìn)步要去取得。比現(xiàn)在十倍,一百倍的進(jìn)步很可能是必然的。

這種進(jìn)步不僅體現(xiàn)在性能上,而且體現(xiàn)在讓我們更好使用這些技術(shù)的用戶界面和產(chǎn)品上。無論是個(gè)體還是集體都可以制造出真正酷的東西,可以更好地解決問題。道格拉斯恩格爾巴特是第一個(gè)創(chuàng)建文本編輯器的人。最初,人們是通過打孔卡或卡片上的打孔來編程計(jì)算機(jī)。但道格拉斯開始思考,如果我們用計(jì)算機(jī)編程計(jì)算機(jī)會(huì)怎樣,這在那時(shí)候聽起來很瘋狂。他的想法是,通過在計(jì)算機(jī)上編程計(jì)算機(jī)可以加速這個(gè)循環(huán),使我們做的更好,使計(jì)算機(jī)更強(qiáng)大,放大一切。這種想法最終實(shí)現(xiàn)了。盡管我們有這些不同的文化,比如AI,人機(jī)界面,智能應(yīng)用文化,我認(rèn)為到目前為止技術(shù)上的大部分進(jìn)步都來自于試圖讓人變得更好,試圖放大人的能力。

我們還沒有真正看到AI時(shí)代降臨,在那時(shí)我們會(huì)有獨(dú)立的AI去解決問題。但如果我們過多地考慮朝著那個(gè)方向發(fā)展,可能會(huì)錯(cuò)失技術(shù)中現(xiàn)存的很多機(jī)會(huì)。我不僅思考AI能做什么,而且思考如何在不同的事物之間創(chuàng)造流動(dòng)性和糾纏。因?yàn)楣ぞ卟粦?yīng)該感覺像一個(gè)人,它應(yīng)該感覺像你自己,你的身體,你的思想的延伸。我在想如何構(gòu)建這些技術(shù),讓人和AI相互交織起來,感覺不像是你正在與藝術(shù)家合作,而更像是你在想象一些東西,然后它就出現(xiàn)在屏幕上。很多人在描述我的旅程時(shí),都覺得那些目的地就像是他們思想的一部分。我認(rèn)為這就是大部分AI應(yīng)該成為的樣子,它應(yīng)該是我們自身的延伸。

所以我想再次向陳先生和全體觀眾表示感謝。WAIC非?,我希望我能在將來親自參加,成為這個(gè)活動(dòng)的一部分。我很期待與中國有更多的合作,我記得我在那里的所有美好的親身經(jīng)歷,希望大家在那里也能享受互動(dòng)的樂趣。謝謝。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港