展會信息港展會大全

專訪谷歌DeepMind CEO:Gemini才是真多模態(tài),GPT不算
來源:互聯(lián)網   發(fā)布日期:2023-12-11 14:40:16   瀏覽:2842次  

導讀:編譯 / 金鹿 編輯 / 騰訊科技 郝博陽 美國當?shù)貢r間周三,谷歌新的人工智能模型Gemini在聊天機器人Bard內部發(fā)布。連線雜志(Wired)當天采訪了領導該項目的人工智能高管德米斯哈薩比斯(Demis Hassabis)。他表示,Gemini是一種新型人工智能,該項目可能會用...

編譯 / 金鹿

編輯 / 科技新聞 郝博陽

美國當?shù)貢r間周三,谷歌新的人工智能模型Gemini在聊天機器人Bard內部發(fā)布。連線雜志(Wired)當天采訪了領導該項目的人工智能高管德米斯哈薩比斯(Demis Hassabis)。他表示,Gemini是一種新型人工智能,該項目可能會用新的方式推進聊天機器人和其他項目。

哈薩比斯參與發(fā)布了許多在人工智能領域取得的巨大飛躍的產品。最值得注意的是,2016年,他發(fā)布了一款名為AlphaGo的機器人,能學會以超人的技能和創(chuàng)造力玩轉復雜而微妙的圍棋,之后他就成名了。如今,哈薩比斯表示,他在谷歌的團隊又向前邁出了更大的一步,對他本人、對谷歌乃至對更廣闊的人工智能領域都是如此。他說,Gemini為人工智能開辟了一條無人涉足的道路,可能會帶來重大的新突破。

哈薩比斯說:“作為一名神經科學家和計算機科學家,多年來我一直想嘗試創(chuàng)造一種新型的人工智能模型,這種模型的靈感來自我們通過所有感官互動和理解世界的方式。Gemini是朝著這種模式邁出的一大步。”谷歌將Gemini描述為“多模態(tài)”,因為它可以處理文本、音頻、圖像和視頻形式的信息。

從今天開始,Gemini的初始版本將通過谷歌聊天機器人Bard提供。該公司表示,該模型最強大的版本Gemini Ultra將于明年發(fā)布,在幾個常見的基準測試上,它的性能超過ChatGPT背后的GPT-4。谷歌發(fā)布的視頻展示了Gemini解決涉及復雜推理的任務,以及該模型結合文本、圖像、音頻和視頻信息的示例。

哈薩比斯稱:“到目前為止,大多數(shù)模型都是通過訓練單獨的模塊,然后將它們拼接在一起來近似地實現(xiàn)多模式。”哈薩比斯的話似乎暗指OpenAI的技術。他接著說:“對于某些任務來說,這沒問題,但在多模態(tài)空間中,你無法進行這種深度復雜的推理。”

OpenAI在9月份發(fā)布了ChatGPT的升級版本GPT4-V,除了文本之外,ChatGPT還能接收圖像和音頻作為輸入。OpenAI沒有透露GPT-4-V是如何做到這一點的技術細節(jié),也沒有透露其多模式功能的技術基矗

AI領域玩起“你追我趕”

與之前的人工智能項目相比,谷歌以驚人的速度開發(fā)和推出了Gemini。這是為了應對最近人們對OpenAI和其他公司的產品可能對谷歌的未來構成威脅的擔憂。

到2022年底,谷歌依然被視為大型科技公司中人工智能的領導者,大量人工智能研究人員為該領域做出了重大貢獻。其首席執(zhí)行官桑達爾皮查伊(Sundar Pichai)曾宣布他的公司戰(zhàn)略是“人工智能優(yōu)先”,谷歌已經成功地將人工智能添加到從搜索到智能手機的許多產品中。

然而,在不到800名員工的初創(chuàng)公司OpenAI推出ChatGPT后不久,谷歌就不再被視為人工智能領域的領頭羊。ChatGPT以超人般的智慧回答各種問題的能力,增加了谷歌最看重的搜索引擎被取代的可能性,尤其是當OpenAI的投資者微軟將其基礎技術應用于自己的必應搜索引擎時。

谷歌在震驚之后迅速采取了行動,推出了ChatGPT的競爭對手Bard,改進了自己的搜索引擎,并匆忙推出了一款新模型PaLM 2,與ChatGPT背后的大模型競爭。哈薩比斯在谷歌收購他的初創(chuàng)公司DeepMind時,開始領導總部位于倫敦的人工智能實驗室,現(xiàn)在他領導了一個新的人工智能部門,將該團隊是與谷歌的主要人工智能研究團隊Google Brain合并而成。

今年5月,在谷歌的I/O開發(fā)者大會上,皮查伊宣布,谷歌正在培訓一款新的、更強大的PaLM繼任者,名為Gemini。他當時并沒有透露太多細節(jié),但這個項目的命名是為了紀念谷歌的兩個主要人工智能實驗室的合并,同時也是為了向美國宇航局(NASA)的Gemini項目致敬,該項目為阿波羅計劃鋪平了道路。

大約七個月后,Gemini終于被開發(fā)出來。哈薩比斯說,新模型處理不同形式的數(shù)據(包括文本以外的數(shù)據)的能力從一開始就是該項目愿景的關鍵部分。許多人工智能研究人員認為,能夠利用不同格式的數(shù)據是自然智能(比如人類)的一項關鍵能力,這在很大程度上是機器所缺乏的。

ChatGPT等系統(tǒng)背后的大語言模型之所以具有靈活性和強大功能,是因為它建立在從網絡和其他地方大量文本數(shù)據中學習的算法之上。它們可以通過回放和混合從訓練數(shù)據中學習到的模式來回答問題,創(chuàng)作詩歌和引人注目的文學作品。

盡管ChatGPT和類似的聊天機器人可以使用相同的技巧來討論或回答有關物理世界的問題,但這種表面上的理解很快就會瓦解。許多人工智能專家認為,要想讓機器智能取得顯著進步,就需要系統(tǒng)在物理現(xiàn)實中有某種形式的“基礎”,也許是將語言模型與還能看、能聽、最終還能觸摸的軟件結合起來。

哈薩比斯表示,谷歌DeepMind已經在研究如何將Gemini與機器人技術結合起來,與世界進行物理互動。他說:“要成為真正的多模式,你需要包括觸摸和觸覺反潰將這些基礎模型應用于機器人技術有很大前景,我們正在大力探索這一點。”

尋找物理互動方法

谷歌已經在這個方向上邁出了一小步。2022年5月,該公司發(fā)布了一款名為Gato的人工智能模型,它能夠學習完成各種任務,包括玩雅達利(Atari)游戲、為圖像添加字幕,以及使用機械臂堆疊積木等。今年7月,谷歌展示了一個名為RT-2的項目,該項目涉及使用語言模型來幫助機器人理解和執(zhí)行動作。

哈薩比斯說,能夠更好地對視覺信息進行推理的模型也應該更有用,作為軟件代理,或者試圖用類似于人的方式使用計算機和互聯(lián)網完成任務的機器人。OpenAI和其他公司已經在嘗試將ChatGPT和類似的系統(tǒng)改造成新一代功能更強大、更有用的虛擬助手,但它們目前還不太可靠。

為了讓人工智能代理可靠地工作,為它們提供動力的算法需要更加智能化。OpenAI正在秘密推進一個名為Q*的項目,旨在提高人工智能模型的推理能力,可能會使用強化學習(AlphaGo的核心技術)。哈薩比斯說,他的公司也在做類似的研究。

哈薩比斯解釋稱:“我們有許多世界上最好的強化學習專家,他們發(fā)明了一些東西。AlphaGo的進步有望幫助改善未來模型的規(guī)劃和推理能力,比如今天發(fā)布的這個模型。我們有一些有趣的創(chuàng)新,我們正在努力把它帶到Gemini的未來版本中。明年你會看到很多快速的進步。”

隨著谷歌、OpenAI和其他科技巨頭競相加快他們的人工智能研究和部署步伐,關于當前和未來模型可能帶來的風險的爭論也越來越激烈,包括在國家元首之間。哈薩比斯參與了英國政府今年早些時候發(fā)起的一項倡議,該倡議發(fā)布了一份聲明,警告人們注意人工智能的潛在危險,并呼吁進一步研究和討論。圍繞OpenAI人工智能技術商業(yè)化速度的緊張局勢,似乎也是最近董事會劇變的原因之一,導致首席執(zhí)行官山姆奧特曼(Sam Altman)被短暫罷免。

哈薩比斯說,早在2014年谷歌收購DeepMind之前,他和其他兩位聯(lián)合創(chuàng)始人謝恩萊格(Shane Legg)和穆斯塔法蘇萊曼(Mustafa Suleyman)就已經在討論研究和降低可能風險的方法。他說:“我們有一些世界上最好的團隊在尋找偏見、毒性,但也在尋找其他確保模型安全的技術。”

盡管谷歌發(fā)布了Gemini的初始版本,但對最強大版本Gemini Ultra的安全測試工作仍在進行中,該版本定于明年發(fā)布。哈薩比斯說:“我們正在完成有關制衡、安全和責任方面的測試,并將在明年年初發(fā)布。”

贊助本站

人工智能實驗室
相關內容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港