當(dāng)前位置：人工智能實驗室> 人物報道 > AI 大神首次承認(rèn)參與神秘模型 Q* 研發(fā)，把 OpenAI 嚇壞了 | Transformer 作者專訪

AI 大神首次承認(rèn)參與神秘模型 Q* 研發(fā)，把 OpenAI 嚇壞了 | Transformer 作者專訪
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-03-28 14:41:01 瀏覽：6343次

導(dǎo)讀：編者按：「一次人類智慧的匯聚，創(chuàng)造出一臺機器，而這臺機器最終可能會主宰一切」。這篇來自 WIRED 的專訪，為我們講述了現(xiàn)代人工智能的起源，以及 transformer 創(chuàng)始團隊 8 人組偶遇的背后故事： 1. 科學(xué)論文「Attention Is All You Need」如今已經(jīng)到達了傳...

編者按：「一次人類智慧的匯聚，創(chuàng)造出一臺機器，而這臺機器最終可能會主宰一切」。這篇來自 WIRED 的專訪，為我們講述了現(xiàn)代人工智能的起源，以及 transformer 創(chuàng)始團隊 8 人組偶遇的背后故事：

1. 科學(xué)論文「Attention Is All You Need」如今已經(jīng)到達了傳奇地位，其中所提及的 Transformer 架構(gòu)正在影響著所有人的生活。

2. Transformer 的故事始于 Uszkoreit，遞歸神經(jīng)網(wǎng)絡(luò)在解析較長文本時遇到困難，因此從 2014 年起他開始構(gòu)思一種不同的方法：自注意力(self-attention)。

3. Uszkoreit 與 Google 的兩位同事共同起草了文檔，他們用「Transformer」命名除了單詞意義與技術(shù)原理相近，還因為 Uszkoreit 本人小時候?qū)⒅畬毻婢哂兄篮玫幕貞洝?/p>

4. Shazeer 的加入對團隊至關(guān)重要，他拿出了自己的基本想法，并且把它做出來了。Shazeer 將整個架構(gòu)提升到了一個新的水平。

5. 在論文截止提交之前，他們測試了兩種 Transformer 模型超越了所有競爭對手，并徹底打破了之前的紀(jì)錄。

6. 后來，該模型幾乎應(yīng)用于所有形式的人類表達，研究團隊計劃將其擴展「圖像、音頻和視頻」領(lǐng)域的研究。

7. 這篇改變世界的論文標(biāo)題，來源于 The Beatles（披頭士樂隊）的一首歌「All You Need Is Love」，Uszkoreit 提議把論文命名為「Attention Is All You Need」。

8. OpenAI 首席執(zhí)行官 Sam Altman 所說「當(dāng) Transformer 論文發(fā)表時，我想 Google 的任何人都沒有意識到這意味著什么。」

9. 論文在 2017 年 12 月引起了巨大關(guān)注，在長達四個小時的會議中，擠滿了想了解更多信息的科學(xué)家，創(chuàng)始團隊聊到嗓子沙啞，直到晚上 10:30，人們?nèi)匀痪奂谀抢铩?/p>

10. 論文的 8 位作者都相繼離開了 Google，但他們創(chuàng)立的公司和旗下產(chǎn)品，都是基于 Transformer 技術(shù)。

原文地址：https://www.wired.com/story/eight-google-employees-invented-modern-ai-transformers-paper/

原文作者：Steven Levy

2017 年春天，一篇名為「Attention Is All You Need」的科學(xué)論文中，列出了 8 位作者。他們都是 Google 的研究人員，盡管其中一人那時已離開了公司。

當(dāng)團隊中最資深的研究者 Noam Shazeer 看到論文初稿時，他驚訝地發(fā)現(xiàn)自己的名字排在第一位，暗示著他的貢獻是最重要的。

「我沒有想太多」他說。

在確定作者排名時，總是要小心翼翼誰獲得那個令人垂涎的第一作者，誰被擠到后面。特別是在這樣一個案例中，每個參與者都在一個真正的集體努力中留下了獨特的印記。

研究人員們急于完成他們的論文，最終決定「破壞」對貢獻者排名的慣例。他們在每個名字旁邊加了一個星號，并附上腳注：「平等貢獻者，排名順序是隨機的」。

作者們在最后期限前將論文提交給了一個人工智能會議，并引發(fā)了一場革命。

現(xiàn)在，「Attention」論文即將迎來第七個周年紀(jì)念日，它已經(jīng)達到了傳奇地位。

作者們從一個蓬勃發(fā)展且不斷改進的技術(shù)神經(jīng)網(wǎng)絡(luò)的 AI中汲取靈感，并將其變成了另一種東西：一個如此強大的數(shù)字系統(tǒng)，其輸出感覺像是外星智能的產(chǎn)物。

這種架構(gòu)被稱為 Transformer，它是那些令人驚嘆的 AI 產(chǎn)品（包括 ChatGPT 和圖形生成器，如 Dall-E 和 Midjourney）背后的秘密武器。

Shazeer 現(xiàn)在開玩笑說，如果知道那篇論文會變得如此出名，他「可能會更擔(dān)心作者順序」�，F(xiàn)在，這 8 個簽名者都小有名氣。

「有人找我自拍，因為我出現(xiàn)在一篇論文上９排名第 5 的 Llion Jones 說。

「沒有 transformers，我想我們現(xiàn)在就不會在這里了」Geoffrey Hinton 說。他不是作者之一，但可能是世界上最著名的 AI 科學(xué)家。他指的是我們所處的時代，指的是 OpenAI 和其他公司正在建立可以與人類輸出相媲美甚至超越的系統(tǒng)。

自從論文發(fā)表以來，這 8 位作者都離開了 Google，像其他數(shù)百萬人一樣，他們現(xiàn)在以某種方式與他們在 2017 年創(chuàng)造的系統(tǒng)合作。在與 Transformer 8 人組交談里，我們試圖拼湊出創(chuàng)新的本質(zhì)：

一次人類智慧的匯聚，創(chuàng)造出一臺機器，而這臺機器最終可能會主宰一切。

Transformer 的故事始于第 4 個名字：Jakob Uszkoreit。

Jakob Uszkoreit.

Uszkoreit 是知名計算語言學(xué)家 Hans Uszkoreit 的兒子。20 世紀(jì) 60 年代末，Hans 還是一名高中生時，因抗議蘇聯(lián)入侵捷克斯洛伐克而在東德被監(jiān)禁 15 個月。獲釋后，他逃到西德，在柏林學(xué)習(xí)計算機和語言學(xué)。后來他到了美國，在加州門洛帕克的一個研究機構(gòu) SRI 的人工智能實驗室工作時，Jakob 出生了。

最終，他和家人一起回到了德國，Jakob 也在那里一直上完了大學(xué)。一開始，他并沒有打算專注于語言，但在開始研究生學(xué)習(xí)時，他在 Google 的山景城辦公室實習(xí)，進入了公司的翻譯組。

后來他選擇加入家族企業(yè)，為此還放棄了博士計劃，并于 2012 年決定加入 Google 的一個團隊，該團隊正在研究一個系統(tǒng)，可以在不將用戶轉(zhuǎn)向其他網(wǎng)站的情況下，在搜索頁面本身對用戶的問題做出響應(yīng)。

那時，蘋果剛剛推出 Siri，一個承諾提供一次性答案的虛擬助手，Google 的高管聞到了巨大的競爭威脅：Siri 可能會吞噬他們的搜索流量。他們開始更加關(guān)注 Uszkoreit 的新團隊。

「這是一場假恐慌」Uszkoreit 說。Siri 從未真正威脅過 Google。但他歡迎有機會深入到那些可以與我們進行某種對話的系統(tǒng)。

當(dāng)時，遞歸神經(jīng)網(wǎng)絡(luò)曾經(jīng)是學(xué)術(shù)界的冷門突然開始超越其他 AI 工程方法。這些網(wǎng)絡(luò)由許多層組成，信息通過這些層傳遞，再傳遞，以確定最佳的響應(yīng)效果。神經(jīng)網(wǎng)在圖像識別等領(lǐng)域取得了巨大的勝利，AI 復(fù)興突然開始。

Google 也在同一時期瘋狂地重新安排其勞動力以采用這些技術(shù)。它們希望擁有能夠生成類似人類的響應(yīng)系統(tǒng)在電子郵件中自動完成句子，或創(chuàng)建相對簡單的客服聊天機器人。

但是，這個領(lǐng)域正遇到局限性：遞歸神經(jīng)網(wǎng)絡(luò)在解析較長文本時遇到困難。

例如，「Joe 是一名棒球運動員，吃了一頓好早餐后，他去了公園并得到了兩次擊球」，為了理解「兩次擊球」，語言模型必須記住關(guān)于棒球的知識。

公認(rèn)的解決方案是一項名為「長短期記憶」（LSTM）的發(fā)明，這項創(chuàng)新允許語言模型處理更大、更復(fù)雜的文本序列。

但是，計算機仍然嚴(yán)格按順序處理這些序列逐字逐句并且錯過了后來在段落中可能出現(xiàn)的內(nèi)容線索�！肝覀儜�(yīng)用的方法基本上是創(chuàng)可貼」Uszkoreit 說，「我們無法讓正確的東西真正大規(guī)模工作」。

大約在 2014 年，他開始構(gòu)思一種不同的方法：自注意力(self-attention)。這種網(wǎng)絡(luò)可以通過參考段落中的任何部分來翻譯一個詞。這些部分可以澄清一個詞的意圖，并幫助系統(tǒng)產(chǎn)生良好的翻譯。

Uszkoreit 說「它實際上考慮了所有內(nèi)容，并為您提供了高效地查看許多輸入同時取出的方式」。盡管人工智能科學(xué)家小心翼翼，盡量不將神經(jīng)網(wǎng)絡(luò)的比喻與生物大腦的實際工作方式混淆，但 Uszkoreit 似乎相信，自注意力與人類處理語言的方式在某種程度上相似。

Uszkoreit 認(rèn)為，自注意力模型可能比遞歸神經(jīng)網(wǎng)絡(luò)更快、更有效。它處理信息的方式也正好適合大量生產(chǎn)出來的強大并行處理芯片，以支持機器學(xué)習(xí)熱潮。它沒有采用線性方法（按順序查看每個詞），而是采用更并行的方法（一起查看一堆詞）。如果做得正確，Uszkoreit 懷疑，人們可以專門使用自注意力來獲得更好的輸出結(jié)果。

并非所有人都認(rèn)為這個想法會顛覆世界，包括 Uszkoreit 的父親。

Uszkoreit 在 Google 工作時，還獲得了兩項 Google Faculty 研究獎。

「人們揚起眉毛，因為這拋棄了所有現(xiàn)有的神經(jīng)網(wǎng)絡(luò)架構(gòu)」Jakob Uszkoreit 說，「我和我爸爸在餐桌上的對話中，我們并不一定看法一致」，爸爸甚至認(rèn)為舍棄遞歸神經(jīng)網(wǎng)絡(luò)是「異端」的想法。

Uszkoreit 說服了一些同事和他一起研究自注意力。他們的工作很快證明了這項新技術(shù)的前景，并在 2016 年發(fā)表了一篇論文。

Uszkoreit 想要推動他們的研究更深入團隊實驗只使用了微小的文本片段但他的合作者都不感興趣。不過這依然無法阻止他的腳步:

懂得那篇論文的人，對收獲成果并將其部署在 Google 的各種地方感到興奮，包括搜索，最終還包括廣告。在很多方面，這都是一個驚人的成功，但我并不想就此止步。

Uszkoreit 認(rèn)為，自注意力可以承擔(dān)更大的任務(wù)。這時，他在 Google 園區(qū)北緣查爾斯頓路 1945 號的白板上，勾勒出他的愿景。

2016 年的一天，Uszkoreit 在 Google 咖啡館與一位名叫 Illia Polosukhin 的科學(xué)家共進午餐。出生在烏克蘭的 Polosukhin 已經(jīng)在 Google 工作了近三年。他被分配到提供直接回答搜索領(lǐng)域問題的團隊，但是工作并不順利。

Illia Polosukhin.

要在 Google.com 上回答問題，你需要非常便宜且高性能的東西，因為你有只有毫秒級的響應(yīng)時間。

當(dāng) Polosukhin 抱怨時，Uszkoreit 毫不費力地提出了解決方案：「為什么不使用自注意力？」。

Polosukhin 偶爾會與 Ashish Vaswani（Google 的同事）合作，他出生在印度，于中東長大，后來去了南加州大學(xué)，在該校的精英機器翻譯組獲得博士學(xué)位。之后，他搬到山景城，加入 Google 中一個名為 Brain 的新興組織。

Ashish Vaswani.

他將 Brain 描述為「一個激進的小組」，相信「神經(jīng)網(wǎng)絡(luò)將推動人類理解」。但他仍在尋找一個大項目來工作。Vaswani 的團隊在 1965 號樓工作，隔壁剛好是 1945 號樓的語言團隊，他聽說了自注意力的想法后，覺得這可能就是期待中的大項目，因此也參與到了這項研究當(dāng)中。

這三位研究者一起起草了一份名為「Transformers: Iterative Self-Attention and Processing for Various Tasks」的設(shè)計文檔。Uszkoreit 說，他們從「day zero」選擇了「Transformer」這個名字。因為，這項技術(shù)的機制是轉(zhuǎn)換它所接收的信息，允許系統(tǒng)提取盡可能多的理解或者至少給人留下印象。

另外，Uszkoreit 小時候?qū)⒅畬毻婢撸ㄗ冃谓饎偟挠⑽氖?Transformers，由美國孩之寶公司與日本特佳麗公司合作制作）有著美好的回憶。

文檔最后是一幅卡通圖像，六個變形金剛在山區(qū)地形中相互發(fā)射激光。

2017 年初，Polosukhin 離開 Google，并創(chuàng)辦了自己的公司，新的合作者紛紛加入。

一位名叫 Niki Parmar 的印度工程師在美工作時移居美國。她于 2015 年從南加州大學(xué)獲得碩士學(xué)位，并且收到了所有大型科技公司拋來的橄欖枝，她最終選擇了 Google。剛開始工作時，她就加入了 Uszkoreit 的團隊，致力于改進 Google 搜索的模型變種。

Niki Parmar.

另一位新成員是來自威爾士的 Llion Jones。在伯明翰大學(xué)就讀期間，他上了一門人工智能課程，并對神經(jīng)網(wǎng)絡(luò)產(chǎn)生了好奇心，這些網(wǎng)絡(luò)在當(dāng)時被視為歷史遺留問題。

Llion Jones.

2009 年 7 月，Jones 獲得了碩士學(xué)位，不過他在畢業(yè)后失業(yè)了一段時間，靠救濟生活了幾個月。后來，他在當(dāng)?shù)匾患夜菊业搅斯ぷ�，然后�?Google 遞交了一份「絕望的賭注」申請。不出意外，他得到了這份工作并最終加入了 Google Research，他的經(jīng)理就是 Polosukhin。

有一天，Jones 從一位名叫 Mat Kelcey 的同事那里聽說了自注意力的概念，后來他也加入了 Transformer 團隊。

有意思的是，在 Jones 加入了 Transformer 后，還向引薦人 Kelcey 介紹了該項目，但 Kelcey 并不買賬，她并不認(rèn)為這項技術(shù)會起作用，

「這基本上是我一生中最大的錯誤預(yù)測」，Kelcey 說。

Transformer 的工作吸引了其他也在嘗試改進大型語言模型的 Google Brain 研究員。這當(dāng)中包括波蘭出生的理論計算機科學(xué)家 ukasz Kaiser 和他的實習(xí)生 Aidan Gomez。

ukasz Kaiser.

Gomez 在加拿大安大略省的一個小農(nóng)場村長大，每年春天他的家人都會在楓樹上取糖漿。作為多倫多大學(xué)的一名三年級學(xué)生，他「愛上了」人工智能，并加入了機器學(xué)習(xí)小組Geoffrey Hinton 的實驗室。

Aidan Gomez.

在此期間 Gomez 開始聯(lián)系在 Google 寫過有趣論文的人，并提出擴展他們工作的想法。Kaiser 就上鉤了，還邀請他到 Google 實習(xí)。直到幾個月后，Gomez 才得知這些實習(xí)機會是給博士生準(zhǔn)備的，而不是像他這樣的本科生。

Kaiser 和 Gomez 很快就會明白，自注意力看起來像是一個有前途的、更激進的解決方案，而且他們正在解決這個問題，Gomez 說：

我們曾就是否想要合并這兩個項目進行過一次深思熟慮的討論，答案是肯定的。

此時，Transformer 團隊開始構(gòu)建一個自注意力模型，用于將文本從一種語言翻譯成另一種語言。他們使用一個名為 BLEU 的基準(zhǔn)來衡量其性能，該基準(zhǔn)將機器的輸出與人類翻譯員的工作進行比較。

從一開始，他們的新模型就表現(xiàn)良好，Uszkoreit 說「我們已經(jīng)從沒有任何概念，證明到了至少與當(dāng)時最好的 LSTM 替代方法相媲美的水平，但與長短期記憶相比，它并沒有表現(xiàn)得更好」。

他們已經(jīng)達到了一個平臺期直到 2017 年的一天，Noam Shazeer 偶然聽說了他們的項目。

Noam Shazeer.

Shazeer 是一位經(jīng)驗豐富的 Google 員工他在 2000 年入職，并以公司早期廣告系統(tǒng)方面的工作而成為內(nèi)部傳奇人物。Shazeer 在深度學(xué)習(xí)領(lǐng)域工作了五年，最近對大型語言模型產(chǎn)生了興趣。但這些模型遠未達到他所相信的可能產(chǎn)生流暢對話的水平。

正如 Shazeer 回憶的那樣，他當(dāng)時正在 1965 號樓的走廊里走著，經(jīng)過 Kaiser 的工作空間。他發(fā)現(xiàn)自己正在聽一場熱烈的談話：「我記得 Ashish 在談?wù)撌褂米宰⒁饬Φ南敕�，Niki 對此非常興奮。我想，哇，這聽起來是個好主意。這看起來是一群有趣、聰明的人在做一些有前途的事情�！�

Shazeer 發(fā)現(xiàn)現(xiàn)有的遞歸神經(jīng)網(wǎng)絡(luò)「令人煩躁」，他想：「我們?nèi)ヌ鎿Q它們吧９

Shazeer 的加入對團隊至關(guān)重要�！高@些理論，如自注意力，總是需要非常仔細(xì)的實施，通常由少數(shù)經(jīng)驗豐富的魔法師來展示」Uszkoreit 說，對此 Shazeer 立即開始施展他的魔法。他決定自己編寫 Transformer 團隊代碼的版本。

對于這段經(jīng)歷， Shazeer 分享到「我拿出了基本想法，并且自己把它做出來了」。他在此期間使用的一些技術(shù)和技巧，團隊后來會用「魔法」、「煉金術(shù)」和「鈴鐺和哨子」這樣的詞來描述，

總之，Shazeer 將系統(tǒng)提升到了一個新的水平。

「那引發(fā)了沖刺」Gomez 說。他們充滿動力，也想要趕上即將到來的截止日期5 月 19 日，這是年度最大 AI 活動，12 月神經(jīng)信息處理系統(tǒng)會議提交論文的截止日期。隨著硅谷的冬天變成春天，實驗的步伐加快了。

他們測試了兩種 Transformer 模型：一種經(jīng)過 12 小時訓(xùn)練產(chǎn)生的模型，以及一個經(jīng)過三天半訓(xùn)練的更強大的版本，名為 Big。他們將它們用于英德翻譯。

基本模型超越了所有競爭對手Big 獲得的 BLEU 分?jǐn)?shù)，徹底打破了之前的紀(jì)錄，同時計算效率也更高。

Parmar說「我們用的時間比外面任何人都要少，而且這才剛剛開始，因為數(shù)字還在不斷提高」。當(dāng) Uszkoreit 聽到這個消息時，他從他的卡車?yán)锬贸鲆黄筷惸晗銠墶?/p>

在截止日期前的最后兩周，他們陷入了瘋狂。盡管團隊中有些人名義上仍在 1945 號樓有辦公桌，但他們大部分時間都在 1965 號樓工作，因為那里有一個更好的濃縮咖啡機�！复蠹叶紱]睡覺」Gomez 說，作為實習(xí)生，他一直處于不斷地調(diào)試狂潮中，并為論文制作了一些圖表。

在這樣的項目中，剝離是很常見的過程，拿掉一些看似累贅的東西，看看剩下的是否足以完成工作。

「這里面有各種技巧和模塊組合哪個有用，哪個沒用。我們把一些部分扯出來，再用其他的來代替」Gomez 說。

在Shazeer的助力下，Transformer 產(chǎn)生了「一些極簡的東西」，對此，Jones 認(rèn)為 Noam 是個巫師。

Vaswani 回憶起一天晚上，在團隊寫論文時，他在辦公室沙發(fā)上睡著了。他盯著將沙發(fā)與房間其他部分隔開的窗簾，被上面的圖案吸引，這讓他想起了突觸和神經(jīng)元。Gomez 在那里，Vaswani 告訴他，他們正在研究的東西將超越機器翻譯：

最終，就像人腦一樣，你需要將所有這些模式語音、音頻、視覺統(tǒng)一在一個架構(gòu)下，我有一種強烈的預(yù)感，我們正在研究更通用的事情。

然而，在 Google 的高層看來，這項工作只是另一個有趣的 AI 項目。

但 Uszkoreit 說在當(dāng)時「我們明白這可能是一件相當(dāng)大的事情，這讓我們真正著迷于論文最后一段中的一句話，我們在那里評論未來的工作�！�

后來，Transformer 模型幾乎應(yīng)用于所有形式的人類表達。研究團隊對基于注意力的模型的未來感到興奮，并計劃將 Transformer 擴展到涉及除文本以外的輸入和輸出模式的問題，而且還要繼續(xù)開展在「圖像、音頻和視頻」領(lǐng)域的研究。

在截止日期前的幾個晚上，Uszkoreit 意識到他們需要一個標(biāo)題。Jones 覺得他們的團隊已經(jīng)對注意力進行了激進的拒絕，特別是長短期記憶網(wǎng)絡(luò)（LSTM），The Beatles（披頭士樂隊）有一首歌叫「All You Need Is Love」，那為什么不把論文命名為「Attention Is All You Need」？

他們一直在收集實驗結(jié)果，直到截止前的最后兩分鐘的時候，他們發(fā)送了論文。

幾乎和所有科技公司一樣，Google 迅速為這項工作申請了臨時專利。這樣做的目的不是阻止他人使用這些想法，而是為了建立專利組合以進行防御。（該公司的理念是：如果技術(shù)進步，Google 將從中受益。）

當(dāng) Transformers 團隊從會議同行評審員那里得到反饋時，他們的反應(yīng)是復(fù)雜的：「一個正面，一個極其正面，還有一個說這個還可以」。

這篇論文被列為其中一個晚上的海報會議。

到了 12 月，這篇論文終于引起了人們的關(guān)注。12 月 6 日，在長達四個小時的會議中，會議室一直擠滿著想了解更多信息的科學(xué)家。創(chuàng)始團隊成員一直聊到嗓子沙啞，直到晚上 10:30，人們?nèi)匀痪奂谀抢铮诒０哺嬷坏貌簧鲭x開后，回憶才算結(jié)束。

對 Uszkoreit 他來說，這個過程中，最滿意的時刻之一可能是計算機科學(xué)家 Sepp Hochreiter 走過來贊揚這項工作，考慮到 Hochreiter 是長短期記憶的聯(lián)合發(fā)明者，這對 Transformers 來說是一個很大的贊美，因為 Transformer 剛剛?cè)〈怂?AI 工具包中的首選地位。

Transformer 并沒有立即接管世界，甚至 Google。Kaiser 回憶說，在論文發(fā)表的時候，Shazeer 建議 Google 的高管放棄整個搜索，并用 Transformer 訓(xùn)練一個巨大的網(wǎng)絡(luò)這基本上是改變 Google 組織信息的方式。

那時，即使是 Kaiser 也認(rèn)為這個想法很荒謬。但現(xiàn)在，普遍的觀點是：這只是時間問題。

一家名為 OpenAI 的初創(chuàng)公司反應(yīng)非�？臁Ｕ撐陌l(fā)表后不久，OpenAI 的首席研究員 Ilya Sutskever 建議科學(xué)家 Alec Radford 跟進這個想法。結(jié)果，誕生了第一批 GPT 產(chǎn)品。

正如 OpenAI 首席執(zhí)行官 Sam Altman 去年所說：

當(dāng) Transformer 論文發(fā)表時，我想 Google 的任何人都沒有意識到這意味著什么。

而 Google 內(nèi)部的情況更為復(fù)雜，Uszkoreit 說「對我們而言， Transformer 很明顯能做到神奇的事情，現(xiàn)在你可能會問，為什么 2018 年 Google 沒有 ChatGPT？實際上，我們可能在 2019 年，甚至 2020 年就有了 GPT-3 或 3.5。關(guān)鍵問題不是他們看到了什么？問題是，我們看到了什么，為什么不去做任何事情？這個問題的答案很棘手�！�

許多技術(shù)評論家指出，Google 正在從以創(chuàng)新為中心的游樂場，轉(zhuǎn)變?yōu)橐缘拙€為重點的官僚機構(gòu)。正如 Gomez 告訴《金融時報》的那樣，「他們沒有現(xiàn)代化。他們沒有采用這項技術(shù)」。

但對于一個技術(shù)領(lǐng)先行業(yè)幾十年并從中獲得巨大利潤的巨頭公司來說，這樣做需要很大的勇氣。

Google 確實在 2018 年開始將 Transformer 集成到產(chǎn)品中，從翻譯工具開始。同年，它還引入了一種名為 BERT 的新基于 Transformer 的語言模型，從第二年開始應(yīng)用于搜索。

但這些底層變化與 OpenAI 的量子躍進和微軟大膽地將基于 Transformer 的系統(tǒng)集成到其產(chǎn)品線相比，似乎有些畏縮。去年，當(dāng)被問及為什么 Google 沒有率先推出像 ChatGPT 這樣的大型語言模型時，CEO Sundar Pichai 爭辯說：

在這種情況下 Google 發(fā)現(xiàn)讓別人領(lǐng)導(dǎo)是有利的。對我來說，這并不是完全清楚它可能會成功。事實是，人們看到了它的工作方式后，我們可以做得更多。

一個不可否認(rèn)的事實是，論文的 8 位作者都相繼離開了 Google：

Polosukhin 的公司 Near 建立了一個市值約 40 億美元的區(qū)塊鏈。

Parmar 和 Vaswani 在 2021 年成為商業(yè)伙伴，創(chuàng)辦了Adept（估值 10 億美元），現(xiàn)在正在創(chuàng)辦他們的第二家公司，名為 Essential AI（800 萬美元資金）。

Llion Jones 的總部位于東京，他們研發(fā)的 Sakana AI 估值為 2 億美元。

Shazeer 在 2021 年 10 月離職，與他人共同創(chuàng)辦了 Character AI（估值 50 億美元）。

實習(xí)生 Aidan Gomez 在 2019 年與他人共同創(chuàng)辦了位于多倫多的 Cohere（估值 22 億美元）。

Jakob Uszkoreit 的生物技術(shù)公司 Inceptive ，估值為 3 億美元。

除了Near，上述所有的公司和旗下產(chǎn)品，都基于 Transformer 技術(shù)。

Kaiser 是唯一一個沒有創(chuàng)立公司的人。他加入了 OpenAI，并且是名為「Q*」的新技術(shù)的發(fā)明者之一，Altman 去年表示這項技術(shù)「將無知之幕推回，并將發(fā)現(xiàn)的前沿推向前進�！�

在接受 WIRED 的采訪時，記者試圖向 Kaiser 詢問有關(guān) Q* 的業(yè)務(wù)時，OpenAI 的公關(guān)人員幾乎跳過桌子來阻止他出聲。

Google 是否想念這些「逃亡者」？當(dāng)然，除了從公司遷移到新的 AI 初創(chuàng)公司的人，因為 AI 領(lǐng)域的流動非常非常動態(tài)。但 Google 可以吹噓它創(chuàng)造了一個支持追求非傳統(tǒng)想法的環(huán)境。

Parmar 認(rèn)為「在很多方面，Google 一直走在前列他們投資了正確的大腦，并創(chuàng)造了我們可以探索和突破的環(huán)境，花時間接受它是瘋狂的，而 Google 實際上有更多的賭注」。

沒有這樣的環(huán)境，就沒有 Transformer。不僅是因為作者都是 Google 員工，他們還在同一棟辦公樓里工作，走廊相遇和無意間聽到的午餐對話導(dǎo)致了重要的時刻。

并且，這個團隊在文化上也是多元化的。八個作者中有六個出生在美國以外；另外兩個分別是兩個持綠卡的德國人在加州暫住期間生的孩子，以及一個逃離迫害的第一代美國人。

在柏林辦公室的 Uszkoreit 說，創(chuàng)新完全取決于正確的條件：

這是要找到那些對某事超級興奮的人，他們正處于生活中的正確時刻，如果你有這個（條件），并且在做這件事的時候感到快樂，并且你在正確的問題上工作而且你很幸運那么魔法就會發(fā)生。

Uszkoreit 和他的著名父親之間也發(fā)生了某種神奇的事情。他的兒子報告說，在所有那些餐桌上的辯論之后，Hans Uszkoreit 現(xiàn)在與人共同創(chuàng)立了一家公司，該公司正在構(gòu)建大型語言模型。

當(dāng)然，它們使用的也是 Transformer。

相關(guān)熱詞： 大神首次承認(rèn) 參與神秘模型研發(fā) OpenAI 壞了

上一篇：科技革命“奇點”正在臨近，未來人工智能會變得比人更聰明嗎？｜聚焦博鰲

下一篇：（聚焦博鰲）院士張亞勤：預(yù)計人工智能五年內(nèi)在影音方面通過圖靈測試

AiLab云推薦

AI 大神首次承認(rèn)參與神秘模型 Q* 研發(fā)，把 OpenAI 嚇壞了 | Transformer 作者專訪
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-03-28 14:41:01 瀏覽：6343次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

AI 大神首次承認(rèn)參與神秘模型 Q* 研發(fā)，把 OpenAI 嚇壞了 | Transformer 作者專訪 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-03-28 14:41:01 瀏覽：6343次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

AI 大神首次承認(rèn)參與神秘模型 Q* 研發(fā)，把 OpenAI 嚇壞了 | Transformer 作者專訪
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-03-28 14:41:01 瀏覽：6343次