當前位置：人工智能實驗室> 人物報道 > “出逃”的Transformer八子：引領生成式AI革命的谷歌科學家

“出逃”的Transformer八子：引領生成式AI革命的谷歌科學家
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-07-25 07:08:22 瀏覽：24676次

導讀：【編者按】誰也沒想到，兩位谷歌科學家在走廊中的一次談話，徹底改變了 AI 行業(yè)的行進軌跡。 Transformer，一種在自然語言處理（NLP）等領域展現(xiàn)出強大能力的深度學習模型，在被提出六年后的今天，正在引領此次由 ChatGPT 掀起的生成式 AI 浪潮。 2017 年，T...

【編者按】誰也沒想到，兩位谷歌科學家在走廊中的一次談話，徹底改變了 AI 行業(yè)的行進軌跡。

Transformer，一種在自然語言處理（NLP）等領域展現(xiàn)出強大能力的深度學習模型，在被提出六年后的今天，正在引領此次由 ChatGPT 掀起的生成式 AI 浪潮。

2017 年，“Transformer 八子”發(fā)表了題為 “Attention is All You Need”的重磅論文，其中提出的“自注意力”這一革命性的概念，成為了 Transformer 模型的核心部分。

如今，Transformer 不僅嵌入在谷歌搜索和谷歌翻譯中，并且驅(qū)動著 ChatGPT 和 Bard 在內(nèi)的幾乎所有大型語言模型（LLMs）。

另外，Transformer 還支撐著 DALLE、Midjourney 和 Stable Diffusion 等圖像生成工具，GitHub CoPilot 等代碼生成器，甚至還包括 DNA 生成模型等。

然而，“Transformer 八子”卻因谷歌內(nèi)部的研究方向和團隊結(jié)構(gòu)等種種原因相繼選擇了離開。日前，最后一位留在谷歌的 Transformer 論文共同作者 Llion Jones 也宣布將于本月底離開老東家。

在離開谷歌后，他們紛紛創(chuàng)建了自己的公司。其中，Polosukhin 創(chuàng)辦了一家名為 Near 的初創(chuàng)公司；Gomez 創(chuàng)辦了 Cohere；Uszkoreit 創(chuàng)建了一家生物技術公司 Inceptive；Shazeer 與他人共同創(chuàng)辦了 Character.ai；Vaswani 和 Parmar 則合作創(chuàng)辦了 Essential.ai。

近日，英國《金融時報》（Financial Times）刊登了一篇題為“Transformers: the Google scientists who pioneered an AI revolution”的文章，詳細介紹了 Transformers 誕生的過程以及八位作者離開谷歌的原因。

圖｜從左到右、從上到下依次為：Llion Jones、Niki Parmar、Noam Shazeer、Jakob Uszkoreit、Lukasz Kaiser、Illia Polosukhin、Ashish Vaswani、Aidan Gomez

學術頭條在不改變原文大意的情況下，做了簡單的編譯。完整內(nèi)容如下：

就像許多科學發(fā)現(xiàn)中的突破一樣，推動人工智能（AI）革命的那一刻來自于一次偶然的機遇。

2017 年初，當時還任職于 Google research 的科學家 Ashish Vaswani 和 Jakob Uszkoreit 正在谷歌大本營所在地 Mountain View 園區(qū)的走廊上討論一個改進機器翻譯的新想法，而該想法后來成為了谷歌翻譯背后的 AI 技術。

他們一直與另一名同事 Illia Polosukhin 合作，研究一個他們稱之為“自注意力（self-attention）”的概念，這個概念可以極大地加快和增強計算機理解語言的能力。

Polosukhin 是一名科幻迷，他認為“自注意力”有點像剛剛上映的電影《降臨》中的外星語言。虛構(gòu)的外星語言中并不包含線性的詞序列，而是使用單一符號來表示一個想法或概念，然后生成整個句子，而人類語言學家必須使用整體符號來解碼。

當時最先進的 AI 翻譯方法是逐詞掃描句子，并按順序逐個翻譯。而“自注意力”的想法是一次性閱讀整個句子，分析其所有部分而不僅僅是個別單詞。這樣可以獲得更好的上下文，并且可以并行生成翻譯結(jié)果。

這三位谷歌科學家推測，這種方法會比當時最好的方法快得多，而且更準確。他們開始在英德（English-German）翻譯上嘗試一些早期原型，結(jié)果發(fā)現(xiàn)效果不錯。

在走廊里，谷歌資深員工 Noam Shazeer 無意中聽到了 Uszkoreit 和 Vaswani 的談話。Shazeer 在 2000 年便加入了谷歌，當時公司內(nèi)只有大約 200 名員工。

Shazeer 曾經(jīng)協(xié)助構(gòu)建谷歌搜索“Did You Mean? ”的拼寫檢查功能，還參與了其他幾項 AI 創(chuàng)新工作，但對現(xiàn)有的語言生成方法感到沮喪，并在尋找新思路。

當他聽到“自注意力”的想法時，他決定加入并提供幫助。Shazeer 說：“我支持你們......我們一起來做吧，這將使所有的 AI 研究員受益匪淺。”

這次偶然的談話促成了 2017 年正式啟動的為期數(shù)月的合作，最終產(chǎn)生了一種處理語言的架構(gòu)，也就是“Transformer”。最終，參與其中的八位研究科學家在一篇簡短的論文中描述了這種架構(gòu)，論文標題簡潔有力：“Attention Is All You Need”。

其中一位作者 Llion Jones 在威爾士的一個小村莊長大，他說這個標題是向披頭士的歌曲《All You Need Is Love》致敬。這篇論文最早發(fā)表于 2017 年 6 月，它開啟了 AI 的全新時代：生成式 AI 的崛起。

如今，Transformer 在大多數(shù)前沿 AI 應用中發(fā)揮著支撐作用。它嵌入在谷歌搜索和谷歌翻譯中，雖然最初是為這兩者而發(fā)明的，但它現(xiàn)在還驅(qū)動著所有的大型語言模型，包括 ChatGPT 和 Bard 背后的模型。同時，它也驅(qū)動著我們手機鍵盤上的自動完成功能，并為智能音箱提供語音識別服務。

然而，它真正的威力遠遠超出語言范疇。它可以生成帶有重復圖案或模式的所有東西，從使用 DALLE、Midjourney 和 Stable Diffusion 等工具生成的圖像，到使用 GitHub CoPilot 等生成器生成的計算機代碼，甚至 DNA。

圖｜有關生成式 AI 的風險投資正在激增（來源：Financial Times）

Vaswani 對音樂有著特別的興趣，想知道是否可以利用 Transformer 來生成音樂。他驚訝地發(fā)現(xiàn)它不僅可以生成古典鋼琴音樂，還能生成當時最先進的 AI 模型。

“Transformer 是一種快速捕捉輸入的不同部分之間交互的方式，一旦捕捉到，它就可以從中學習特征，”他說。“這是一種通用方法，可以捕捉句子中各個部分之間的交互，或者音樂中的音符，圖像中的像素，蛋白質(zhì)的組成部分。它可以用于任何任務。”

Transformer 的起源以及其創(chuàng)造者的故事有助于解釋我們是如何在 AI 領域走到了這一步：這是一個轉(zhuǎn)折點，就像我們在轉(zhuǎn)向互聯(lián)網(wǎng)或智能手機時那樣，它為新一代企業(yè)家提供了種子，讓他們?yōu)榇蟊婇_發(fā)出 AI 驅(qū)動的消費產(chǎn)品。

但同時，這也凸顯了谷歌在演變?yōu)辇嫶?ldquo;官僚機構(gòu)”的過程中究竟如何扼殺了本應蓬勃發(fā)展的創(chuàng)業(yè)精神以及快速推出新消費產(chǎn)品的能力。我們對八位作者中的七位進行了采訪。

這是“創(chuàng)新者困境”（innovator’s dilemma）的鮮明例證，這個術語是由哈佛商學院教授 Clayton Christensen 創(chuàng)造，探討了行業(yè)領導者被小而新的企業(yè)超越的原因。盡管谷歌聚集了全球領先的深度學習和 AI 人才，并為他們創(chuàng)造了一個有利的研究環(huán)境，但卻無法留住他們自己培養(yǎng)的科學家。

谷歌在一份聲明中表示，對于 Transformer 和其創(chuàng)造的 AI 生態(tài)系統(tǒng)，他們感到“自豪”。他們承認在這樣一個充滿活力的環(huán)境中，有才華的員工可能會選擇離開，這是苦樂參半的現(xiàn)實。

專家們認為，這些知識資本的創(chuàng)造導致了創(chuàng)新的爆炸。Alphabet 旗下專注于 AI 投資的成長型基金 CapitalG 的合伙人 Jill Chase 表示：“‘Attention is All You Need ’的成果已經(jīng)成為幾乎所有使用大型語言模型的生成式 AI 公司的基矗我的意思是，它無處不在。這就是其中最瘋狂的事情。因為有了 Transformer，這些產(chǎn)品才得以存在。”

創(chuàng)新的誕生

像所有科學進步一樣，Transformer 建立在之前幾十年的工作基礎上，這些工作來自谷歌自身的實驗室，以及其子公司 DeepMind（現(xiàn)與 Google Brain 一起合并為 Google DeepMind），F(xiàn)acebook 所有者 Meta，以及來自大學的研究人員等等。

但是在2017年，這些碎片通過谷歌研究部門的幾個科學家的偶然集結(jié)而得以融合。

最終的團隊成員包括 Vaswani、Shazeer、Uszkoreit、Polosukhin 和 Jones，以及當時在多倫多大學攻讀學位的實習生 Aidan Gomez 和 Uszkoreit 團隊的碩士研究生 Niki Parmar。第八位作者是 Lukasz Kaiser，他也是法國國家科學研究中心的兼職學者。

每個人都被吸引到 AI 研究的新興領域：自然語言處理。這個團隊在教育、職業(yè)和地理背景上的多樣性使他們獨具特色。Uszkoreit 在美國和德國長大，他說：“擁有這樣多樣化的團隊成員對這項工作的發(fā)展絕對至關重要。”

Uszkoreit 最初堅決不愿涉足語言理解領域，因為他的父親是計算語言學的教授。但當他作為實習生來到谷歌時，他發(fā)現(xiàn)當時 AI 領域最有趣的問題是語言翻譯，盡管這讓他感到有些惱火。最后，他不情愿地走上了父親的道路，也開始專注于機器翻譯。

據(jù)他們回憶，他們最初以三個獨立小組的身份研究“自注意力”的不同方面，但后來決定集中起來。一些團隊成員負責編寫初始代碼、清洗數(shù)據(jù)和進行測試，而其他人則負責圍繞模型創(chuàng)建架構(gòu)，將其集成到谷歌的基礎設施中，以確保其高效運行，并最終使其易于部署。

Jones 談到，“Transformer 的想法是我們在辦公室工作和合作時自然形成的。”谷歌豐富多彩的開放式工作環(huán)境，配備園區(qū)自行車，后來證明是富有成效的。“我記得 Jakob Uszkoreit 騎著自行車來到我的辦公桌前，在我身后的白板上潦草地畫了一個模型，然后收集了當時在場同事的想法。”

團隊之間的聯(lián)系源自他們對語言的癡迷，以及利用 AI 來更好地理解語言的動機。正如資深工程師 Shazeer 所說：“文本實際上是我們最集中的抽象思維形式。我一直覺得，如果你想構(gòu)建真正智能的東西，你應該從文本入手。”

在論文中提到的模型是對原始“自注意力”思想的簡化版本。Shazeer 發(fā)現(xiàn)，當去除了他們試圖添加的所有花哨之后，這種簡化的方式效果更好。模型代碼提供了起點，但需要進行大量的微調(diào)才能使其在圖形處理單元（GPU）上運行，而 GPU 是最適合像 Transformer 這樣的深度學習技術的硬件。

Uszkoreit 表示，“在深度學習中，一切都不僅僅是方程式本身。關鍵在于如何將它們應用到硬件上，這是一個巨大的黑魔法技巧的寶庫，只有極少數(shù)人真正掌握其中的奧秘。”

這些想法主要由 Shazeer 來實現(xiàn)，其中一個共同作者稱他為“魔法師”，Transformer 在每一項應用任務中都取得了飛躍式的改進。

它的好處在于它允許計算并行計算，并將它們打包成比其他方法少得多的數(shù)學運算，從而使計算速度更快、更高效。Polosukhin 說：“它非常簡單，這個模型整體上非常緊湊。”

該論文的同行評審版本在 2017 年 12 月發(fā)表，恰好趕上了當年在加利福尼亞南部舉行的最負盛名的機器學習會議之一NeurIPS。他們?nèi)匀挥浀�，當他們展示工作海報時，他們被會議現(xiàn)場的研究人員團團圍祝不久之后，谷歌之外的科學家們也開始將 Transformer 應用于從翻譯到 AI 生成答案、圖像標注和識別等各個領域中。目前，它在研究論文中的引用次數(shù)已經(jīng)超過 82000 次。

圖｜Lukasz Kaiser 和 Illia Polosukhin 在 NeurIPS 現(xiàn)常（來源：Financial Times）

“Transformer 在研究和實際應用中都經(jīng)歷了一次大爆發(fā)，”Vaswani 表示，“我們看到它推動了神經(jīng)機器翻譯的發(fā)展，語言模型 BERT 出現(xiàn)了，這使得 Transformer 進入了搜索領域當 Transformer 應用于谷歌搜索時，實用 AI 迎來了一個非常重要的時刻。”

論文發(fā)表后，Parmar 發(fā)現(xiàn) Transformer 可以生成類似維基百科的長篇文本，而以前的模型在這方面一直存在困難。她說：“當時我們已經(jīng)知道，人們以前根本做不到這樣的事情。”

Parmar 還認識到了 Transformer 的一個關鍵特性：當你擴大它們的規(guī)模，給它們越來越多的數(shù)據(jù)時，它們能夠?qū)W得更好。這為 GPT-4 等大型模型的出現(xiàn)指明了方向，這些模型在推理和語言能力上比它們的“前輩們”要強得多。

“總的來說，Transformer 似乎在任何應用它們的領域里，都比之前的模型表現(xiàn)都好得多，”Jones 說，“我認為這就是滾雪球效應出現(xiàn)的原因。”

“出逃”谷歌

在 Transformer 論文引起強烈的反響之后，研究人員開始對將自己的想法推向市場感到急不可待。

AI 研究的步伐正在加快，特別是在使用 Transformer 生成文本和圖像等領域，但許多貢獻來自于谷歌之外的創(chuàng)業(yè)公司，比如 OpenAI。

七位接受采訪的 Transformer 共同作者表示，他們想要發(fā)現(xiàn)他們所創(chuàng)造的工具箱能夠做什么。“Transformer 之后的幾年是研究上最富有成果的幾年。很明顯，模型會隨著更多反饋變得更智能，”Vaswani 說，“沒有人能夠抗拒這個機會。”

但他們也發(fā)現(xiàn)，谷歌的組織結(jié)構(gòu)不允許進行冒險創(chuàng)業(yè)或迅速推出新產(chǎn)品。這需要建立一種“新型軟件......可以與計算機對話”，Vaswani 補充道，“在谷歌之外實現(xiàn)這一愿景似乎更容易。”最終，他于 2021 年離開了谷歌。

Polosukhin 早在 2017 年就離開了谷歌，創(chuàng)辦了一家名為 Near 的初創(chuàng)公司。最初的想法是利用 AI 來教計算機編程，但后來轉(zhuǎn)向了區(qū)塊鏈支付領域。

后來，年輕且經(jīng)驗最為不足的 Gomez 也坐不住了。他對時尚和設計充滿熱情，曾在 Kaiser 的團隊實習，并發(fā)現(xiàn)自己置身于有關語言理解的令人興奮的研究前沿。

他說，“我離開谷歌的原因是，實際上我沒有看到足夠多的產(chǎn)品采用我正在使用的技術。它們沒有改變，沒有現(xiàn)代化，沒有采用這項技術。我沒有看到這種大型語言模型技術真正到達它需要到達的地方。”

2019 年，Gomez 離開了谷歌，創(chuàng)辦了一家名為 Cohere 的生成式 AI 初創(chuàng)公司。該公司的估值現(xiàn)已超過 20 億美元，獲得了 Nvidia、Oracle、Salesforce 等公司的投資。Gomez 希望將大型語言模型應用于從銀行和零售到客戶服務的各種商業(yè)問題。“對我們來說，重要的是降低使用門檻，”他說，“每個開發(fā)者都應該能夠使用這些技術來構(gòu)建應用。”

與此同時，Uszkoreit 決定將 Transformer 應用于一個完全不同的領域。他的初創(chuàng)公司 Inceptive 是一家生物技術公司，正在使用深度學習技術設計“生物軟件”。他解釋說：“如果你想到計算機軟件，它是編程可執(zhí)行的東西......然后有一個程序，最后轉(zhuǎn)換成可以在計算機上運行的軟件。我們想做類似的事情，但是針對的是人體內(nèi)的細胞。”

該公司已經(jīng)向一家大型制藥公司交付了由 AI 設計的傳染病疫苗分子。Uszkoreit 表示，“我相信，這是迄今為止在我過去十年的工作基礎上改善甚至拯救人們生命的最佳方式。”

在任職的第二十個年頭，Shazeer 于 2021 年離開了谷歌，與他人共同創(chuàng)辦了 Character.ai，這是一家允許用戶建立屬于自己角色聊天機器人的公司。他說：“在大公司推出產(chǎn)品似乎有些困難......而初創(chuàng)公司可以更快地實現(xiàn)。”

Vaswani 和 Parmar 于 2021 年同時離開谷歌，并合作創(chuàng)辦了一家名為 Essential.ai 的新公司，該公司致力于在商業(yè)領域應用 AI。這家初創(chuàng)公司目前仍處于隱秘狀態(tài)，但已經(jīng)從 Thrive Capital 獲得了 800 萬美元的資金。

“谷歌是一個令人驚嘆的地方，但他們希望優(yōu)化現(xiàn)有的產(chǎn)品......所以事情進展得非常緩慢，”Parmar 說，“我希望利用這項非常有能力的技術構(gòu)建出新的產(chǎn)品，這是促使我離開的一個很大的動力。”

這些共同作者仍然保持著頻繁的溝通，他們共同慶祝彼此的成功，并在成為初創(chuàng)企業(yè)家時互相支持，面對獨特的挑戰(zhàn)。

如果說 Transformer 是一個“大爆炸”時刻，那現(xiàn)在圍繞它已經(jīng)展開了一個宇宙，從幾乎預測了所有已知蛋白質(zhì)結(jié)構(gòu)的 AlphaFold，再到 ChatGPT，Vaswani 稱其為“黑天鵝事件”。

這導致了硅谷業(yè)內(nèi)人士稱之為“技術過剩”（technology overhang）的時期即使研究沒有取得任何進展，各行業(yè)也會花費時間將最新的 AI 技術應用到產(chǎn)品中。

“人們已經(jīng)感受到了 Transformer 的影響力AI 吸引了研究人員、技術專家和產(chǎn)品人員�，F(xiàn)在，我們相信這種技術已經(jīng)過剩......在各種產(chǎn)品中有很多價值可以實現(xiàn)，”Vaswani 說，“在某種程度上，這就是我們都分散開，試圖將這項技術直接交到人們手中的原因。”