當(dāng)前位置：人工智能實(shí)驗(yàn)室> 神經(jīng)網(wǎng)絡(luò) > Transformer神經(jīng)網(wǎng)絡(luò)：GPT等AI大模型的基石

Transformer神經(jīng)網(wǎng)絡(luò)：GPT等AI大模型的基石
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-19 15:59:35 瀏覽：6656次

導(dǎo)讀：Transformer模型基于自注意力機(jī)制，摒棄了傳統(tǒng)的RNN和CNN結(jié)構(gòu)，在自然語(yǔ)言處理任務(wù)中取得了顯著的成果，一定程度上是GPT的重要基石。這篇文章里，作者就對(duì)Transformer神經(jīng)網(wǎng)絡(luò)做了解讀，一起來(lái)看一下。上文介紹了生成對(duì)抗網(wǎng)絡(luò)（GAN）的基礎(chǔ)概念，今天我們來(lái)...

Transformer模型基于自注意力機(jī)制，摒棄了傳統(tǒng)的RNN和CNN結(jié)構(gòu)，在自然語(yǔ)言處理任務(wù)中取得了顯著的成果，一定程度上是GPT的重要基石。這篇文章里，作者就對(duì)Transformer神經(jīng)網(wǎng)絡(luò)做了解讀，一起來(lái)看一下。

上文介紹了生成對(duì)抗網(wǎng)絡(luò)（GAN）的基礎(chǔ)概念，今天我們來(lái)介紹Transformer神經(jīng)網(wǎng)絡(luò)。

Transformer神經(jīng)網(wǎng)絡(luò)模型僅基于注意機(jī)制（Attention Mechanisms），完全摒棄了循環(huán)和卷積的結(jié)構(gòu)，以其獨(dú)特的自注意力機(jī)制和并行計(jì)算能力，解決了傳統(tǒng)模型在處理長(zhǎng)序列時(shí)的長(zhǎng)距離依賴問(wèn)題和計(jì)算效率問(wèn)題，從而在各種NLP任務(wù)中取得了優(yōu)異的性能。

本文既是深度學(xué)習(xí)系列的最后一篇，也可以看做是大語(yǔ)言模型系列的先導(dǎo)篇，起到了承上啟下的作用。

一、基本原理

Transformer模型由Vaswani等人在2017年的論文《Attention is All You Need》中提出。該模型完全基于自注意力機(jī)制，摒棄了傳統(tǒng)的RNN和CNN結(jié)構(gòu)，因此在處理長(zhǎng)距離依賴問(wèn)題上表現(xiàn)出了優(yōu)越的性能。

下面我將結(jié)合《Attention is All You Need》中的這張Transformer結(jié)構(gòu)圖，來(lái)簡(jiǎn)單解釋其原理。

Transformer模型主要由兩部分組成：編碼器（Encoder）和解碼器（Decoder）。編碼器用于理解輸入數(shù)據(jù)，解碼器用于生成預(yù)測(cè)。

接下來(lái)我們對(duì)核心部件和名詞做一些解釋?zhuān)?/p>

編碼器（Encoder）：編碼器的作用是將輸入的詞序列轉(zhuǎn)化為一系列連續(xù)的向量表示，這些向量表示包含了輸入序列的語(yǔ)義信息。每個(gè)編碼器層包含兩個(gè)子層：自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)。每個(gè)子層后面都有一個(gè)殘差連接和層歸一化，這有助于模型學(xué)習(xí)復(fù)雜函數(shù)并穩(wěn)定訓(xùn)練。解碼器（Decoder）：解碼器的作用是根據(jù)編碼器的輸出和已經(jīng)生成的部分目標(biāo)序列，生成下一個(gè)目標(biāo)詞。每個(gè)解碼器層包含三個(gè)子層：自注意力機(jī)制、編碼器-解碼器注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)。每個(gè)子層后面都有一個(gè)殘差連接和層歸一化。自注意力機(jī)制（Self-Attention）：自注意力機(jī)制的作用是計(jì)算序列中每個(gè)詞對(duì)其他詞的注意力，使得模型在生成每個(gè)詞時(shí)都能考慮到整個(gè)序列的信息。例如，在處理句子“The cat is black”中的“black”時(shí)，自注意力機(jī)制允許模型同時(shí)考慮到“cat”，從而更好地理解“black”的含義。這種機(jī)制解決了長(zhǎng)距離依賴問(wèn)題。多頭注意力機(jī)制（Multi-Head Attention）：多頭注意力機(jī)制的作用是讓模型能夠同時(shí)關(guān)注序列中的多個(gè)位置，從不同的角度學(xué)習(xí)序列的信息。例如，一個(gè)頭可能專(zhuān)注于學(xué)習(xí)語(yǔ)法關(guān)系，如“cat”和“is”的主謂關(guān)系；另一個(gè)頭可能專(zhuān)注于學(xué)習(xí)詞義關(guān)系，如“cat”和“black”的修飾關(guān)系。位置編碼（Positional Encoding）：位置編碼的作用是給模型提供詞的位置信息，因?yàn)門(mén)ransformer本身無(wú)法處理詞的順序信息。殘差連接（Residual Connection）：殘差連接的作用是幫助模型更好地學(xué)習(xí)復(fù)雜函數(shù)。在Transformer中，每個(gè)子層的輸入不僅被送入子層進(jìn)行處理，還會(huì)與子層的輸出相加。這樣，模型需要學(xué)習(xí)的就是輸入和輸出之間的差異，即殘差，而不是直接學(xué)習(xí)輸出。這使得模型能夠更容易地學(xué)習(xí)復(fù)雜函數(shù)。層歸一化（Layer Normalization）：層歸一化的作用是穩(wěn)定模型的訓(xùn)練。在Transformer中，每個(gè)子層的輸出會(huì)被規(guī)范化，即減去均值并除以標(biāo)準(zhǔn)差。這使得模型的輸出在不同的層和位置都有相似的規(guī)模，從而穩(wěn)定了模型的訓(xùn)練。線性層：線性層的作用是將解碼器的輸出轉(zhuǎn)化為預(yù)測(cè)每個(gè)可能的目標(biāo)詞的分?jǐn)?shù)。softmax層：softmax層的作用是將線性層的輸出轉(zhuǎn)化為概率，使得分?jǐn)?shù)最高的詞被選為下一個(gè)目標(biāo)詞。

接下來(lái)，我們舉個(gè)栗子，來(lái)說(shuō)明Transformer的處理流程：

假設(shè)我們要翻譯句子“The cat is black”到漢語(yǔ)。

首先，我們需要將輸入句子轉(zhuǎn)化為詞向量，這是通過(guò)詞嵌入（Word Embedding）實(shí)現(xiàn)的。然后，我們將位置編碼添加到詞向量中，得到了包含位置信息的詞向量。接下來(lái)，這些詞向量被送入編碼器。在編碼器的每一層，每個(gè)詞向量都會(huì)通過(guò)自注意力機(jī)制，計(jì)算與其他詞的關(guān)系，并生成一個(gè)新的向量。然后，這個(gè)新的向量會(huì)通過(guò)前饋神經(jīng)網(wǎng)絡(luò)，得到最終的編碼器輸出。編碼器的輸出被送入解碼器。在解碼器的每一層，除了有一個(gè)自注意力機(jī)制和一個(gè)前饋神經(jīng)網(wǎng)絡(luò)外，還有一個(gè)編碼器-解碼器注意力機(jī)制。這個(gè)注意力機(jī)制會(huì)計(jì)算目標(biāo)序列中每個(gè)詞與輸入序列中每個(gè)詞的關(guān)系，幫助模型更好地生成下一個(gè)詞。最后，解碼器的輸出被送入一個(gè)線性層和一個(gè)softmax層，生成最終的預(yù)測(cè)。在我們的例子中，模型可能首先生成“這只”,然后生成“貓”,接著生成“是”,最后生成“黑色的”，完成了翻譯。

整體來(lái)看，Transformer模型解決了RNN等模型在處理序列數(shù)據(jù)時(shí)的幾個(gè)核心問(wèn)題：

長(zhǎng)距離依賴問(wèn)題：在處理序列數(shù)據(jù)時(shí)，經(jīng)常會(huì)遇到長(zhǎng)距離依賴問(wèn)題，即序列中相隔較遠(yuǎn)的元素之間可能存在關(guān)聯(lián)。RNN由于其遞歸的特性，處理長(zhǎng)距離依賴關(guān)系的能力有限，尤其是在序列較長(zhǎng)時(shí)，可能會(huì)出現(xiàn)梯度消失或梯度爆炸的問(wèn)題。而Transformer通過(guò)自注意力機(jī)制，可以直接計(jì)算序列中任意兩個(gè)位置之間的依賴關(guān)系，從而有效地解決了長(zhǎng)距離依賴問(wèn)題。并行計(jì)算問(wèn)題：在處理序列數(shù)據(jù)時(shí)，RNN需要按照序列的順序逐個(gè)處理元素，無(wú)法進(jìn)行并行計(jì)算。這在處理長(zhǎng)序列時(shí)，會(huì)導(dǎo)致計(jì)算效率低下。而Transformer模型由于沒(méi)有使用RNN，可以在處理序列數(shù)據(jù)時(shí)進(jìn)行并行計(jì)算，大大提高了計(jì)算效率。可解釋性問(wèn)題：RNN模型的中間層通常難以解釋。而Transformer模型通過(guò)注意力權(quán)重，可以直觀地理解模型在做決策時(shí)關(guān)注的區(qū)域，提高了模型的可解釋性。

二、Transformer的優(yōu)缺點(diǎn)

Transformer模型在自然語(yǔ)言處理任務(wù)中取得了顯著的成果，我們來(lái)總結(jié)下它的優(yōu)缺點(diǎn)。

優(yōu)點(diǎn)：

并行計(jì)算：由于沒(méi)有使用RNN（循環(huán)神經(jīng)網(wǎng)絡(luò)），可以并行處理序列數(shù)據(jù)，提高計(jì)算效率。長(zhǎng)距離依賴：通過(guò)自注意力機(jī)制，能夠捕捉到序列中的長(zhǎng)距離依賴關(guān)系�？山忉屝裕和ㄟ^(guò)注意力權(quán)重，可以直觀地理解模型在做決策時(shí)關(guān)注的區(qū)域。模型性能：在許多NLP任務(wù)中都取得了最先進(jìn)的結(jié)果，如機(jī)器翻譯、文本摘要等。模型結(jié)構(gòu)靈活：編碼器和解碼器結(jié)構(gòu)可以根據(jù)具體任務(wù)進(jìn)行調(diào)整�？蓴U(kuò)展性：可以通過(guò)堆疊更多的層或者增加更多的注意力頭來(lái)增加模型的容量。

缺點(diǎn)：

計(jì)算資源：需要大量的計(jì)算資源。尤其是在處理長(zhǎng)序列時(shí)，由于自注意力機(jī)制的復(fù)雜度是序列長(zhǎng)度的平方，需要大量的內(nèi)存和計(jì)算能力。訓(xùn)練時(shí)間：盡管可以并行計(jì)算，但由于模型的復(fù)雜性，訓(xùn)練時(shí)間仍然很長(zhǎng)。對(duì)位置編碼的依賴：需要依賴位置編碼來(lái)獲取序列信息，可能會(huì)限制模型處理超出訓(xùn)練時(shí)序列長(zhǎng)度的能力。需要大量數(shù)據(jù)：通常需要大量的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練，對(duì)于數(shù)據(jù)量較小的任務(wù)或者領(lǐng)域，可能無(wú)法充分發(fā)揮其性能。缺乏對(duì)序列長(zhǎng)度的適應(yīng)性：對(duì)于不同長(zhǎng)度的序列，模型可能需要重新調(diào)整和訓(xùn)練。

三、Transformer的重要應(yīng)用：GPT

最近爆火的GPT（Generative Pretrained Transformer）是OpenAI提出的一種預(yù)訓(xùn)練語(yǔ)言模型，全名叫生成式-預(yù)訓(xùn)練-Transformer模型，說(shuō)明Transformer是GPT的重要基石。

GPT采用了Transformer的解碼器（Decoder）結(jié)構(gòu)，但是去掉了編碼器-解碼器的注意力（Encoder-Decoder Attention）部分，使其成為一個(gè)純自回歸模型。

GPT之所以在生成自然語(yǔ)言文本方面表現(xiàn)如此出色，除了以Transformer模型為底座，優(yōu)秀的預(yù)訓(xùn)練技術(shù)同樣功不可沒(méi)。以下是GPT預(yù)訓(xùn)練過(guò)程的一些主要亮點(diǎn)：

自監(jiān)督學(xué)習(xí)：GPT利用自監(jiān)督學(xué)習(xí)的方式，通過(guò)預(yù)測(cè)下一個(gè)詞的任務(wù)來(lái)進(jìn)行訓(xùn)練。這種方式不需要額外的標(biāo)注數(shù)據(jù)，而是利用文本自身的信息來(lái)訓(xùn)練模型，從而降低了對(duì)數(shù)據(jù)的需求。掩碼技術(shù)：GPT在訓(xùn)練過(guò)程中采用了掩碼技術(shù)，隨機(jī)選擇文本中的一些詞進(jìn)行掩碼，然后讓模型根據(jù)上下文來(lái)預(yù)測(cè)這些被掩詞的原始詞。這種技術(shù)有助于提高模型的泛化能力，使其能夠更好地處理未見(jiàn)過(guò)的詞匯和句子結(jié)構(gòu)。高效處理長(zhǎng)序列：GPT模型采用了預(yù)測(cè)掩碼技術(shù)和動(dòng)態(tài)掩碼技術(shù)，使得模型在訓(xùn)練和推理時(shí)能夠高效地處理長(zhǎng)序列。這在對(duì)長(zhǎng)文本進(jìn)行生成時(shí)尤為重要，使得GPT模型比其他模型更加高效。

四、總結(jié)

本文介紹了Transformer模型的基本原理、優(yōu)缺點(diǎn)，并簡(jiǎn)單提到了其爆款應(yīng)用GPT，希望對(duì)大家有所幫助。

這樣，我們的深度學(xué)習(xí)系列也就宣告完結(jié)，我們陸續(xù)介紹了人工神經(jīng)網(wǎng)絡(luò)ANN、卷積神經(jīng)網(wǎng)絡(luò)CNN、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN（LSTM、GRU）、生成對(duì)抗網(wǎng)絡(luò)GAN和Transformer模型，當(dāng)然這些只是深度學(xué)習(xí)的冰山一角，感興趣的朋友可以自行擴(kuò)展。

接下來(lái)我們將正式進(jìn)入大模型的學(xué)習(xí)，下篇文章，我會(huì)介紹在大模型中非常重要的提示詞工程，敬請(qǐng)期待。

本文由 @AI小當(dāng)家原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載

題圖來(lái)自 Unsplash，基于 CC0 協(xié)議