展會(huì)信息港展會(huì)大全

AI語(yǔ)音模型與人的聽(tīng)覺(jué)有多相似?
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-11-09 09:28:38   瀏覽:5876次  

導(dǎo)讀:圖片來(lái)源@視覺(jué)中國(guó) 文 | 追問(wèn)NextQuestion,編輯 | lixia 對(duì)于人類(lèi)來(lái)說(shuō),我們依賴(lài)大腦的聽(tīng)覺(jué)通路實(shí)現(xiàn)高效精準(zhǔn)的語(yǔ)音信號(hào)處理,能夠輕松實(shí)現(xiàn)每分鐘300個(gè)漢字或者150個(gè)英文單詞的自然語(yǔ)音識(shí)別。那么,如何建模大腦的聽(tīng)覺(jué)和語(yǔ)言環(huán)路并解析自然語(yǔ)音感知的神經(jīng)機(jī)...

圖片來(lái)源@視覺(jué)中國(guó)

文 | 追問(wèn)NextQuestion,編輯 | lixia

對(duì)于人類(lèi)來(lái)說(shuō),我們依賴(lài)大腦的聽(tīng)覺(jué)通路實(shí)現(xiàn)高效精準(zhǔn)的語(yǔ)音信號(hào)處理,能夠輕松實(shí)現(xiàn)每分鐘300個(gè)漢字或者150個(gè)英文單詞的自然語(yǔ)音識(shí)別。那么,如何建模大腦的聽(tīng)覺(jué)和語(yǔ)言環(huán)路并解析自然語(yǔ)音感知的神經(jīng)機(jī)制?這是長(zhǎng)久以來(lái)認(rèn)知神經(jīng)科學(xué)關(guān)注的重要問(wèn)題。

如今,計(jì)算機(jī)科學(xué)家花費(fèi)了數(shù)十年才終于實(shí)現(xiàn)了較為接近人類(lèi)水平的自動(dòng)語(yǔ)音識(shí)別AI模型。這類(lèi)純工程的AI模型徹底拋棄了早期基于語(yǔ)言學(xué)理論的模型框架,完全采用數(shù)據(jù)驅(qū)動(dòng)的端到端大規(guī)模預(yù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。那么,這樣的模型與人腦聽(tīng)覺(jué)通路有多少相似性呢?

針對(duì)這一問(wèn)題,上?萍即髮W(xué)生物醫(yī)學(xué)工程學(xué)院李遠(yuǎn)寧教授團(tuán)隊(duì)與加州大學(xué)舊金山分校Edward Chang教授及復(fù)旦大學(xué)吳勁松/路俊鋒教授團(tuán)隊(duì)合作,融合自監(jiān)督預(yù)訓(xùn)練深度語(yǔ)音模型、高密度顱內(nèi)腦電、單神經(jīng)元仿真模型等多種技術(shù)方法,在中英文跨語(yǔ)言對(duì)照實(shí)驗(yàn)范式下,深入研究了AI語(yǔ)音模型與人腦聽(tīng)覺(jué)通路在計(jì)算與表征上的相似性。

2023年10月30日,該研究成果以“Dissecting neural computations in the human auditory pathway using deep neural networks for speech”《運(yùn)用深度神經(jīng)網(wǎng)絡(luò)語(yǔ)音模型解析人腦聽(tīng)覺(jué)通路的神經(jīng)計(jì)算》為題在線(xiàn)發(fā)表于Nature子刊Nature Neuroscience[1]。

圖 1:論文封面。圖源:Nature Neuroscience官網(wǎng)

傳統(tǒng)上,神經(jīng)科學(xué)家會(huì)利用線(xiàn)性編碼模型來(lái)研究神經(jīng)環(huán)路的信息處理機(jī)制,所謂線(xiàn)性編碼模型,主要是利用從語(yǔ)音中提取的特征來(lái)預(yù)測(cè)神經(jīng)響應(yīng)[2]。這些特征是基于語(yǔ)言學(xué)和音韻學(xué)的假設(shè)或理論來(lái)定義的。研究者可以在不同層次上提取特征從純聲學(xué)的聲譜圖特征,到語(yǔ)音學(xué)的元輔音、構(gòu)音方式,再到包含上下文信息的相對(duì)音高等,然后使用滑動(dòng)時(shí)間窗口來(lái)預(yù)測(cè)神經(jīng)響應(yīng)。如果某類(lèi)特征可以準(zhǔn)確預(yù)測(cè)某個(gè)區(qū)域的神經(jīng)活動(dòng),通常認(rèn)為這個(gè)區(qū)域的神經(jīng)活動(dòng)編碼表達(dá)了此類(lèi)特征。

在過(guò)去的十多年中,運(yùn)用顱內(nèi)電生理記錄實(shí)驗(yàn)的方式以及神經(jīng)編碼模型,研究者們已經(jīng)發(fā)現(xiàn)了很多重要的神經(jīng)編碼的特征,例如,顳上回次級(jí)聽(tīng)覺(jué)皮層的不同神經(jīng)群體的活動(dòng)編碼了從語(yǔ)音的包絡(luò)、開(kāi)頭到具體的元輔音音素的特征等等[3](圖2)。

圖 2:基于語(yǔ)言和語(yǔ)音學(xué)理論的語(yǔ)音特征提取以及神經(jīng)編碼模型。圖源:參考文獻(xiàn)3

在本項(xiàng)研究中,除了與語(yǔ)言密切相關(guān)的次級(jí)聽(tīng)覺(jué)皮層之外,運(yùn)用顱內(nèi)高密度腦電記錄技術(shù)以及高精度的單神經(jīng)元級(jí)別生物物理仿真模型,研究者獲得了覆蓋整個(gè)聽(tīng)覺(jué)通路的、從聽(tīng)神經(jīng)到腦干再到聽(tīng)覺(jué)皮層的神經(jīng)響應(yīng)(圖3)。雖然傳統(tǒng)的基于理論驅(qū)動(dòng)的神經(jīng)編碼研究可以分析通路中各個(gè)環(huán)節(jié)的編碼信息,卻難以融合成一整個(gè)能夠?qū)崿F(xiàn)高效精確語(yǔ)音識(shí)別的計(jì)算模型。

在人工智能領(lǐng)域,情況則恰恰相反;诖笠(guī)模自然語(yǔ)音訓(xùn)練的語(yǔ)音識(shí)別模型在很多自動(dòng)語(yǔ)音識(shí)別(ASR)任務(wù)上已經(jīng)達(dá)到接近人類(lèi)的識(shí)別水平[4][5],但這類(lèi)模型的內(nèi)部特征表達(dá)呈現(xiàn)出復(fù)雜的動(dòng)態(tài)模式(圖4),其內(nèi)在的表征與計(jì)算難以直接被理解與解釋。

既然這些人工智能模型與大腦聽(tīng)覺(jué)回路能夠接收相同的語(yǔ)音輸入,并執(zhí)行相似的認(rèn)知功能,那么這兩者之間是否存在計(jì)算和表征上的相似性呢?這便是這項(xiàng)研究聚焦的關(guān)鍵問(wèn)題所在。

圖 3:人腦聽(tīng)覺(jué)通路的自然語(yǔ)音神經(jīng)響應(yīng)活動(dòng)記錄,圖中包含聽(tīng)神經(jīng)(AN)-下丘(IC)-初級(jí)聽(tīng)覺(jué)皮層(HG)以及顳上回次級(jí)聽(tīng)覺(jué)皮層(STG)。圖源:來(lái)自論文作者(李遠(yuǎn)寧)

圖 4:基于Transformer的深度語(yǔ)音模型(HuBERT)及其內(nèi)部動(dòng)態(tài)特征表達(dá)。圖源:來(lái)自論文作者(李遠(yuǎn)寧)

為此,研究者通過(guò)構(gòu)建一種新的深度神經(jīng)編碼模型來(lái)研究這個(gè)問(wèn)題。這是一種純數(shù)據(jù)驅(qū)動(dòng)的模型,從語(yǔ)音預(yù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)中提取特征表達(dá),運(yùn)用這些數(shù)據(jù)驅(qū)動(dòng)的特征構(gòu)建新的線(xiàn)性編碼模型,并與真實(shí)的大腦聽(tīng)覺(jué)響應(yīng)信號(hào)進(jìn)行相關(guān)性分析,從而研究深度神經(jīng)網(wǎng)絡(luò)內(nèi)在特征表征與大腦聽(tīng)覺(jué)通路內(nèi)不同神經(jīng)群體活動(dòng)之間的相似性。

圖 5:基本研究模型;陬A(yù)訓(xùn)練深度語(yǔ)音網(wǎng)絡(luò)特征,構(gòu)建神經(jīng)編碼模型,預(yù)測(cè)聽(tīng)覺(jué)通路的語(yǔ)音神經(jīng)響應(yīng)。圖源:本論文

研究者在1000小時(shí)英文自然語(yǔ)音上訓(xùn)練了多種不同的人工智能模型,包括基于卷積(CNN)、LSTM以及Transformer等不同架構(gòu),運(yùn)用對(duì)比學(xué)習(xí)、掩碼預(yù)測(cè)等自監(jiān)督訓(xùn)練和ASR有監(jiān)督訓(xùn)練等不同訓(xùn)練方式。通過(guò)比較基于這些模型建立的神經(jīng)編碼模型在聽(tīng)覺(jué)通路不同節(jié)點(diǎn)的神經(jīng)活動(dòng)預(yù)測(cè)表現(xiàn),研究發(fā)現(xiàn),端到端的語(yǔ)音預(yù)訓(xùn)練網(wǎng)絡(luò)的層級(jí)結(jié)構(gòu),與聽(tīng)覺(jué)回路的層級(jí)結(jié)構(gòu)之間確實(shí)存在著很大的相似性(圖6)。

首先,對(duì)于整個(gè)聽(tīng)覺(jué)通路,基于深度神經(jīng)網(wǎng)絡(luò)特征的編碼預(yù)測(cè)模型要全面優(yōu)于傳統(tǒng)的基于語(yǔ)言學(xué)理論的線(xiàn)性特征模型。這說(shuō)明整個(gè)聽(tīng)覺(jué)通路具有很強(qiáng)的非線(xiàn)性特征,即便是在傳統(tǒng)認(rèn)為高度線(xiàn)性化處理時(shí)頻特征的聽(tīng)神經(jīng)上,額外的非線(xiàn)性特征也可以極大地提升神經(jīng)編碼模型的預(yù)測(cè)準(zhǔn)確性。

其次,不同復(fù)雜程度的模型對(duì)應(yīng)于聽(tīng)覺(jué)通路中的不同區(qū)域:對(duì)于較為底層的聽(tīng)神經(jīng)(AN)和丘腦(IC)神經(jīng)活動(dòng)來(lái)說(shuō),較為簡(jiǎn)單的卷積層即可較好地預(yù)測(cè)神經(jīng)活動(dòng),而額外的Transformer結(jié)構(gòu)并無(wú)法進(jìn)一步提升預(yù)測(cè)準(zhǔn)確度;而對(duì)于負(fù)責(zé)較為復(fù)雜語(yǔ)言信息加工處理的顳上回(STG),能夠動(dòng)態(tài)提取上下文信息的Transformer結(jié)構(gòu)將顯著地提升神經(jīng)活動(dòng)預(yù)測(cè)的準(zhǔn)確性,而僅有靜態(tài)有限感受域的卷積網(wǎng)絡(luò)則無(wú)法與之相媲美。

此外,研究發(fā)現(xiàn),對(duì)于同一個(gè)自監(jiān)督語(yǔ)音模型,它的整體層級(jí)結(jié)構(gòu)與聽(tīng)覺(jué)通路AN-IC-STG層級(jí)結(jié)構(gòu)相對(duì)應(yīng),其中較為前端的卷積層更好地對(duì)應(yīng)于聽(tīng)神經(jīng),而卷積輸出層與前部Transformer層更好地對(duì)應(yīng)于丘腦聽(tīng)覺(jué)神經(jīng)元,顳上回次級(jí)聽(tīng)覺(jué)皮層則與中后部的Transformer層相對(duì)應(yīng)。

圖 6:不同深度語(yǔ)音神經(jīng)網(wǎng)絡(luò)模型與聽(tīng)覺(jué)通路呈現(xiàn)不同對(duì)應(yīng)關(guān)系。圖源:本論文

在建立了深度語(yǔ)音模型與聽(tīng)覺(jué)通路的表征相似性之后,研究者進(jìn)一步探究了驅(qū)動(dòng)這些表征相似性的計(jì)算機(jī)制,并聚焦在表現(xiàn)性能最好的HuBERT模型上。這是一種類(lèi)似BERT結(jié)構(gòu)的Transformer模型,其中最重要的計(jì)算單元是自注意力機(jī)制[6](圖7)。它的內(nèi)部隱藏層的特征由skip connection和multi-head attention兩部分疊加而成,skip connection反應(yīng)的是當(dāng)前時(shí)刻的序列狀態(tài),而attention則是上下文信息的加權(quán)組合。研究者通過(guò)分析注意力矩陣的權(quán)重信息來(lái)分析神經(jīng)網(wǎng)絡(luò)如何提取語(yǔ)音序列中的上下文特征。

圖 7:Transformer與自注意力機(jī)制。圖源:參考文獻(xiàn)6

依據(jù)音素(phonemic)和音節(jié)(syllabic)級(jí)別的語(yǔ)音上下文結(jié)構(gòu),研究者定義了隨輸入動(dòng)態(tài)變化的自注意力模板。隨后,使用實(shí)際的語(yǔ)音數(shù)據(jù),研究者計(jì)算了Transformer預(yù)訓(xùn)練的網(wǎng)絡(luò)的自注意力分布,究竟在多大程度上對(duì)齊到了這些上下文結(jié)構(gòu)上。結(jié)果表明,隨著網(wǎng)絡(luò)的加深,對(duì)齊到長(zhǎng)距離上下文結(jié)構(gòu)的注意力權(quán)重也逐漸變大。值得強(qiáng)調(diào)的是,此處使用的HuBERT模型是完全自監(jiān)督模型,訓(xùn)練過(guò)程不包含任何顯式的上下文結(jié)構(gòu)信息以及語(yǔ)音內(nèi)容信息。這一結(jié)果表明,自監(jiān)督訓(xùn)練的語(yǔ)音模型可以學(xué)習(xí)到自然語(yǔ)音中與語(yǔ)言和語(yǔ)義相關(guān)的關(guān)鍵上下文結(jié)構(gòu)信息。

圖 8:自監(jiān)督學(xué)習(xí)模型從語(yǔ)料中學(xué)到語(yǔ)言相關(guān)的語(yǔ)音上下文結(jié)構(gòu)信息。圖源:本論文

這種通過(guò)自注意力計(jì)算獲得的關(guān)鍵語(yǔ)音結(jié)構(gòu)的準(zhǔn)確性,是否與深度語(yǔ)音模型對(duì)大腦語(yǔ)音聽(tīng)覺(jué)皮層的相似性有關(guān)呢?研究者將這兩者進(jìn)行了相關(guān)性分析,結(jié)果表明(圖9):在與語(yǔ)音處理密切相關(guān)的顳上回次級(jí)聽(tīng)覺(jué)皮層,這兩者呈現(xiàn)顯著的正相關(guān),也就是說(shuō),自注意力權(quán)重與語(yǔ)音中的上下文結(jié)構(gòu)對(duì)齊程度越高,神經(jīng)網(wǎng)絡(luò)對(duì)于大腦活動(dòng)的預(yù)測(cè)能力就越強(qiáng);而反之,在初級(jí)聽(tīng)覺(jué)皮層以及聽(tīng)神經(jīng)、腦干這些區(qū)域,這兩者則是負(fù)相關(guān),說(shuō)明對(duì)上下文注意的越少,即對(duì)時(shí)域上局部瞬態(tài)信息的表達(dá)越多,神經(jīng)網(wǎng)絡(luò)與大腦信號(hào)的相似度也就越高。因此,通過(guò)自注意力機(jī)制對(duì)語(yǔ)音上下文信息的動(dòng)態(tài)提取的過(guò)程,是解釋自監(jiān)督深度語(yǔ)音模型與大腦聽(tīng)覺(jué)通路表征相似性的關(guān)鍵計(jì)算機(jī)制。

圖 9:自注意力機(jī)制與語(yǔ)音上下文結(jié)構(gòu)的對(duì)齊程度解釋了深度神經(jīng)模型對(duì)聽(tīng)覺(jué)通路語(yǔ)音響應(yīng)的預(yù)測(cè)能力。圖源:本論文

最后,研究進(jìn)一步分析了自監(jiān)督模型是否能夠?qū)W習(xí)到更高層級(jí)的上下文信息,通過(guò)跨語(yǔ)言比較這一獨(dú)特的范式[7],分析了深度神經(jīng)網(wǎng)絡(luò)與大腦聽(tīng)覺(jué)皮層的語(yǔ)言特異性。為了模擬母語(yǔ)者的語(yǔ)言特異性,研究使用了在英文數(shù)據(jù)上預(yù)訓(xùn)練的英文語(yǔ)音模型,以及在中文數(shù)據(jù)上預(yù)訓(xùn)練的中文語(yǔ)音模型(圖10)。

如果僅僅使用線(xiàn)性時(shí)頻編碼模型,也就是STRF model,是無(wú)法體現(xiàn)出英文母語(yǔ)者在聽(tīng)英文和聽(tīng)中文時(shí)候的語(yǔ)言特異性的,這一點(diǎn)在研究者的前期研究中也驗(yàn)證過(guò),底層聲學(xué)信息的處理是跨語(yǔ)言通用的。但是如果用英文預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)神經(jīng)活動(dòng),則可以體現(xiàn)英文母語(yǔ)者對(duì)不同語(yǔ)言語(yǔ)音的特異性響應(yīng),英文模型更好地預(yù)測(cè)聽(tīng)英文時(shí)的神經(jīng)響應(yīng),并且模型注意力權(quán)重與英文的上下文結(jié)構(gòu)信息的對(duì)齊程度,與模型性能顯著正相關(guān)。類(lèi)似地,如果使用中文預(yù)訓(xùn)練模型預(yù)測(cè)中文母語(yǔ)者的聽(tīng)覺(jué)皮層神經(jīng)響應(yīng),則可以體現(xiàn)中文母語(yǔ)者對(duì)不同語(yǔ)言語(yǔ)音的特異性響應(yīng),中文模型更好地預(yù)測(cè)聽(tīng)中文時(shí)的神經(jīng)響應(yīng),并且模型注意力權(quán)重與中文的上下文結(jié)構(gòu)信息的對(duì)齊程度,與模型性能顯著正相關(guān)

這一雙重分離的結(jié)果表明,自監(jiān)督模型能夠?qū)W習(xí)到更高層級(jí)的與語(yǔ)言特異性相關(guān)的上下文信息,并且這一特異性信息與大腦語(yǔ)音皮層的計(jì)算與表征是顯著相關(guān)的。

圖 10:不同語(yǔ)言預(yù)訓(xùn)練的語(yǔ)音神經(jīng)網(wǎng)絡(luò)體現(xiàn)出語(yǔ)言特異性的計(jì)算與表征,并與次級(jí)聽(tīng)覺(jué)皮層的語(yǔ)言特異性神經(jīng)活動(dòng)呈現(xiàn)顯著對(duì)應(yīng)關(guān)系。圖源:本論文

從神經(jīng)科學(xué)的角度來(lái)看,這項(xiàng)研究與近期發(fā)表的多項(xiàng)相關(guān)研究[8][9][10]共同提出了基于大規(guī)模自監(jiān)督模型建立語(yǔ)言相關(guān)的認(rèn)知功能計(jì)算模型的新思路,展現(xiàn)了自監(jiān)督語(yǔ)音模型與大腦聽(tīng)覺(jué)通路的計(jì)算與表征的相似性。從人工智能的角度,這項(xiàng)研究也為打開(kāi)深度神經(jīng)網(wǎng)絡(luò),特別是自注意力模型Transformer的“黑箱”提供了新的生物學(xué)視角。

上?萍即髮W(xué)生物醫(yī)學(xué)工程學(xué)院李遠(yuǎn)寧研究員為本文第一作者,加州大學(xué)舊金山分校神經(jīng)外科Edward Chang教授為本文通訊作者,復(fù)旦大學(xué)附屬華山醫(yī)院吳勁松教授、路俊鋒教授,上海科技大學(xué)研究生陳佩利參與了此項(xiàng)研究,該研究參與者還包括來(lái)自加州大學(xué)伯克利分校、Meta AI以及羅徹斯特大學(xué)的研究者。

參考文獻(xiàn):

1.Li, Y., Anumanchipalli, G., Mohamed, A., Chen, P., Carney, L. H., Lu, J., Wu, J., Chang, E.F. (2023) Dissecting neural computations of the human auditory pathway using deep neural networks for speech. Nature Neuroscience, 26, 1-30.2.Theunissen, F. E., David, S. V., Singh, N. C., Hsu, A., Vinje, W. E., & Gallant, J. L. (2001). Estimating spatio-temporal receptive fields of auditory and visual neurons from their responses to natural stimuli. Network: Computation in Neural Systems, 12(3), 289.3.Bhaya-Grossman, I., & Chang, E. F. (2022). Speech computations of the human superior temporal gyrus. Annual review of psychology, 73, 79-102.4.Baevski, A., Zhou, Y., Mohamed, A., & Auli, M. (2020). wav2vec 2.0: A framework for self-supervised learning of speech representations. Advances in neural information processing systems, 33, 12449-12460.5.Hsu, W. N., Bolte, B., Tsai, Y. H. H., Lakhotia, K., Salakhutdinov, R., & Mohamed, A. (2021). Hubert: Self-supervised speech representation learning by masked prediction of hidden units. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 29, 3451-3460.6.Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.7.Li, Y., Tang, C., Lu, J., Wu, J., & Chang, E. F. (2021). Human cortical encoding of pitch in tonal and non-tonal languages. Nature communications, 12(1), 1161.8.Millet, J., Caucheteux, C., Boubenec, Y., Gramfort, A., Dunbar, E., Pallier, C., & King, J. R. (2022). Toward a realistic model of speech processing in the brain with self-supervised learning. Advances in Neural Information Processing Systems, 35, 33428-33443.9.Schrimpf, M., Blank, I. A., Tuckute, G., Kauf, C., Hosseini, E. A., Kanwisher, N., ... & Fedorenko, E. (2021). The neural architecture of language: Integrative modeling converges on predictive processing. Proceedings of the National Academy of Sciences, 118(45), e2105646118.10.Goldstein, A., Zada, Z., Buchnik, E., Schain, M., Price, A., Aubrey, B., ... & Hasson, U. (2022). Shared computational principles for language processing in humans and deep language models. Nature neuroscience, 25(3), 369-380.

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港