展會(huì)信息港展會(huì)大全

100種語言任意翻譯!科幻電影中的“巴別魚”,Meta用AI實(shí)現(xiàn)了
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-08-24 20:13:16   瀏覽:14727次  

導(dǎo)讀:在科幻小說《銀河系漫游指南》中,作家道格拉斯亞當(dāng)斯描繪了一種神奇的宇宙生物巴別魚, 它以腦電波能量為生,能夠使人們?cè)趯⑵淙M(jìn)耳朵后,即刻理解任何語言的內(nèi)容,輕松與外星人交流 。同名電影也已于 2005 年上映。 自從小說問世以來,巴別魚便成為了即時(shí)...

在科幻小說《銀河系漫游指南》中,作家道格拉斯亞當(dāng)斯描繪了一種神奇的宇宙生物巴別魚,它以腦電波能量為生,能夠使人們?cè)趯⑵淙M(jìn)耳朵后,即刻理解任何語言的內(nèi)容,輕松與外星人交流。同名電影也已于 2005 年上映。

自從小說問世以來,“巴別魚”便成為了即時(shí)語音翻譯的象征。然而,當(dāng)時(shí)人類的翻譯技術(shù)距離這一設(shè)想仍有很大的差距,始終未出現(xiàn)統(tǒng)一的語音到語音翻譯模型。

如今,科幻電影中的“巴別魚”,Meta 用 AI 真的實(shí)現(xiàn)了推出大規(guī)模多語言和多模態(tài)機(jī)器翻譯模型SeamlessM4T。

據(jù)介紹,SeamlessM4T 可以在語音和文本之間實(shí)現(xiàn)即時(shí)翻譯和轉(zhuǎn)錄,支持以下五種功能:

近 100 種語言的自動(dòng)語音識(shí)別;

近 100 種輸入和輸出語言的語音到文本翻譯;

語音到語音翻譯,支持近 100 種輸入語言和 35 種(加上英語)輸出語言;

近 100 種語言的文本到文本翻譯;

文本到語音翻譯,支持近 100 種輸入語言和 35 種(加上英語)輸出語言。

為了構(gòu)建這一模型,Meta 重新設(shè)計(jì)了 Fairseq 序列建模工具包,從而創(chuàng)建更輕量級(jí)的模型,處理更多信息。

在模型方面,Meta 采用了多任務(wù) UnitY 模型架構(gòu),這一架構(gòu)能夠直接生成翻譯文本和語音。這個(gè)新架構(gòu)還支持自動(dòng)語音識(shí)別、文本到文本、文本到語音、語音到文本和語音到語音翻譯,這些功能已經(jīng)成為基本 UnitY 模型的一部分。多任務(wù) UnitY 模型由三個(gè)主要的順序組件組成,其中文本和語音編碼器負(fù)責(zé)識(shí)別近 100 種語言的語音輸入。隨后,文本解碼器將這一意義轉(zhuǎn)化為近 100 種語言的文本,然后是文本到單元模型,用于將其解碼為 36 種語音語言的離散聲學(xué)單元。

為了提高模型質(zhì)量和訓(xùn)練穩(wěn)定性,自監(jiān)督編碼器、語音到文本、文本到文本翻譯組件以及文本到單元模型都經(jīng)過預(yù)訓(xùn)練。最終,解碼得到的離散單元通過多語言 HiFi-GAN 單元聲碼器轉(zhuǎn)化為語音。

利用自監(jiān)督語音編碼器 w2v-BERT 2.0,研究人員分析了數(shù)百萬小時(shí)的多語種語音來學(xué)習(xí)在語音中找到結(jié)構(gòu)和含義。該編碼器可以接收音頻信號(hào),將其分解為較小的部分,并構(gòu)建所述內(nèi)容的內(nèi)部表示。由于口語詞匯由許多聲音和字符組成,研究人員使用長(zhǎng)度適配器將它們大致映射到實(shí)際單詞中。

同樣,Meta 利用一個(gè)基于 NLLB 模型的文本編碼器,將其訓(xùn)練成能夠理解近 100 種語言的文本,并生成對(duì)于翻譯有用的表示。

Meta AI 于2022年在一篇名為“No Language Left Behind: Scaling Human-Centered Machine Translation”的論文中提出了 NLLB 模型,該模型支持 200 種語言,是一種多語言機(jī)器翻譯系統(tǒng)。

經(jīng)過訓(xùn)練的文本解碼器能夠接收編碼的語音表示或文本表示。這可應(yīng)用于同一語言的任務(wù),如自動(dòng)語音識(shí)別和多語種翻譯任務(wù)。例如,有人可以說法語中的“bonjour”,然后期望斯瓦希里語中的翻譯文本是“habari”。通過多任務(wù)訓(xùn)練,Meta 利用 NLLB 模型來通過 token 級(jí)別的知識(shí)蒸餾,來引導(dǎo)他們的語音到文本翻譯模型。

另外,Meta 使用聲學(xué)單元來表示目標(biāo)語音。UnitY 模型中的文本到單元(T2U)組件根據(jù)文本輸出生成這些離散的語音單元,并在 UnitY 微調(diào)之前在 ASR 數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練。然后,使用多語言 HiFi-GAN 單元聲碼器將這些離散單元轉(zhuǎn)換為音頻波形。

在上述功能的加持下,SeamlessM4T 可以識(shí)別說話者何時(shí)進(jìn)行代碼切換,或者何時(shí)在一句話中在兩種或更多語言之間切換

此外,Meta 還構(gòu)建了一個(gè)可涵蓋 200 種語言的多語言多模態(tài)文本嵌入空間SONAR。然后,利用師生方法將其擴(kuò)展到語音領(lǐng)域,涵蓋 36 種語言。通過在網(wǎng)絡(luò)數(shù)據(jù)和語音數(shù)據(jù)中進(jìn)行挖掘,他們自動(dòng)對(duì)齊了超過 443000 小時(shí)的語音和文本,并創(chuàng)造了 29000 小時(shí)的語音對(duì)齊數(shù)據(jù)。這個(gè)名為 SeamlessAlign 的語料庫是迄今最大的開放式語音、語音和語音以及文本平行語料庫。

測(cè)評(píng)結(jié)果顯示,SeamlessM4T 在近 100 種語言中實(shí)現(xiàn)了最先進(jìn)的結(jié)果,并跨自動(dòng)語音識(shí)別、語音到文本、語音到語音、文本到語音以及文本到文本翻譯的多任務(wù)支持,全部由單一模型完成。此外,Meta 還顯著提升了對(duì)低資源和中資源語言的性能,同時(shí)在高資源語言上保持了強(qiáng)大的表現(xiàn)。

為了更準(zhǔn)確地評(píng)估系統(tǒng),不僅依賴于基于文本的度量標(biāo)準(zhǔn),Meta 將無文本度量標(biāo)準(zhǔn)擴(kuò)展到了 BLASER 2.0,這使得在語音和文本單元之間進(jìn)行評(píng)估時(shí),與其前身相比能夠獲得類似的準(zhǔn)確性。在魯棒性測(cè)試中,與當(dāng)前最先進(jìn)的模型相比,該系統(tǒng)在語音到文本任務(wù)中對(duì)抗背景噪音和說話者變化的性能表現(xiàn)更好(分別平均提升了 37% 和 48% )。

確保翻譯系統(tǒng)準(zhǔn)確性至關(guān)重要,Meta 采用負(fù)責(zé)任的 AI 框架,通過研究毒性和偏見等敏感問題,來提升模型表現(xiàn)。他們也在語音中擴(kuò)展了多語言毒性分類器,過濾了不平衡的毒性訓(xùn)練數(shù)據(jù)。此外,他們還在性別偏見方面進(jìn)行評(píng)估,并努力改進(jìn)模型以減少毒性。未來,他們將持續(xù)致力于安全性和可靠性方面的工作。

SeamlessM4T 就像一個(gè) AI 版“巴別魚”,但它不需要進(jìn)入我們的耳朵中。

作者:閆一米 編輯:學(xué)術(shù)君

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港