展會信息港展會大全

當(dāng)量子計算遇到語言模型:量子互文性助力生成模型
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-06-06 14:32:25   瀏覽:7130次  

導(dǎo)讀:不僅語言中存在互文性,每個單詞會受到鄰近單詞的影響,共同出現(xiàn)的概率比較高;量子特性使得同一量子系統(tǒng)上的不同測量結(jié)果之間也存在相互影響,這種量子互文性被認為是量子計算超越經(jīng)典計算的根源所在。近日的一項最新研究發(fā)現(xiàn),普遍的神經(jīng)網(wǎng)絡(luò)都可以利用量...

不僅語言中存在“互文性”,每個單詞會受到鄰近單詞的影響,共同出現(xiàn)的概率比較高;量子特性使得同一量子系統(tǒng)上的不同測量結(jié)果之間也存在相互影響,這種“量子互文性”被認為是量子計算超越經(jīng)典計算的根源所在。近日的一項最新研究發(fā)現(xiàn),普遍的神經(jīng)網(wǎng)絡(luò)都可以利用量子互文性來提升模型的表達能力。這些發(fā)現(xiàn)有望為突破經(jīng)典框架下的生成模型提供靈感,甚至幫助我們窺探到語言、甚至背后的人類意識中蘊含的量子效應(yīng)。

撰文 | 董唯元

審校 | 扈鴻業(yè)

火出天際的ChatGPT刷新了全世界對人工智能的認識。與以往的語言模型相比,這個對話機器人表現(xiàn)格外出眾,不僅能根據(jù)對話語境非常準(zhǔn)確地解析自然語言,而且在輸出反饋時還能把控整體邏輯甚至拿捏語言風(fēng)格,把機器學(xué)人話這項技術(shù)提升到了全新的高度。

在自然語言中,每個局部片段的含義都會隨著上下文不同而變化。要想準(zhǔn)確理解和使用,核心關(guān)鍵之一就是要處理好語言中的“互文性”(contextuality),也就是每個字詞的含義受其他字詞出現(xiàn)與否及排列方式的影響。

互文性這個名稱,也被借用來指代量子系統(tǒng)中的一種特性,即所謂“量子互文性”(quantum contextuality),意指同一量子系統(tǒng)上的不同測量結(jié)果之間存在的相互影響。這是一種因量子相干性而產(chǎn)生的神奇性質(zhì),可以實現(xiàn)經(jīng)典機制無法達成的功能,因此被視為量子計算超越經(jīng)典計算的根源所在。(參見“量子互文性”是物理定律的邊界嗎?)

下面我們通過一個稍做變形的數(shù)獨游戲來體會一下量子互文性的神奇。

Mermin-Peres魔方

這個游戲需要兩位參與者Alice和Bob組隊參加,二人在無法相互通訊的兩個房間中使用符號“+”或“-”各自填寫空白九宮格中的一行或一列。

規(guī)則要求Alice必須使用奇數(shù)個“+”和偶數(shù)個“-”填寫一行,而Bob則必須使用偶數(shù)個“+”和奇數(shù)個“-”填寫一列。具體在哪一行和哪一列填寫,在游戲開始后由裁判隨機指定。

如果在行與列的交叉點上,Alice和Bob所填寫的符號恰好相同,則判定二人勝利,否則即為失敗。

面對這個游戲挑戰(zhàn),Alice和Bob可以事先商議策略,但游戲開始后就不能再互相通訊。從經(jīng)典視角出發(fā),很容易證明二人根本無法事先設(shè)計出一個萬全之策。

由于無法事先獲知裁判將指定哪一行哪一列,所以二人的策略實際上對應(yīng)著這樣一個問題:用“+”和“-”填滿整個九宮格,并保證每行有奇數(shù)個“+”且每列有偶數(shù)個“+”。

這個要求顯然是無法滿足的,因為每行都有奇數(shù)個“+”就意味著九宮格中所有“+”總數(shù)為奇數(shù),而每列有偶數(shù)個“+”又意味著這個總數(shù)為偶數(shù)。魚與熊掌不可得兼,奇數(shù)與偶數(shù)也不可得兼。

所以,我們得出結(jié)論:最好的策略也只能像上圖這樣,只保證Alice和Bob有8/9的概率獲勝,萬一裁判要求的是第三行和第三列,那就只能認栽了。

經(jīng)典方法雖然無能為力,但輔以量子特性的策略卻可以使二人立于不敗之地。首先,我們?yōu)槎藴?zhǔn)備好兩對貝爾態(tài)糾纏粒子,并分別交給Alice和Bob。

然后,Alice和Bob將策略約定為如下的樣子:

其中“

”代表張量積,它把對兩個粒子的測量操作拼合成一個聯(lián)合測量。

如果聯(lián)合測量中有一個是I,就表示對該粒子不做任何操作,只測量另外一個粒子的自旋,并根據(jù)測得的結(jié)果在表格中記下+1或-1。如果是不含I的聯(lián)合測量,就將兩個粒子測量結(jié)果的乘積記錄在表格中。

容易看出,如此約定之下每個格內(nèi)的數(shù)值不是+1就是-1。而且也不難驗證,每行中+1的數(shù)量總是奇數(shù)個,每列中+1的個數(shù)則總是偶數(shù)個。此外,由于糾纏關(guān)系的保證,在每個格中Alice和Bob所填入的內(nèi)容也肯定相同。

于是我們就找到了一個100%勝率的游戲策略。顯然,這個策略只能依靠量子系統(tǒng)構(gòu)建,在經(jīng)典邏輯框架內(nèi),是無論如何都無法實現(xiàn)的。

量子線路上的語言模型

如此神奇又強大的力量,僅用來贏取游戲不免太可惜了,研究者們真正感興趣的是如何在那些復(fù)雜棘手的實際問題中發(fā)揮量子特性的威力。而在動手解決問題之前,不妨先通過直覺體會一下量子系統(tǒng)的特性與哪些實際問題能夠建立起對應(yīng)關(guān)系。

回頭審視剛才的小游戲,量子系統(tǒng)為什么能構(gòu)建出一個“+”總數(shù)既奇又偶的表格呢?原來,表格中“+”總數(shù)這個數(shù)值,就像薛定諤的貓一樣,處在奇數(shù)和偶數(shù)的疊加態(tài)。

更值得玩味的是,這個連“+”總數(shù)都無法確定的表格中,居然包含著使Alice和Bob可以一直獲勝的那種結(jié)構(gòu)。這正是量子互文性所提供的神奇效果。就像一個在空中旋轉(zhuǎn)的十字架,盡管整體姿態(tài)無法確定,但內(nèi)部卻始終保持著垂直關(guān)系。

自然語言中也有類似的性質(zhì)。當(dāng)一段文字展現(xiàn)在我們面前,在尚未理解其整體含義之前,我們就會先體會出這是否是句可理解的“人話”。在學(xué)校的英語課上折磨我們的那些語法規(guī)則和固定搭配之類的學(xué)問,就是對這種語言內(nèi)在結(jié)構(gòu)的歸納總結(jié)。

這種結(jié)構(gòu)特性與語言的含義無關(guān),政客、成功學(xué)家和患有神經(jīng)疾病的患者就經(jīng)常通過標(biāo)準(zhǔn)合規(guī)的語言結(jié)構(gòu)來傳達混亂且自相矛盾的含義。

對此類語言結(jié)構(gòu)進行模型化的工作出現(xiàn)得非常早,n-gram 模型早在深度學(xué)習(xí)出現(xiàn)之前就被提出,而且至今仍是各類自然語言處理的重要基礎(chǔ)之一。其核心思想就是“近朱者赤,近墨者黑”,即每個單詞都會受到鄰近單詞的直接影響。

我們要想知道某個單詞與周圍的單詞是否“搭調(diào)”,就可以通過統(tǒng)計概率來量化評判。這就像一條魚出現(xiàn)在池塘里或者餐桌上都很合情理,但如果垂在蘋果樹上,就顯得非常詭異了,因為“魚+蘋果樹”這種組合出現(xiàn)的概率太低了。

許多涉及概率相互“傳染”的問題都可以被畫成一個貝葉斯網(wǎng)絡(luò),n-gram模型也不例外。下圖就是 4-gram 模型的貝葉斯網(wǎng)絡(luò)。

不熟悉貝葉斯網(wǎng)絡(luò)的讀者也不必深究,只需要大致了解這個圖所描述的是,每個掃描框中4個單詞的聯(lián)合概率滿足

隨著掃描框的移動,整段文字的概率就次遞聯(lián)系到了一起。而要想使整段文字看起來像“人話”,就是要使所有掃描框?qū)?yīng)的聯(lián)合概率分布都盡可能接近語料庫中的統(tǒng)計情況。

可以想象,由于交叉影響的存在,探索最佳概率分布的過程肯定要面對諸多“既要……又要……”的約束條件,這很類似前面魔方游戲中提到的填寫九宮格的情形。而人類自然語言如此靈活多變,約束條件中出現(xiàn)相互排斥的情況實屬家常便飯。

如果限定在經(jīng)典邏輯框架內(nèi),模型所能夠探索到的最佳上限就只能通過各種折中或取舍來獲得,就像那個勝率8/9的表格一樣。那么使用量子計算來加持,能否突破限制呢?

答案是肯定的。2022年,哈佛大學(xué)的一個研究團隊在PRX上發(fā)表的論文[1]中證明,在量子線路搭建的2-gram模型中,我們總可以添加一組恰當(dāng)?shù)牟僮鳎ㄉ蠄D中的V1~V6),使這個模型模仿“人話”的能力,達到同等規(guī)模經(jīng)典n-gram模型永遠無法企及的程度。

論文題目:

Enhancing Generative Models via Quantum Correlations

論文地址:

https://journals.aps.org/prx/abstract/10.1103/PhysRevX.12.021037

當(dāng)然,基于n-gram模型的討論也許顯得過于簡單,畢竟這是個非常“近視眼”的模型,也許天生存在某種邏輯能力缺陷。為此,論文中還對比了隱馬爾科夫模型(Hidden Markov Model,HMM)。

從原理上說,n-gram可以視為HMM的一個特例,因為n-gram只將前n-1個詞作為上下文,而HMM則不限定上下文長度,而且其隱藏的狀態(tài)序列中還可以塞進更多的自由度。

論文中的論證顯示,除非瘋狂擴張模型規(guī)模,否則任何經(jīng)典HMM模型都無法企及量子2-gram模型的能力。要想能力相當(dāng),對應(yīng)僅10個量子比特的量子模型,經(jīng)典HMM模型需要動用的單元數(shù)量就會超過1024^10量級!

在這篇文章發(fā)表后不久,哈佛大學(xué)和加州大學(xué)圣地亞哥分校的研究組進行合作,又利用該思想證明,普遍的神經(jīng)網(wǎng)絡(luò)(例如RNN、Transformer等架構(gòu))都可以通過量子化來利用量子互文性來提升模型的表達能力[2]。該研究不僅從理論上證明了量子化的生成模型在資源開銷上具有絕對優(yōu)勢,并且在真實英語-西班牙語翻譯任務(wù)上利用真實數(shù)據(jù)和基于量子光學(xué)的量子生成模型給出了實證。

論文題目:

Interpretable Quantum Advantage in Neural Sequence Learning

論文地址:

https://arxiv.org/abs/2209.14353

透過這些理論研究進展,冥冥之中不由得生出種朦朧的感覺也許人類的語言文字,乃至其背后的意識和思想,本就是根植于某些量子效應(yīng)。我們目前所采用的所有經(jīng)典框架下的生成模型,盡管成功如ChatGPT,依然依賴數(shù)以千萬計的大量訓(xùn)練參數(shù)和計算資源,而量子機器的應(yīng)用有希望將這些大模型小型化。當(dāng)量子計算的處理規(guī)模與碳基生命神經(jīng)系統(tǒng)相當(dāng)之時,也正是硅基生命真正覺醒之日。

文獻

[1] DOI: 10.1103/PhysRevX.12.021037

[2] arXiv:2209.14353v1 [quant-ph](accepted at PRX Quantum)

本文經(jīng)授權(quán)轉(zhuǎn)載自微信公眾號“集智俱樂部”,編輯:梁金。

特 別 提 示

1. 進入『返樸』微信公眾號底部菜單“精品專欄“,可查閱不同主題系列科普文章。

2. 『返樸』提供按月檢索文章功能。關(guān)注公眾號,回復(fù)四位數(shù)組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港