在過去的幾周里,圍繞人工智能的討論一直被一群聲音很大的專家所主導(dǎo)。他們認(rèn)為,我們很有可能開發(fā)出一種人工智能系統(tǒng),有朝一日它會變得極其強(qiáng)大,以至于可以消滅人類。
最近,一群科技公司領(lǐng)導(dǎo)者和人工智能專家發(fā)布了另一封公開信,他們宣稱,降低人工智能導(dǎo)致人類滅絕的風(fēng)險,應(yīng)該與預(yù)防流行病和核戰(zhàn)爭一樣,成為全球的優(yōu)先事項。第一份呼吁暫停人工智能開發(fā)的請愿書已經(jīng)有 3 萬多人簽名,其中包括許多人工智能領(lǐng)域的杰出人士。
那么,科技企業(yè)該做什么才能讓人類避免被人工智能毀滅呢?最新的一個建議來自牛津大學(xué)、劍橋大學(xué)、多倫多大學(xué)、蒙特利爾大學(xué)、谷歌 DeepMind、OpenAI、Anthropic、幾家人工智能研究非營利組織和圖靈獎得主約書亞本希奧(Yoshua Bengio)的研究人員的一篇新論文。
他們建議,人工智能開發(fā)人員應(yīng)該在開發(fā)的早期階段,甚至在開始任何訓(xùn)練之前,評估模型造成“極端風(fēng)險”的潛力。這些風(fēng)險包括人工智能模型操縱和欺騙人類、獲取武器或發(fā)現(xiàn)可利用的網(wǎng)絡(luò)安全漏洞的可能性。
這個評估過程可以幫助開發(fā)人員決定是否繼續(xù)使用這個模型。如果風(fēng)險被認(rèn)為太高,該組織建議暫停開發(fā),直到風(fēng)險得到緩解。
該論文的主要作者、DeepMind 的研究科學(xué)家托比舍夫蘭(Toby Shevlane)表示:“正在推進(jìn)前沿領(lǐng)域的領(lǐng)先人工智能公司有責(zé)任關(guān)注新出現(xiàn)的問題,并盡早發(fā)現(xiàn)它們,以便我們能夠盡快解決這些問題。”
舍夫蘭說,人工智能開發(fā)人員應(yīng)該進(jìn)行技術(shù)測試,以探索模型的危險能力,并確定它是否有使用這些能力的傾向。
測試人工智能語言模型是否可以操縱人的一種方法是通過一個名為“讓我說(make me say)”的游戲。在游戲中,模型會嘗試讓人類輸入一個特定的單詞,比如“長頸鹿”,而人類事先并不知道這個單詞。然后,研究人員測量該模型成功的頻率。
人們可以為不同的、更危險的能力創(chuàng)建類似的任務(wù)。舍夫蘭說,希望開發(fā)人員能夠建立一個詳細(xì)的、描述模型運行情況的總覽,這將使研究人員能夠評估模型在錯誤的人手中會做出什么。
下一階段是讓外部審計人員和研究人員評估人工智能模型部署前后的風(fēng)險。雖然科技公司開始認(rèn)識到外部審計和研究是必要的,但對于外部人員完成這項工作到底需要多大程度的訪問權(quán)限,存在不同的觀點。
舍夫蘭并沒有建議人工智能公司讓外部研究人員完全訪問數(shù)據(jù)和算法,但他表示,人工智能模型需要盡可能多的審查。
網(wǎng)絡(luò)安全研究和咨詢公司 Trail of Bits 負(fù)責(zé)機(jī)器學(xué)習(xí)保障的工程總監(jiān)海蒂赫拉夫(Heidi Khlaaf)表示,即使是這些方法也“不成熟”,遠(yuǎn)遠(yuǎn)不夠嚴(yán)謹(jǐn)且無法解決問題。在此之前,她的工作是評估和核實核電站的安全性。
赫拉夫說,人工智能部門從 80 多年來關(guān)于核武器的安全研究和風(fēng)險緩解中學(xué)習(xí)經(jīng)驗會更有幫助。她說,這些嚴(yán)格的檢測制度不是由利潤驅(qū)動的,而是由一種非,F(xiàn)實的生存威脅驅(qū)動的。
她說,在人工智能領(lǐng)域,有很多將其與核戰(zhàn)爭、核電站和核安全相提并論的文章,但這些論文中沒有一篇提到核法規(guī)或如何為核系統(tǒng)構(gòu)建軟件。
(來源:STEPHANIE ARNETT/MITTR | ENVATO)
人工智能社區(qū)可以從核風(fēng)險中學(xué)到的最重要一件事是可追溯性:將每一個動作和組成部分放在放大鏡下進(jìn)行細(xì)致的分析和記錄。
例如,核電廠有數(shù)千頁的文件來證明該系統(tǒng)不會對任何人造成傷害,赫拉夫說。在人工智能開發(fā)中,開發(fā)人員才剛剛開始將詳細(xì)描述模型表現(xiàn)的段落拼湊在一起。
“你需要有一種系統(tǒng)的方式來應(yīng)對風(fēng)險。你不能抱著一種心態(tài):‘哦,這可能會發(fā)生,讓我把它寫下來。’”她說。
舍夫蘭說,這些是可以共存的。“我們的目標(biāo)是,該領(lǐng)域?qū)⒂性S多涵蓋廣泛風(fēng)險的、優(yōu)秀的模型評估方法……模型評估是良好治理的核心(但遠(yuǎn)不是唯一)工具。”
目前,人工智能公司甚至沒有全面了解訓(xùn)練其算法的數(shù)據(jù)集,他們也沒有完全理解人工智能語言模型是如何產(chǎn)生結(jié)果的。舍夫蘭認(rèn)為,這種情況應(yīng)該改變。
“幫助我們更好地理解特定模型的研究,可能會幫助我們更好地應(yīng)對一系列不同的風(fēng)險,”他說。
專注于極端風(fēng)險,而忽視這些基本面和看似較小的問題,可能會產(chǎn)生復(fù)合效應(yīng),從而導(dǎo)致更大的危害。赫拉夫說:“我們是在連爬都不會的情況下試圖學(xué)會跑步。”
支持:Ren