展會(huì)信息港展會(huì)大全

Anthropic安全負(fù)責(zé)人:在超級(jí)AI「毀滅」人類之前,我們可以做這些準(zhǔn)備
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-09 18:46:56   瀏覽:1627次  

導(dǎo)讀:機(jī)器之心報(bào)道 機(jī)器之心編輯部 2023 年,Anthropic 發(fā)布了負(fù)責(zé)任擴(kuò)展策略(Responsible Scaling Policy,RSP),這是一系列技術(shù)和組織協(xié)議,Anthropic 將采用這些協(xié)議來(lái)幫助他們管理開(kāi)發(fā)功能日益強(qiáng)大的 AI 系統(tǒng)。 Anthropic 認(rèn)為,AI 模型一方面變得越來(lái)越強(qiáng)...

機(jī)器之心報(bào)道

機(jī)器之心編輯部

2023 年,Anthropic 發(fā)布了負(fù)責(zé)任擴(kuò)展策略(Responsible Scaling Policy,RSP),這是一系列技術(shù)和組織協(xié)議,Anthropic 將采用這些協(xié)議來(lái)幫助他們管理開(kāi)發(fā)功能日益強(qiáng)大的 AI 系統(tǒng)。

Anthropic 認(rèn)為,AI 模型一方面變得越來(lái)越強(qiáng)大,創(chuàng)造巨大的經(jīng)濟(jì)和社會(huì)價(jià)值,另一方面也帶來(lái)了嚴(yán)重的風(fēng)險(xiǎn)。RSP 將專注于災(zāi)難性風(fēng)險(xiǎn) 即人工智能模型直接造成大規(guī)模破壞的風(fēng)險(xiǎn)。此類風(fēng)險(xiǎn)可能來(lái)自故意濫用模型(例如恐怖分子用它來(lái)制造生物武器),也可能來(lái)自模型以違背其設(shè)計(jì)者意圖的方式自主行動(dòng)而造成破壞。

RSP 還定義了一個(gè)稱為 AI 安全等級(jí) (ASL,AI Safety Levels) 的框架,ASL 等級(jí)越高,其安全性證明就越嚴(yán)格。

ASL-1 指的是不構(gòu)成重大災(zāi)難風(fēng)險(xiǎn)的系統(tǒng),例如 2018 年的 LLM 或只會(huì)下棋的 AI 系統(tǒng)。

ASL-2 指的是顯示出危險(xiǎn)能力早期跡象的系統(tǒng)(例如能夠給出如何制造生物武器的指令),但這些信息由于可靠性不足或無(wú)法超越搜索引擎能提供的信息而沒(méi)有太多用處。包括 Claude 在內(nèi)的當(dāng)前 LLM 似乎是 ASL-2。

ASL-3 指的是與非 AI 基線(例如搜索引擎或教科書)相比,大大增加了災(zāi)難性濫用風(fēng)險(xiǎn)的系統(tǒng)或顯示出低級(jí)自主能力的系統(tǒng)。

ASL-4 及更高版本(ASL-5+)尚未定義,因?yàn)樗c現(xiàn)有系統(tǒng)相差太遠(yuǎn),但可能會(huì)涉及災(zāi)難性濫用潛力和自主性的質(zhì)的升級(jí)。

一直以來(lái),Anthropic 在為 AI 安全做著各種努力,「要做哪些技術(shù)工作才能使非常強(qiáng)大的人工智能的開(kāi)發(fā)順利進(jìn)行?」近日,Anthropic 安全研究部門的負(fù)責(zé)人 Sam Bowman 在一篇博客中分享了他的觀點(diǎn)。

對(duì)于這篇博客,機(jī)器之心做了不改變?cè)x的翻譯與整理。

在開(kāi)始討論超級(jí)人工智能的風(fēng)險(xiǎn)之前,我有一些前提需要聲明:

人工智能有望達(dá)到與人類相當(dāng)?shù)乃健_@個(gè)階段,我稱之為變革性人工智能(TAI)。TAI 將有能力在所有適合遠(yuǎn)程工作的職業(yè)中替代人類,包括 AI 研發(fā)。

TAI 并不是人工智能能力的上限,未來(lái)可能會(huì)出現(xiàn)遠(yuǎn)超人類能力的系統(tǒng),它們將對(duì)世界產(chǎn)生深遠(yuǎn)影響。在未來(lái)十年內(nèi),我們很有可能見(jiàn)證 TAI 的誕生,而那時(shí)的商業(yè)、政策和文化背景預(yù)計(jì)與當(dāng)前相比不會(huì)有太大變化。

TAI 一旦實(shí)現(xiàn),它將極大地加速人工智能的研發(fā)進(jìn)程,可能在 TAI 出現(xiàn)后的幾個(gè)月或幾年內(nèi),我們就能看到遠(yuǎn)超人類能力的系統(tǒng)被開(kāi)發(fā)出來(lái)。

如果部署不當(dāng),超級(jí)人工智能系統(tǒng)可能會(huì)極具破壞性。它可能帶來(lái)新風(fēng)險(xiǎn),也可能使現(xiàn)有矛盾變得更加尖銳,比如武器濫用,以及破壞道路監(jiān)控或網(wǎng)絡(luò)安全等。

想要讓 TAI 以及更強(qiáng)大的 AI 系統(tǒng)在現(xiàn)實(shí)世界中「三觀正!沟卣_行事,這對(duì)人工智能安全提出了更高要求。確保人工智能系統(tǒng)的行為與開(kāi)發(fā)者的意圖一致,即所謂的「對(duì)齊」,需要我們投入巨大的努力。而且隨著 AI 系統(tǒng)的能力越來(lái)越強(qiáng),這一任務(wù)也變得更加艱巨。

我將從三個(gè)階段展開(kāi)。

第一階段:準(zhǔn)備

此時(shí),AI 還未進(jìn)階成 TAI,以 Anthropic 的 RSP 評(píng)級(jí)(風(fēng)險(xiǎn)敏感性評(píng)估)來(lái)看,他們處于安全等級(jí) 2(ASL-2)、ASL-3,或者可能是 ASL-4 的早期階段。我們大部分的干預(yù)和準(zhǔn)備工作將在這一時(shí)期進(jìn)行,為尚未完全出現(xiàn)的高風(fēng)險(xiǎn)問(wèn)題做準(zhǔn)備。

密切關(guān)注技術(shù)前沿

AI 有多安全,很大程度上取決于我們的工作能力,而這又與我們獲取前沿技術(shù)的能力緊密相關(guān)。如果我們無(wú)法獲得充足的計(jì)算資源,或者在關(guān)鍵的預(yù)訓(xùn)練階段出現(xiàn)重大失誤,或者錯(cuò)過(guò)了帶來(lái)變革的范式轉(zhuǎn)變(哪怕是方法中的一些小改進(jìn)),我們就會(huì)喪失大量做貢獻(xiàn)的機(jī)會(huì)。而負(fù)責(zé) AI 安全工作,需要遵守嚴(yán)格的規(guī)定和限制。因此,持續(xù)跟進(jìn)新技術(shù),是在此階段的首要任務(wù)。

在初始階段基本解決 TAI 的對(duì)齊微調(diào)問(wèn)題

當(dāng) AI 系統(tǒng)已經(jīng)智能到可以自主做研究,特別是 AI 安全研究時(shí),我們需要尋找一種方法,讓 AI 系統(tǒng)在幫助我們完成大量工作的同時(shí),避免出現(xiàn)偏差。同時(shí),我們必須確保 AI 的能力至少與人類專家相當(dāng),甚至更優(yōu),以確保它們能有效地協(xié)助我們。

此時(shí),AI 并不需要完全「對(duì)齊」 我們可以接受一定程度的風(fēng)險(xiǎn)。因?yàn)槿祟惒粫?huì)將最關(guān)鍵的決策權(quán)交給 AI。同時(shí),我們也有信心能在 AI 的對(duì)齊問(wèn)題演變成全球性災(zāi)難之前,及時(shí)發(fā)現(xiàn)并糾正。

我們的目標(biāo)是構(gòu)建高效且通用的 AI 系統(tǒng)。構(gòu)建能完全「對(duì)齊」的 AI 助理,僅供公司內(nèi)部使用,并進(jìn)行嚴(yán)格的專家監(jiān)控,這種方法可行,但問(wèn)題是,有過(guò)多限制或需要專家持續(xù)監(jiān)督的 AI 系統(tǒng)很難大規(guī)模推廣,這樣一來(lái),Anthropic 的業(yè)務(wù)也難以持續(xù)發(fā)展。

在我看來(lái),解決問(wèn)題的關(guān)鍵在于可拓展的監(jiān)督,這要求我們訓(xùn)練出能勝任完成復(fù)雜的開(kāi)放式任務(wù)的負(fù)責(zé)任的 AI 智能體。為此,需要解決的主要挑戰(zhàn)包括:「Reward hacking」、應(yīng)對(duì)人類注意力的有限性,以及識(shí)別和抵御各種欺詐行為。

確保初始形態(tài)的 TAI 安全無(wú)害

如果「對(duì)齊」問(wèn)題能完美解決,我們只需下達(dá)命令,模型就能不做壞事。但這似乎不可能做到。因此,我們必須構(gòu)建額外的防御措施,比如對(duì)模型輸出自動(dòng)進(jìn)行監(jiān)控、抽查、紅隊(duì)測(cè)試,壓力測(cè)試等。

蘋果給 Apple Intelligence 下達(dá)的系統(tǒng)提示詞:「不要產(chǎn)生幻覺(jué)9

我們還特意構(gòu)建了「邪惡」的未對(duì)齊版本,試圖來(lái)攻擊我們的安全系統(tǒng),這和傳統(tǒng)的「對(duì)齊」工作一樣重要。

在長(zhǎng)遠(yuǎn)來(lái)看,由于現(xiàn)有方法依賴于精確、召回率極高的內(nèi)容分類器,這階段的主要挑戰(zhàn)是圍繞對(duì)抗性魯棒性的一系列機(jī)器學(xué)習(xí)問(wèn)題。

對(duì)于有多款變體的模型家族,我們也可以綜合考慮,而不是逐個(gè)擊破。這種方法不僅有助于識(shí)別在初步安全規(guī)劃階段可能未被察覺(jué)的風(fēng)險(xiǎn),還能有效防御那些在單一數(shù)據(jù)樣本中不明顯,卻可能在多樣本模式分析中暴露的系統(tǒng)性風(fēng)險(xiǎn),例如潛在的濫用或錯(cuò)位問(wèn)題。

制定合適的 RSP(負(fù)責(zé)任擴(kuò)展策略)

什么是一個(gè)合格的 RSP?可以參考 LeCun 提出的測(cè)試:即使是完全不重視 AI 安全問(wèn)題的敵方公司,也能放心使用。一份好的 RSP 能研究人員操作安全,一旦出現(xiàn)意外也能顯而易見(jiàn)且可追責(zé)。

這個(gè)標(biāo)準(zhǔn)與其他領(lǐng)域的標(biāo)準(zhǔn)和類似。例如,如果一個(gè)組織希望避免受到網(wǎng)絡(luò)上的攻擊。盡管他們心存疑慮,但只要遵循 SOC 2 等通用網(wǎng)絡(luò)安全標(biāo)準(zhǔn),他們可以獲得真正意義上的保護(hù)。

關(guān)鍵挑戰(zhàn)是預(yù)測(cè)哪些風(fēng)險(xiǎn)足夠重要,值得納入其中。到目前為止,我們?cè)谕{建模中反復(fù)出現(xiàn)的一個(gè)具體未解決的問(wèn)題是,ASL-3 和 ASL-4 的風(fēng)險(xiǎn)在多大程度上是通過(guò)直接濫用、錯(cuò)位或通過(guò)雙重用途研發(fā)等渠道而流動(dòng)的。

ASL-4 的評(píng)估和部署案例

ASL-4 涵蓋了近乎人類水平的自主性和可能災(zāi)難性的直接濫用風(fēng)險(xiǎn),我們沒(méi)有提前制定詳細(xì)的標(biāo)準(zhǔn)。相反,我們將致力于整理一個(gè)安全案例 一份提供系統(tǒng)在某些情況下是安全的證據(jù)的報(bào)告 并制定安全案例需要滿足的高級(jí)標(biāo)準(zhǔn)才能獲得批準(zhǔn)。許多技術(shù)安全工作最終將通過(guò)納入這些安全案例產(chǎn)生影響,這些安全案例是我們?cè)?到達(dá) ASL-4 之前的關(guān)鍵目標(biāo)。

Anthropic 把寶押在對(duì)可解釋性的深入研究,希望它能夠成為 AI 系統(tǒng)安全的證據(jù)來(lái)源。

對(duì)于大多數(shù)部署的安全案例(即任何可能用于高風(fēng)險(xiǎn)任務(wù)的模型部署),都需要包含證據(jù)表明我們的安全措施具有很高的穩(wěn)健性。也就是說(shuō),應(yīng)該清楚的是,無(wú)論是模型還是它的監(jiān)測(cè)系統(tǒng),都不會(huì)在罕見(jiàn)但重要的輸入上以令人驚訝的方式失敗

除非可解釋性出現(xiàn)不太可能的最佳結(jié)果,否則我們預(yù)計(jì)一個(gè)強(qiáng)有力的安全案例將需要依靠基于其他方法的額外新發(fā)現(xiàn)。這些新發(fā)現(xiàn)應(yīng)當(dāng)能讓我們定量評(píng)估模型的安全性,預(yù)測(cè)它們可能帶來(lái)的風(fēng)險(xiǎn)。

保護(hù)算法的秘密

如果我們的研究能力遠(yuǎn)遠(yuǎn)領(lǐng)先于該領(lǐng)域的平均水平,那么保護(hù)該研究的關(guān)鍵發(fā)現(xiàn)對(duì)于公司保持領(lǐng)先地位將非常重要。這與不公布模型權(quán)重有本質(zhì)不同,保護(hù)起來(lái)也要困難得多:因?yàn)檫@些發(fā)現(xiàn)通?梢杂脦拙湓捇驇锥卧拋(lái)表達(dá),離職的員工很自然地就能記祝因此保護(hù)算法秘密至關(guān)重要。

為 ASL-4 和 ASL-5 建立清晰的評(píng)估

一旦達(dá)到 ASL-3 級(jí)別,安全評(píng)估就變得更難了。在 ASL-4 或 ASL-5 級(jí)別下部署預(yù)防措施,時(shí)間和金錢成本可能會(huì)空前高昂,過(guò)早啟動(dòng)評(píng)估和過(guò)晚啟動(dòng)高風(fēng)險(xiǎn)等級(jí)都會(huì)產(chǎn)生巨大成本。

這些評(píng)估分級(jí)應(yīng)該既清晰又容易理解。如果我們發(fā)現(xiàn)某個(gè)模型需要 ASL-N 級(jí)別的保護(hù),我們就得向第三方解釋,為什么這個(gè)模型需要這樣的保護(hù),以及為什么其他類似的模型可能也需要。如果我們?cè)谠u(píng)估中發(fā)現(xiàn)某些風(fēng)險(xiǎn)因素,我們需要有明確的證據(jù)來(lái)證明這些風(fēng)險(xiǎn)因素確實(shí)值得立即關(guān)注。

建立對(duì)危險(xiǎn)能力、緩解措施和誘導(dǎo)的精確預(yù)測(cè)

如果我們能夠準(zhǔn)確預(yù)測(cè)哪些風(fēng)險(xiǎn)會(huì)在何時(shí)出現(xiàn),以及哪些緩解措施可以在何時(shí)準(zhǔn)備就緒,那么將能夠更好地進(jìn)行規(guī)劃和協(xié)調(diào)。這些預(yù)測(cè)將在我們的 RSP 評(píng)估規(guī)劃中發(fā)揮特別直接的作用:在 RSP 的當(dāng)前設(shè)計(jì)下,我們的評(píng)估體系需要留出緩沖空間,以便在風(fēng)險(xiǎn)實(shí)際出現(xiàn)之前安全地觸發(fā),從而避免模型是在中等安全性下訓(xùn)練的,但事后又確定需要更高安全級(jí)別的情況。

這些預(yù)測(cè)也可能影響我們安全案例結(jié)構(gòu)。如果我們有能夠?qū)π嘛L(fēng)險(xiǎn)的出現(xiàn)做出精確預(yù)測(cè)的方法,這些預(yù)測(cè)可以幫助識(shí)別更廣泛安全案例中最需要關(guān)注的特定風(fēng)險(xiǎn)因素。

構(gòu)建高度自適應(yīng)的研究基礎(chǔ)設(shè)施

在 TAI 早期開(kāi)發(fā)的某個(gè)階段,我們可能會(huì)獲得有關(guān)許多風(fēng)險(xiǎn)的新的具體證據(jù)。并且我們可能不會(huì)信任具有完全高帶寬訪問(wèn)權(quán)限的模型來(lái)修改我們的基礎(chǔ)設(shè)施和代碼庫(kù),因此工程師時(shí)間仍將是我們做許多工作的約束。此時(shí)我們需要能夠快速行動(dòng),并從新的自動(dòng)化機(jī)會(huì)中盡可能多地受益。這可能需要在第二階段中進(jìn)行大量的組織和基礎(chǔ)設(shè)施準(zhǔn)備。

在 TAI 出現(xiàn)前,我們可能會(huì)發(fā)現(xiàn)許多具體的風(fēng)險(xiǎn)。但由于工作進(jìn)度需要工程師配合。為了能更快地推進(jìn),在這個(gè)階段,可能需要公司組織調(diào)整和基礎(chǔ)設(shè)施的建設(shè)。

壓力測(cè)試安全案例

我們的合規(guī)團(tuán)隊(duì)(負(fù)責(zé)安全)和對(duì)齊壓力測(cè)試團(tuán)隊(duì)(負(fù)責(zé)其他技術(shù)安全措施)構(gòu)成了三道防線世界觀中的第二道安全防線,他們負(fù)責(zé)確保我們了解自己正在緩解的風(fēng)險(xiǎn),并確保沒(méi)有遺漏任何重要信息。在我們的宏觀安全計(jì)劃中,這表現(xiàn)為對(duì)組織準(zhǔn)備做出的任何有關(guān)安全和保障的承載聲明進(jìn)行懷疑評(píng)估,并對(duì)任何重要的自由裁量決策進(jìn)行二次簽字。

這一職能的直接重要性并不像這里列出的許多其他職能,因?yàn)樵瓌t上我們的一線安全團(tuán)隊(duì)一次就能把事情做好。但在實(shí)踐中,我預(yù)計(jì)這將對(duì)我們把事情做好的能力產(chǎn)生重大影響,并清楚地表明我們已經(jīng)做到了這一點(diǎn)。

特別地,對(duì)齊壓力測(cè)試團(tuán)隊(duì)的主要挑戰(zhàn)是要足夠接近我們的日常執(zhí)行工作,腳踏實(shí)地,但又不成為這項(xiàng)工作的主要直接貢獻(xiàn)者,以免損害他們?cè)u(píng)估這項(xiàng)工作的能力。

審查安全案例

董事會(huì)在長(zhǎng)期利益信任(LTBT)和外部合作伙伴的支持下,為模型構(gòu)筑了三道防線世界觀中的第三道安全防線,對(duì)任何關(guān)鍵安全決策提出獨(dú)立觀點(diǎn),而這些觀點(diǎn)的提出者從未參與公司計(jì)劃的執(zhí)行或執(zhí)行。這些人最終負(fù)責(zé)簽署高風(fēng)險(xiǎn)決策,比如全新前沿模型的部署等。

我希望董事會(huì)能夠在需要時(shí)找到相關(guān)外部專家,并做出合理決策。更大的挑戰(zhàn)是做決策的過(guò)程要讓其他參與者易懂并值得信賴。最顯而易見(jiàn)的方法是當(dāng)相關(guān)組織上線并擁有足夠的技術(shù)實(shí)力來(lái)裁決這些決定時(shí),遵從這些特定第三方組織關(guān)于決策的意見(jiàn)。如果沒(méi)有這一點(diǎn),很難想象 RSP 及附屬結(jié)構(gòu)如何通過(guò) LeCun 提出的測(cè)試。

因此,我認(rèn)為 Anthropic 無(wú)法直接解決的最緊迫安全問(wèn)題便是找到一個(gè)或理想情況下幾個(gè)有威望的第三方組織來(lái)勝任裁決角色。這些組織要有很高的知名度并受到廣泛的信任,以至于如果前沿 AI 開(kāi)發(fā)者不與它們中的任何一個(gè)合作都會(huì)被視為高度可疑。

為新興風(fēng)險(xiǎn)因素開(kāi)發(fā)明確的確鑿證據(jù)演示

當(dāng)前的 TAI 安全工作通常至少涉及一定程度的推測(cè)或推斷,原因很簡(jiǎn)單,我們往往無(wú)法驗(yàn)證那些構(gòu)成風(fēng)險(xiǎn)的系統(tǒng)。如果可以找到過(guò)渡到具體實(shí)證工作的方法,則應(yīng)該這樣做,既是為了鞏固我們對(duì)威脅模型的信心,也為其他相關(guān)方(尤其包括決策制定者)提供更具說(shuō)服力的證據(jù)

當(dāng)我們看到明顯的證據(jù)表明真實(shí)模型中開(kāi)始出現(xiàn)某種風(fēng)險(xiǎn)或風(fēng)險(xiǎn)因素時(shí),則值得進(jìn)行大量額外工作將它們轉(zhuǎn)化為簡(jiǎn)單、嚴(yán)格的演示,使風(fēng)險(xiǎn)立即清晰明了,理想情況下要讓技術(shù)水平較低的受眾也能理解。我們過(guò)去工作中有過(guò)這樣的例子,比如「Sleeper Agents」(沉睡的智能體)和「Sycophancy」(拍馬屁)。

準(zhǔn)備暫;蛑匦虏渴

為了使 RSP 承諾在最壞的情況下(確保 TAI 系統(tǒng)的安全極其困難)發(fā)揮作用,我們需要能夠暫停開(kāi)發(fā)和部署新的前沿模型,直到制定出足夠的保障措施。但是不能保證這在任何特定的時(shí)間線上都能實(shí)現(xiàn),這可能會(huì)導(dǎo)致我們?nèi)∠虼蠓薷闹饕渴稹?/p>

第二階段:TAI(變革性人工智能)

在這個(gè)階段,性能最好的模型開(kāi)始符合 TAI 的標(biāo)準(zhǔn),但在大多數(shù)領(lǐng)域還沒(méi)有遠(yuǎn)遠(yuǎn)超過(guò)人類。根據(jù) RSP,它們的定級(jí)為 ASL-4。AI 研發(fā)還沒(méi)有自動(dòng)化到 AI 可以自主進(jìn)步的程度。

AI 開(kāi)展研究的能力逐漸變強(qiáng),這將為 AI 安全帶來(lái)顯著進(jìn)步。這個(gè)階段可能會(huì)逐漸到來(lái),但如果 AI 的研發(fā)能力強(qiáng)到「逃逸速度」時(shí),TAI 階段可能會(huì)突然結(jié)束,直接進(jìn)入第 3 階段。

第 1 階段的許多任務(wù)在此時(shí)還不會(huì)完成,其中許多任務(wù)在第 2 階段中只會(huì)變得更具挑戰(zhàn)性和緊迫性。此外,如果人工智能增強(qiáng)研發(fā)達(dá)到「逃逸速度」,這一階段可能會(huì)突然結(jié)束,我們將需要為第 3 階段做好比當(dāng)時(shí)看起來(lái)更直觀的準(zhǔn)備。

開(kāi)發(fā)方法來(lái)調(diào)整實(shí)質(zhì)上超人的人工智能

在第 3 階段中,我們可能會(huì)遇到一些系統(tǒng),如果它們失調(diào),就足以迅速而果斷地破壞安全。因此,在第 2 階段結(jié)束之前,我們需要要么完全、完美地解決對(duì)齊的核心挑戰(zhàn),要么完全、完美地解決一些相關(guān)的(并且?guī)缀跬瑯永щy的)目標(biāo),例如可糾正性。

不斷、仔細(xì)地評(píng)估

我們預(yù)計(jì)人工智能在微調(diào)和啟發(fā)方面的進(jìn)展速度將大幅加快。雖然在早期的 ASL 中,前沿風(fēng)險(xiǎn)評(píng)估可以包含一些緩沖,如果人工智能系統(tǒng)未能觸發(fā)緩沖,我們可以在需要再次評(píng)估之前進(jìn)行一些進(jìn)一步的研究和擴(kuò)展,但這些緩沖可能會(huì)變得不可持續(xù),每一項(xiàng)重要進(jìn)展都應(yīng)該進(jìn)行仔細(xì)評(píng)估?焖偾以诤艽蟪潭壬献詣(dòng)化的評(píng)估至關(guān)重要。

部署以支持高風(fēng)險(xiǎn)決策制定

在從第 2 階段過(guò)渡到第 3 階段的過(guò)程中,經(jīng)濟(jì)相關(guān)大量領(lǐng)域的自動(dòng)化將變得清晰合理,災(zāi)難性風(fēng)險(xiǎn)近在眼前,全球大多數(shù)機(jī)構(gòu)都面臨前所未有的威脅和機(jī)遇。除了成為所有這些不確定性和變化的根源之外,人工智能系統(tǒng)還可以提供即時(shí)工具來(lái)幫助應(yīng)對(duì)這些不確定性和變化。

此時(shí),最有價(jià)值的一點(diǎn)是部署能夠有效提高我們做出高風(fēng)險(xiǎn)決策能力的工具,可能包括針對(duì)個(gè)人決策、建立共識(shí)、教育和 / 或預(yù)測(cè)的工作。這里很大一部分工作將是產(chǎn)品設(shè)計(jì),而不是核心人工智能研究,因此其中大部分工作可能通過(guò)以公共利益為導(dǎo)向的合作伙伴而不是內(nèi)部完成。

第三階段:當(dāng) TAI 來(lái)臨之后該怎么辦

當(dāng)進(jìn)入這個(gè)階段時(shí),最強(qiáng)的 AI 模型已經(jīng)在廣義上超越了人類,這將需要 ASL-5 級(jí)別的預(yù)防措施。如果到了這個(gè)時(shí)候,我們還沒(méi)有在重大的核心安全挑戰(zhàn)上取得決定性的成功,那么屆時(shí) AI 行動(dòng)的速度太快,風(fēng)險(xiǎn)太高,我們不太可能從重大失誤中恢復(fù)過(guò)來(lái)。

監(jiān)管機(jī)構(gòu)很可能會(huì)在 AI 方面投入巨資,在很大程度上使公司不再需要獨(dú)自做出重大決策。在這個(gè)階段,我沒(méi)有列出任何「待做事項(xiàng)」,因?yàn)槲蚁M詈玫那闆r就是「無(wú)事發(fā)生」。

當(dāng)超高智慧的人工智能出現(xiàn)時(shí),作為負(fù)責(zé)開(kāi)發(fā)的組織,之前的決策將承擔(dān)巨大風(fēng)險(xiǎn),早期部署 AI 系統(tǒng)的方式可能以難以預(yù)測(cè)迅速改變或破壞社會(huì)結(jié)構(gòu)和功能。同時(shí),我們需要仔細(xì)考慮治理和安全機(jī)制,因?yàn)檫@些高級(jí) AI 系統(tǒng)屆時(shí)將不僅是簡(jiǎn)單的工具,更可能像一個(gè)完整的獨(dú)立文明一樣運(yùn)作。

當(dāng)然,AI 做出什么樣的行為才算無(wú)害,是一個(gè)非常棘手的問(wèn)題,相比于由一個(gè)公司內(nèi)部來(lái)權(quán)衡,更希望有更廣泛的力量來(lái)達(dá)成共識(shí)。

原文鏈接:https://sleepinyourhat.github.io/checklist

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港