當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > Anthropic安全負(fù)責(zé)人：在超級(jí)AI「毀滅」人類之前，我們可以做這些準(zhǔn)備

Anthropic安全負(fù)責(zé)人：在超級(jí)AI「毀滅」人類之前，我們可以做這些準(zhǔn)備
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-09 18:46:56 瀏覽：1627次

導(dǎo)讀：機(jī)器之心報(bào)道機(jī)器之心編輯部 2023 年，Anthropic 發(fā)布了負(fù)責(zé)任擴(kuò)展策略（Responsible Scaling Policy，RSP），這是一系列技術(shù)和組織協(xié)議，Anthropic 將采用這些協(xié)議來(lái)幫助他們管理開(kāi)發(fā)功能日益強(qiáng)大的 AI 系統(tǒng)。 Anthropic 認(rèn)為，AI 模型一方面變得越來(lái)越強(qiáng)...

機(jī)器之心報(bào)道

機(jī)器之心編輯部

2023 年，Anthropic 發(fā)布了負(fù)責(zé)任擴(kuò)展策略（Responsible Scaling Policy，RSP），這是一系列技術(shù)和組織協(xié)議，Anthropic 將采用這些協(xié)議來(lái)幫助他們管理開(kāi)發(fā)功能日益強(qiáng)大的 AI 系統(tǒng)。

Anthropic 認(rèn)為，AI 模型一方面變得越來(lái)越強(qiáng)大，創(chuàng)造巨大的經(jīng)濟(jì)和社會(huì)價(jià)值，另一方面也帶來(lái)了嚴(yán)重的風(fēng)險(xiǎn)。RSP 將專注于災(zāi)難性風(fēng)險(xiǎn) 即人工智能模型直接造成大規(guī)模破壞的風(fēng)險(xiǎn)。此類風(fēng)險(xiǎn)可能來(lái)自故意濫用模型（例如恐怖分子用它來(lái)制造生物武器），也可能來(lái)自模型以違背其設(shè)計(jì)者意圖的方式自主行動(dòng)而造成破壞。

RSP 還定義了一個(gè)稱為 AI 安全等級(jí) (ASL，AI Safety Levels) 的框架，ASL 等級(jí)越高，其安全性證明就越嚴(yán)格。

ASL-1 指的是不構(gòu)成重大災(zāi)難風(fēng)險(xiǎn)的系統(tǒng)，例如 2018 年的 LLM 或只會(huì)下棋的 AI 系統(tǒng)。

ASL-2 指的是顯示出危險(xiǎn)能力早期跡象的系統(tǒng)（例如能夠給出如何制造生物武器的指令），但這些信息由于可靠性不足或無(wú)法超越搜索引擎能提供的信息而沒(méi)有太多用處。包括 Claude 在內(nèi)的當(dāng)前 LLM 似乎是 ASL-2。

ASL-3 指的是與非 AI 基線（例如搜索引擎或教科書）相比，大大增加了災(zāi)難性濫用風(fēng)險(xiǎn)的系統(tǒng)或顯示出低級(jí)自主能力的系統(tǒng)。

ASL-4 及更高版本（ASL-5+）尚未定義，因?yàn)樗c現(xiàn)有系統(tǒng)相差太遠(yuǎn)，但可能會(huì)涉及災(zāi)難性濫用潛力和自主性的質(zhì)的升級(jí)。

一直以來(lái)，Anthropic 在為 AI 安全做著各種努力，「要做哪些技術(shù)工作才能使非常強(qiáng)大的人工智能的開(kāi)發(fā)順利進(jìn)行？」近日，Anthropic 安全研究部門的負(fù)責(zé)人 Sam Bowman 在一篇博客中分享了他的觀點(diǎn)。

對(duì)于這篇博客，機(jī)器之心做了不改變?cè)x的翻譯與整理。

在開(kāi)始討論超級(jí)人工智能的風(fēng)險(xiǎn)之前，我有一些前提需要聲明：

人工智能有望達(dá)到與人類相當(dāng)?shù)乃健＿@個(gè)階段，我稱之為變革性人工智能（TAI）。TAI 將有能力在所有適合遠(yuǎn)程工作的職業(yè)中替代人類，包括 AI 研發(fā)。

TAI 并不是人工智能能力的上限，未來(lái)可能會(huì)出現(xiàn)遠(yuǎn)超人類能力的系統(tǒng)，它們將對(duì)世界產(chǎn)生深遠(yuǎn)影響。在未來(lái)十年內(nèi)，我們很有可能見(jiàn)證 TAI 的誕生，而那時(shí)的商業(yè)、政策和文化背景預(yù)計(jì)與當(dāng)前相比不會(huì)有太大變化。

TAI 一旦實(shí)現(xiàn)，它將極大地加速人工智能的研發(fā)進(jìn)程，可能在 TAI 出現(xiàn)后的幾個(gè)月或幾年內(nèi)，我們就能看到遠(yuǎn)超人類能力的系統(tǒng)被開(kāi)發(fā)出來(lái)。

如果部署不當(dāng)，超級(jí)人工智能系統(tǒng)可能會(huì)極具破壞性。它可能帶來(lái)新風(fēng)險(xiǎn)，也可能使現(xiàn)有矛盾變得更加尖銳，比如武器濫用，以及破壞道路監(jiān)控或網(wǎng)絡(luò)安全等。

想要讓 TAI 以及更強(qiáng)大的 AI 系統(tǒng)在現(xiàn)實(shí)世界中「三觀正�！沟卣_行事，這對(duì)人工智能安全提出了更高要求。確保人工智能系統(tǒng)的行為與開(kāi)發(fā)者的意圖一致，即所謂的「對(duì)齊」，需要我們投入巨大的努力。而且隨著 AI 系統(tǒng)的能力越來(lái)越強(qiáng)，這一任務(wù)也變得更加艱巨。

我將從三個(gè)階段展開(kāi)。

第一階段：準(zhǔn)備

此時(shí)，AI 還未進(jìn)階成 TAI，以 Anthropic 的 RSP 評(píng)級(jí)（風(fēng)險(xiǎn)敏感性評(píng)估）來(lái)看，他們處于安全等級(jí) 2（ASL-2）、ASL-3，或者可能是 ASL-4 的早期階段。我們大部分的干預(yù)和準(zhǔn)備工作將在這一時(shí)期進(jìn)行，為尚未完全出現(xiàn)的高風(fēng)險(xiǎn)問(wèn)題做準(zhǔn)備。

密切關(guān)注技術(shù)前沿

AI 有多安全，很大程度上取決于我們的工作能力，而這又與我們獲取前沿技術(shù)的能力緊密相關(guān)。如果我們無(wú)法獲得充足的計(jì)算資源，或者在關(guān)鍵的預(yù)訓(xùn)練階段出現(xiàn)重大失誤，或者錯(cuò)過(guò)了帶來(lái)變革的范式轉(zhuǎn)變（哪怕是方法中的一些小改進(jìn)），我們就會(huì)喪失大量做貢獻(xiàn)的機(jī)會(huì)。而負(fù)責(zé) AI 安全工作，需要遵守嚴(yán)格的規(guī)定和限制。因此，持續(xù)跟進(jìn)新技術(shù)，是在此階段的首要任務(wù)。

在初始階段基本解決 TAI 的對(duì)齊微調(diào)問(wèn)題

當(dāng) AI 系統(tǒng)已經(jīng)智能到可以自主做研究，特別是 AI 安全研究時(shí)，我們需要尋找一種方法，讓 AI 系統(tǒng)在幫助我們完成大量工作的同時(shí)，避免出現(xiàn)偏差。同時(shí)，我們必須確保 AI 的能力至少與人類專家相當(dāng)，甚至更優(yōu)，以確保它們能有效地協(xié)助我們。

此時(shí)，AI 并不需要完全「對(duì)齊」我們可以接受一定程度的風(fēng)險(xiǎn)。因?yàn)槿祟惒粫?huì)將最關(guān)鍵的決策權(quán)交給 AI。同時(shí)，我們也有信心能在 AI 的對(duì)齊問(wèn)題演變成全球性災(zāi)難之前，及時(shí)發(fā)現(xiàn)并糾正。

我們的目標(biāo)是構(gòu)建高效且通用的 AI 系統(tǒng)。構(gòu)建能完全「對(duì)齊」的 AI 助理，僅供公司內(nèi)部使用，并進(jìn)行嚴(yán)格的專家監(jiān)控，這種方法可行，但問(wèn)題是，有過(guò)多限制或需要專家持續(xù)監(jiān)督的 AI 系統(tǒng)很難大規(guī)模推廣，這樣一來(lái)，Anthropic 的業(yè)務(wù)也難以持續(xù)發(fā)展。

在我看來(lái)，解決問(wèn)題的關(guān)鍵在于可拓展的監(jiān)督，這要求我們訓(xùn)練出能勝任完成復(fù)雜的開(kāi)放式任務(wù)的負(fù)責(zé)任的 AI 智能體。為此，需要解決的主要挑戰(zhàn)包括：「Reward hacking」、應(yīng)對(duì)人類注意力的有限性，以及識(shí)別和抵御各種欺詐行為。

確保初始形態(tài)的 TAI 安全無(wú)害

如果「對(duì)齊」問(wèn)題能完美解決，我們只需下達(dá)命令，模型就能不做壞事。但這似乎不可能做到。因此，我們必須構(gòu)建額外的防御措施，比如對(duì)模型輸出自動(dòng)進(jìn)行監(jiān)控、抽查、紅隊(duì)測(cè)試，壓力測(cè)試等。

蘋果給 Apple Intelligence 下達(dá)的系統(tǒng)提示詞：「不要產(chǎn)生幻覺(jué)９

我們還特意構(gòu)建了「邪惡」的未對(duì)齊版本，試圖來(lái)攻擊我們的安全系統(tǒng)，這和傳統(tǒng)的「對(duì)齊」工作一樣重要。

在長(zhǎng)遠(yuǎn)來(lái)看，由于現(xiàn)有方法依賴于精確、召回率極高的內(nèi)容分類器，這階段的主要挑戰(zhàn)是圍繞對(duì)抗性魯棒性的一系列機(jī)器學(xué)習(xí)問(wèn)題。

對(duì)于有多款變體的模型家族，我們也可以綜合考慮，而不是逐個(gè)擊破。這種方法不僅有助于識(shí)別在初步安全規(guī)劃階段可能未被察覺(jué)的風(fēng)險(xiǎn)，還能有效防御那些在單一數(shù)據(jù)樣本中不明顯，卻可能在多樣本模式分析中暴露的系統(tǒng)性風(fēng)險(xiǎn)，例如潛在的濫用或錯(cuò)位問(wèn)題。

制定合適的 RSP（負(fù)責(zé)任擴(kuò)展策略）

什么是一個(gè)合格的 RSP？可以參考 LeCun 提出的測(cè)試：即使是完全不重視 AI 安全問(wèn)題的敵方公司，也能放心使用。一份好的 RSP 能研究人員操作安全，一旦出現(xiàn)意外也能顯而易見(jiàn)且可追責(zé)。

這個(gè)標(biāo)準(zhǔn)與其他領(lǐng)域的標(biāo)準(zhǔn)和類似。例如，如果一個(gè)組織希望避免受到網(wǎng)絡(luò)上的攻擊。盡管他們心存疑慮，但只要遵循 SOC 2 等通用網(wǎng)絡(luò)安全標(biāo)準(zhǔn)，他們可以獲得真正意義上的保護(hù)。

關(guān)鍵挑戰(zhàn)是預(yù)測(cè)哪些風(fēng)險(xiǎn)足夠重要，值得納入其中。到目前為止，我們?cè)谕{建模中反復(fù)出現(xiàn)的一個(gè)具體未解決的問(wèn)題是，ASL-3 和 ASL-4 的風(fēng)險(xiǎn)在多大程度上是通過(guò)直接濫用、錯(cuò)位或通過(guò)雙重用途研發(fā)等渠道而流動(dòng)的。

ASL-4 的評(píng)估和部署案例

ASL-4 涵蓋了近乎人類水平的自主性和可能災(zāi)難性的直接濫用風(fēng)險(xiǎn)，我們沒(méi)有提前制定詳細(xì)的標(biāo)準(zhǔn)。相反，我們將致力于整理一個(gè)安全案例一份提供系統(tǒng)在某些情況下是安全的證據(jù)的報(bào)告并制定安全案例需要滿足的高級(jí)標(biāo)準(zhǔn)才能獲得批準(zhǔn)。許多技術(shù)安全工作最終將通過(guò)納入這些安全案例產(chǎn)生影響，這些安全案例是我們?cè)?到達(dá) ASL-4 之前的關(guān)鍵目標(biāo)。

Anthropic 把寶押在對(duì)可解釋性的深入研究，希望它能夠成為 AI 系統(tǒng)安全的證據(jù)來(lái)源。

對(duì)于大多數(shù)部署的安全案例（即任何可能用于高風(fēng)險(xiǎn)任務(wù)的模型部署），都需要包含證據(jù)表明我們的安全措施具有很高的穩(wěn)健性。也就是說(shuō)，應(yīng)該清楚的是，無(wú)論是模型還是它的監(jiān)測(cè)系統(tǒng)，都不會(huì)在罕見(jiàn)但重要的輸入上以令人驚訝的方式失敗

除非可解釋性出現(xiàn)不太可能的最佳結(jié)果，否則我們預(yù)計(jì)一個(gè)強(qiáng)有力的安全案例將需要依靠基于其他方法的額外新發(fā)現(xiàn)。這些新發(fā)現(xiàn)應(yīng)當(dāng)能讓我們定量評(píng)估模型的安全性，預(yù)測(cè)它們可能帶來(lái)的風(fēng)險(xiǎn)。

保護(hù)算法的秘密

如果我們的研究能力遠(yuǎn)遠(yuǎn)領(lǐng)先于該領(lǐng)域的平均水平，那么保護(hù)該研究的關(guān)鍵發(fā)現(xiàn)對(duì)于公司保持領(lǐng)先地位將非常重要。這與不公布模型權(quán)重有本質(zhì)不同，保護(hù)起來(lái)也要困難得多：因?yàn)檫@些發(fā)現(xiàn)通�？梢杂脦拙湓捇驇锥卧拋�(lái)表達(dá)，離職的員工很自然地就能記祝因此保護(hù)算法秘密至關(guān)重要。

為 ASL-4 和 ASL-5 建立清晰的評(píng)估

一旦達(dá)到 ASL-3 級(jí)別，安全評(píng)估就變得更難了。在 ASL-4 或 ASL-5 級(jí)別下部署預(yù)防措施，時(shí)間和金錢成本可能會(huì)空前高昂，過(guò)早啟動(dòng)評(píng)估和過(guò)晚啟動(dòng)高風(fēng)險(xiǎn)等級(jí)都會(huì)產(chǎn)生巨大成本。

這些評(píng)估分級(jí)應(yīng)該既清晰又容易理解。如果我們發(fā)現(xiàn)某個(gè)模型需要 ASL-N 級(jí)別的保護(hù)，我們就得向第三方解釋，為什么這個(gè)模型需要這樣的保護(hù)，以及為什么其他類似的模型可能也需要。如果我們?cè)谠u(píng)估中發(fā)現(xiàn)某些風(fēng)險(xiǎn)因素，我們需要有明確的證據(jù)來(lái)證明這些風(fēng)險(xiǎn)因素確實(shí)值得立即關(guān)注。

建立對(duì)危險(xiǎn)能力、緩解措施和誘導(dǎo)的精確預(yù)測(cè)

如果我們能夠準(zhǔn)確預(yù)測(cè)哪些風(fēng)險(xiǎn)會(huì)在何時(shí)出現(xiàn)，以及哪些緩解措施可以在何時(shí)準(zhǔn)備就緒，那么將能夠更好地進(jìn)行規(guī)劃和協(xié)調(diào)。這些預(yù)測(cè)將在我們的 RSP 評(píng)估規(guī)劃中發(fā)揮特別直接的作用：在 RSP 的當(dāng)前設(shè)計(jì)下，我們的評(píng)估體系需要留出緩沖空間，以便在風(fēng)險(xiǎn)實(shí)際出現(xiàn)之前安全地觸發(fā)，從而避免模型是在中等安全性下訓(xùn)練的，但事后又確定需要更高安全級(jí)別的情況。

這些預(yù)測(cè)也可能影響我們安全案例結(jié)構(gòu)。如果我們有能夠?qū)π嘛L(fēng)險(xiǎn)的出現(xiàn)做出精確預(yù)測(cè)的方法，這些預(yù)測(cè)可以幫助識(shí)別更廣泛安全案例中最需要關(guān)注的特定風(fēng)險(xiǎn)因素。

構(gòu)建高度自適應(yīng)的研究基礎(chǔ)設(shè)施

在 TAI 早期開(kāi)發(fā)的某個(gè)階段，我們可能會(huì)獲得有關(guān)許多風(fēng)險(xiǎn)的新的具體證據(jù)。并且我們可能不會(huì)信任具有完全高帶寬訪問(wèn)權(quán)限的模型來(lái)修改我們的基礎(chǔ)設(shè)施和代碼庫(kù)，因此工程師時(shí)間仍將是我們做許多工作的約束。此時(shí)我們需要能夠快速行動(dòng)，并從新的自動(dòng)化機(jī)會(huì)中盡可能多地受益。這可能需要在第二階段中進(jìn)行大量的組織和基礎(chǔ)設(shè)施準(zhǔn)備。

在 TAI 出現(xiàn)前，我們可能會(huì)發(fā)現(xiàn)許多具體的風(fēng)險(xiǎn)。但由于工作進(jìn)度需要工程師配合。為了能更快地推進(jìn)，在這個(gè)階段，可能需要公司組織調(diào)整和基礎(chǔ)設(shè)施的建設(shè)。

壓力測(cè)試安全案例

我們的合規(guī)團(tuán)隊(duì)（負(fù)責(zé)安全）和對(duì)齊壓力測(cè)試團(tuán)隊(duì)（負(fù)責(zé)其他技術(shù)安全措施）構(gòu)成了三道防線世界觀中的第二道安全防線，他們負(fù)責(zé)確保我們了解自己正在緩解的風(fēng)險(xiǎn)，并確保沒(méi)有遺漏任何重要信息。在我們的宏觀安全計(jì)劃中，這表現(xiàn)為對(duì)組織準(zhǔn)備做出的任何有關(guān)安全和保障的承載聲明進(jìn)行懷疑評(píng)估，并對(duì)任何重要的自由裁量決策進(jìn)行二次簽字。

這一職能的直接重要性并不像這里列出的許多其他職能，因?yàn)樵瓌t上我們的一線安全團(tuán)隊(duì)一次就能把事情做好。但在實(shí)踐中，我預(yù)計(jì)這將對(duì)我們把事情做好的能力產(chǎn)生重大影響，并清楚地表明我們已經(jīng)做到了這一點(diǎn)。

特別地，對(duì)齊壓力測(cè)試團(tuán)隊(duì)的主要挑戰(zhàn)是要足夠接近我們的日常執(zhí)行工作，腳踏實(shí)地，但又不成為這項(xiàng)工作的主要直接貢獻(xiàn)者，以免損害他們?cè)u(píng)估這項(xiàng)工作的能力。

審查安全案例

董事會(huì)在長(zhǎng)期利益信任（LTBT）和外部合作伙伴的支持下，為模型構(gòu)筑了三道防線世界觀中的第三道安全防線，對(duì)任何關(guān)鍵安全決策提出獨(dú)立觀點(diǎn)，而這些觀點(diǎn)的提出者從未參與公司計(jì)劃的執(zhí)行或執(zhí)行。這些人最終負(fù)責(zé)簽署高風(fēng)險(xiǎn)決策，比如全新前沿模型的部署等。

我希望董事會(huì)能夠在需要時(shí)找到相關(guān)外部專家，并做出合理決策。更大的挑戰(zhàn)是做決策的過(guò)程要讓其他參與者易懂并值得信賴。最顯而易見(jiàn)的方法是當(dāng)相關(guān)組織上線并擁有足夠的技術(shù)實(shí)力來(lái)裁決這些決定時(shí)，遵從這些特定第三方組織關(guān)于決策的意見(jiàn)。如果沒(méi)有這一點(diǎn)，很難想象 RSP 及附屬結(jié)構(gòu)如何通過(guò) LeCun 提出的測(cè)試。

因此，我認(rèn)為 Anthropic 無(wú)法直接解決的最緊迫安全問(wèn)題便是找到一個(gè)或理想情況下幾個(gè)有威望的第三方組織來(lái)勝任裁決角色。這些組織要有很高的知名度并受到廣泛的信任，以至于如果前沿 AI 開(kāi)發(fā)者不與它們中的任何一個(gè)合作都會(huì)被視為高度可疑。

為新興風(fēng)險(xiǎn)因素開(kāi)發(fā)明確的確鑿證據(jù)演示

當(dāng)前的 TAI 安全工作通常至少涉及一定程度的推測(cè)或推斷，原因很簡(jiǎn)單，我們往往無(wú)法驗(yàn)證那些構(gòu)成風(fēng)險(xiǎn)的系統(tǒng)。如果可以找到過(guò)渡到具體實(shí)證工作的方法，則應(yīng)該這樣做，既是為了鞏固我們對(duì)威脅模型的信心，也為其他相關(guān)方（尤其包括決策制定者）提供更具說(shuō)服力的證據(jù)

當(dāng)我們看到明顯的證據(jù)表明真實(shí)模型中開(kāi)始出現(xiàn)某種風(fēng)險(xiǎn)或風(fēng)險(xiǎn)因素時(shí)，則值得進(jìn)行大量額外工作將它們轉(zhuǎn)化為簡(jiǎn)單、嚴(yán)格的演示，使風(fēng)險(xiǎn)立即清晰明了，理想情況下要讓技術(shù)水平較低的受眾也能理解。我們過(guò)去工作中有過(guò)這樣的例子，比如「Sleeper Agents」（沉睡的智能體）和「Sycophancy」（拍馬屁）。

準(zhǔn)備暫�；蛑匦虏渴�

為了使 RSP 承諾在最壞的情況下（確保 TAI 系統(tǒng)的安全極其困難）發(fā)揮作用，我們需要能夠暫停開(kāi)發(fā)和部署新的前沿模型，直到制定出足夠的保障措施。但是不能保證這在任何特定的時(shí)間線上都能實(shí)現(xiàn)，這可能會(huì)導(dǎo)致我們?nèi)∠虼蠓薷闹饕渴稹?/p>

第二階段：TAI（變革性人工智能）

在這個(gè)階段，性能最好的模型開(kāi)始符合 TAI 的標(biāo)準(zhǔn)，但在大多數(shù)領(lǐng)域還沒(méi)有遠(yuǎn)遠(yuǎn)超過(guò)人類。根據(jù) RSP，它們的定級(jí)為 ASL-4。AI 研發(fā)還沒(méi)有自動(dòng)化到 AI 可以自主進(jìn)步的程度。

AI 開(kāi)展研究的能力逐漸變強(qiáng)，這將為 AI 安全帶來(lái)顯著進(jìn)步。這個(gè)階段可能會(huì)逐漸到來(lái)，但如果 AI 的研發(fā)能力強(qiáng)到「逃逸速度」時(shí)，TAI 階段可能會(huì)突然結(jié)束，直接進(jìn)入第 3 階段。

第 1 階段的許多任務(wù)在此時(shí)還不會(huì)完成，其中許多任務(wù)在第 2 階段中只會(huì)變得更具挑戰(zhàn)性和緊迫性。此外，如果人工智能增強(qiáng)研發(fā)達(dá)到「逃逸速度」，這一階段可能會(huì)突然結(jié)束，我們將需要為第 3 階段做好比當(dāng)時(shí)看起來(lái)更直觀的準(zhǔn)備。

開(kāi)發(fā)方法來(lái)調(diào)整實(shí)質(zhì)上超人的人工智能

在第 3 階段中，我們可能會(huì)遇到一些系統(tǒng)，如果它們失調(diào)，就足以迅速而果斷地破壞安全。因此，在第 2 階段結(jié)束之前，我們需要要么完全、完美地解決對(duì)齊的核心挑戰(zhàn)，要么完全、完美地解決一些相關(guān)的（并且?guī)缀跬瑯永щy的）目標(biāo)，例如可糾正性。

不斷、仔細(xì)地評(píng)估

我們預(yù)計(jì)人工智能在微調(diào)和啟發(fā)方面的進(jìn)展速度將大幅加快。雖然在早期的 ASL 中，前沿風(fēng)險(xiǎn)評(píng)估可以包含一些緩沖，如果人工智能系統(tǒng)未能觸發(fā)緩沖，我們可以在需要再次評(píng)估之前進(jìn)行一些進(jìn)一步的研究和擴(kuò)展，但這些緩沖可能會(huì)變得不可持續(xù)，每一項(xiàng)重要進(jìn)展都應(yīng)該進(jìn)行仔細(xì)評(píng)估�？焖偾以诤艽蟪潭壬献詣�(dòng)化的評(píng)估至關(guān)重要。

部署以支持高風(fēng)險(xiǎn)決策制定

在從第 2 階段過(guò)渡到第 3 階段的過(guò)程中，經(jīng)濟(jì)相關(guān)大量領(lǐng)域的自動(dòng)化將變得清晰合理，災(zāi)難性風(fēng)險(xiǎn)近在眼前，全球大多數(shù)機(jī)構(gòu)都面臨前所未有的威脅和機(jī)遇。除了成為所有這些不確定性和變化的根源之外，人工智能系統(tǒng)還可以提供即時(shí)工具來(lái)幫助應(yīng)對(duì)這些不確定性和變化。

此時(shí)，最有價(jià)值的一點(diǎn)是部署能夠有效提高我們做出高風(fēng)險(xiǎn)決策能力的工具，可能包括針對(duì)個(gè)人決策、建立共識(shí)、教育和 / 或預(yù)測(cè)的工作。這里很大一部分工作將是產(chǎn)品設(shè)計(jì)，而不是核心人工智能研究，因此其中大部分工作可能通過(guò)以公共利益為導(dǎo)向的合作伙伴而不是內(nèi)部完成。

第三階段：當(dāng) TAI 來(lái)臨之后該怎么辦

當(dāng)進(jìn)入這個(gè)階段時(shí)，最強(qiáng)的 AI 模型已經(jīng)在廣義上超越了人類，這將需要 ASL-5 級(jí)別的預(yù)防措施。如果到了這個(gè)時(shí)候，我們還沒(méi)有在重大的核心安全挑戰(zhàn)上取得決定性的成功，那么屆時(shí) AI 行動(dòng)的速度太快，風(fēng)險(xiǎn)太高，我們不太可能從重大失誤中恢復(fù)過(guò)來(lái)。

監(jiān)管機(jī)構(gòu)很可能會(huì)在 AI 方面投入巨資，在很大程度上使公司不再需要獨(dú)自做出重大決策。在這個(gè)階段，我沒(méi)有列出任何「待做事項(xiàng)」，因?yàn)槲蚁Ｍ詈玫那闆r就是「無(wú)事發(fā)生」。

當(dāng)超高智慧的人工智能出現(xiàn)時(shí)，作為負(fù)責(zé)開(kāi)發(fā)的組織，之前的決策將承擔(dān)巨大風(fēng)險(xiǎn)，早期部署 AI 系統(tǒng)的方式可能以難以預(yù)測(cè)迅速改變或破壞社會(huì)結(jié)構(gòu)和功能。同時(shí)，我們需要仔細(xì)考慮治理和安全機(jī)制，因?yàn)檫@些高級(jí) AI 系統(tǒng)屆時(shí)將不僅是簡(jiǎn)單的工具，更可能像一個(gè)完整的獨(dú)立文明一樣運(yùn)作。

當(dāng)然，AI 做出什么樣的行為才算無(wú)害，是一個(gè)非常棘手的問(wèn)題，相比于由一個(gè)公司內(nèi)部來(lái)權(quán)衡，更希望有更廣泛的力量來(lái)達(dá)成共識(shí)。

原文鏈接：https://sleepinyourhat.github.io/checklist