當前位置：人工智能實驗室> 人工智能動態(tài) > 人類自身都對不齊，怎么對齊AI？新研究審視偏好在AI對齊中的作用

人類自身都對不齊，怎么對齊AI？新研究審視偏好在AI對齊中的作用
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-22 15:38:15 瀏覽：2482次

導讀：劃重點 01麻省理工學院等四個團隊的研究發(fā)現(xiàn)，人類尚且難以對齊，更難以讓AI與自己對齊。 02研究批判了當前AI對齊研究的缺陷，提出了值得進一步研究的替代方案。 03他們提出將AI直接與優(yōu)秀助手/程序員/司機等規(guī)范性理想目標對齊，而非與人類的集體意志對齊。...

劃重點

01麻省理工學院等四個團隊的研究發(fā)現(xiàn)，人類尚且難以對齊，更難以讓AI與自己對齊。

02研究批判了當前AI對齊研究的缺陷，提出了值得進一步研究的替代方案。

03他們提出將AI直接與優(yōu)秀助手/程序員/司機等規(guī)范性理想目標對齊，而非與人類的集體意志對齊。

04然而，偏好主義在實踐中的主導方法仍面臨諸多技術(shù)和哲學難題，如社會選擇、反社會偏好等。

05該團隊呼吁確定偏好主義方法的描述性和規(guī)范性承諾，明確說明其局限性，并描述可供進一步研究的概念和技術(shù)替代方案。

以上內(nèi)容由騰訊混元大模型生成，僅供參考

機器之心報道

編輯：Panda

讓 AI 與人類價值觀對齊一直都是 AI 領(lǐng)域的一大重要且熱門的研究課題，甚至很可能是 OpenAI 高層分裂的一大重要原因 CEO 薩姆·奧特曼似乎更傾向于更快實現(xiàn) AI 商業(yè)化，而以伊爾亞·蘇茨克維（Ilya Sutskever）為代表的一些研究者則更傾向于先保證 AI 安全。

但人類真的能讓 AI 與自己對齊嗎？近日，來自麻省理工學院、加州大學伯克利分校、倫敦大學學院、劍橋大學的一個四人團隊研究發(fā)現(xiàn)，人類尚且難以對齊，也就更難以讓 AI 與自己對齊了。他們批判性地審視了當前 AI 對齊研究的缺陷，另外他們也展示了一些替代方案。

人類自身都對不齊，怎么對齊AI？新研究審視偏好在AI對齊中的作用

論文標題：Beyond Preferences in AI Alignment

論文地址：https://arxiv.org/pdf/2408.16984

這篇論文的一作 Tan Zhi-Xuan 在 X 上稱這項研究耗時近 2 年時間，其表示這既是一份批判性評論，也是一份研究議程。「在其中，我們根據(jù) 4 個偏好論題描述了偏好在 AI 對齊中的作用。然后，我們強調(diào)了它們的局限性，并提出了值得進一步研究的替代方案�！�

人類自身都對不齊，怎么對齊AI？新研究審視偏好在AI對齊中的作用

哲學家 Nora Belrose 總結(jié)了這篇論文中一些有趣的結(jié)論：

人類自身都對不齊，怎么對齊AI？新研究審視偏好在AI對齊中的作用

人類在行事時甚至都不能大致遵循理性選擇理論；

沒有理由認為高級 AI 必定會最大化某個效用函數(shù)；

人類偏好是推斷出來的或構(gòu)建起來的，因此將 AI 的行為與我們表述出來的偏好對齊是錯誤的方向；相反，我們可以將 AI 直接與「優(yōu)秀助手 / 程序員 / 司機等」規(guī)范性理想目標對齊；

聚合人類的偏好充滿哲學和數(shù)學困難；我們的目標不應(yīng)該是讓 AI 與「人類的集體意志」對齊。

該團隊首先提出，「人類價值觀」這個術(shù)語其實沒有清晰明確的定義，因此就很難對其進行量化，從而讓機器對齊。

目前，定義「價值」的一種主要方法是基于人類偏好，這種方法源自利用理性選擇理論、統(tǒng)計決策理論的傳統(tǒng)及其對人工智能中的自動決策和強化學習的影響。

無論是明確采用，還是以「獎勵」或「效用」的形式隱含地假設(shè)，這種基于偏好的方法已經(jīng)成為人工智能對齊的理論和實踐的主導方法。

但是，就連該方法的支持者也指出，在對齊 AI 與人類偏好方面存在諸多技術(shù)和哲學難題，包括社會選擇、反社會偏好、偏好變化以及難以從人類行為中推斷偏好。

這項研究認為，要想真正解決這些難題，就不能僅僅基于本體論、認識論或規(guī)范性理論來看待人類偏好。借用福利哲學中的一個術(shù)語，該團隊將這些對 AI 對齊的描述形式表述成了一種范圍寬廣用于 AI 對齊的偏好主義（preferentist）方法。之后，基于偏好在決策中的作用，他們又將這些方法分成了四類：

將理性選擇理論作為描述性框架。人類行為和決策被很好地建模為近似地滿足最大化偏好，這可以表示為效用或獎勵函數(shù)。

將預期效用理論作為規(guī)范標準。理性可以被描述為預期效用的最大化。此外，應(yīng)根據(jù)這一規(guī)范標準設(shè)計和分析 AI 系統(tǒng)。

將單主體對齊作為偏好匹配。對于要與單個人類主體對齊的 AI 系統(tǒng)，它應(yīng)盡可能地滿足該人類的偏好。

將多主體對齊作為偏好聚合。為了使 AI 系統(tǒng)與多個人類主體對齊，它們應(yīng)以最大限度地滿足其總體偏好。

這些論點都只是觀點，而非一個統(tǒng)一的 AI 對齊理論。盡管如此，它們表達的思想是緊密關(guān)聯(lián)的，并且大多數(shù) AI 對齊方法都采用了其中 2 個或更多論點。比如逆向強化學習、基于人類反饋的強化學習（RLHF）和直接偏好優(yōu)化（DPO）全都假定可通過一個獎勵或效用函數(shù)來很好地建模人類偏好，并且該函數(shù)還可被進一步優(yōu)化。

當然，偏好主義也有批評者。多年來人們一直在爭論上述論點是否合理。即便如此，偏好主義仍舊是實踐中的主導方法。

因此，該團隊表示：「我們相信有必要確定偏好主義方法的描述性和規(guī)范性承諾，明確說明其局限性，并描述可供進一步研究的概念和技術(shù)替代方案�！�

下面我們將簡要總結(jié)該論文梳理的觀點和替代方案，詳細描述請參閱原論文。

在建模人類時，超越理性選擇理論

理性選擇理論的核心原則是：假設(shè)人類的行為是為了盡可能地滿足自己的偏好，并且個體和總體人類行為都可以用這些術(shù)語來理解。就理論前提而言，這一假設(shè)非常成功，并且還構(gòu)成了現(xiàn)代經(jīng)濟學這門學科的基石，還影響了與人類行為分析有關(guān)的許多領(lǐng)域，包括社會學、法學和認知科學。

將揭示型偏好及其表征用作效用函數(shù)。理性選擇理論最標準的形式是假設(shè)人類偏好可以表示為一個標量值的效用函數(shù)，而人類選擇就可建模成選取的動作，其目標是最大化該函數(shù)的預期值。這種方法希望可以直接從人類的選擇中得出其偏好，并且還可以將他們的偏好程度表示為標量值。這樣的偏好被稱為揭示型偏好（revealed preferences），因為它們會在人類選擇過程中逐步揭示出來。這些方法有眾多定理支持。這些定理表明，任何遵循某些「理性公理」的結(jié)果偏好排序都可以用效用函數(shù)來表示，例如著名的馮·諾依曼 - 摩根斯坦（VNM）效用定理。

機器學習中的理性選擇理論。根據(jù)理性選擇理論，許多機器學習和 AI 系統(tǒng)還假設(shè)人類偏好可以或多或少直接地基于人類選擇得出，并且進一步用標量效用或獎勵來表示這些偏好。逆向強化學習和基于人類反饋的強化學習領(lǐng)域尤其如此，它們假設(shè)人類的行為可以描述為（近似地）最大化隨時間推移的標量獎勵總和，然后嘗試推斷出一個能解釋所觀察到的行為的獎勵函數(shù)。推薦系統(tǒng)領(lǐng)域也可以找到類似的假設(shè)。

帶噪理性選擇（noisily-rational choice）的玻爾茲曼模型。雖然這些基于偏好的人類行為模型基于理性選擇理論，但值得注意的是，它們比僅僅「最大化預期效用」可能要更復雜一些。因為人類其實很復雜，并不總是在最大化效用，因此模型必然帶有噪聲，只能算是近似的理性選擇。在機器學習和 AI 對齊領(lǐng)域，這種選擇模型的最常見形式是玻爾茲曼理性（得名于統(tǒng)計力學中的玻爾茲曼分布），它假設(shè)選擇 c 的概率正比于做出該選擇的預期效用的指數(shù)：。

人類自身都對不齊，怎么對齊AI？新研究審視偏好在AI對齊中的作用

玻爾茲曼理性的論證和擴展。這種選擇模型在實踐和理論上都很有用。比如，通過調(diào)整「理性參數(shù)」 β（在 0 到無窮大之間），可以在完全隨機選擇和確定性最優(yōu)選擇之間調(diào)整玻爾茲曼理性。理論上，玻爾茲曼理性可作為盧斯（Luce）選擇公理的一個實例，也可作為熱力學啟發(fā)的有限理性模型。此外，玻爾茲曼理性已擴展到建模人類行為的其它方面，除了目標導向動作之外，還包括選項之間的直接比較、顯式陳述的獎勵函數(shù)、整體行為策略和語言表達，從而允許從多種形式的人類反饋中推斷出偏好。

玻爾茲曼理性的局限性。盡管玻爾茲曼理性可能很有用，但尋求替代方案也很重要。首先，它不是唯一直觀合理的噪聲理性選擇模型：隨機效用模型是將選擇建模成最大化隨機擾動效用值的結(jié)果，并被廣泛用于市場營銷研究。更重要的是，帶噪理性不足以解釋人類未能采取最佳行動的全部方式。為了準確地從人類行為中推斷出人類的偏好和價值觀，必需更豐富的有限理性模型。最根本的是，人類動機不能完全歸結(jié)為單純的偏好或效用函數(shù)。我們需要更豐富的人類理性模型。

這一節(jié)討論并擴展的議題包括：

人類決策的帶噪理性模型；

將獎勵和效用函數(shù)用作人類偏好的表征；

將偏好用作人類價值和理性的表征。

超越將預期效用理論作為理性的規(guī)范標準

現(xiàn)在，問題來了：對于人類和機器行為來說，效用最大化是預期的規(guī)范標準嗎？也就是說，智能體是否應(yīng)該將最大化滿足其偏好作為完美理性的條件，而不論其實際做得如何。

EUT（預期效用理論）的一致性論據(jù)。關(guān)于這種規(guī)范性標準的可行性，一直存在爭議。支持 EUT 的論據(jù)包括前面提到的效用表示定理。該定理基于這一公理：偏好算作理性；然后證明任何遵循偏好行事的智能體的行為都必定像是在最大化預期效用。在 AI 對齊文獻中，這些結(jié)果通常被視為關(guān)于理性智能體的「一致性定理（coherence theorems）」。

將 AI 對齊視為對齊預期效用最大化�；谶@些論據(jù)，AI 對齊研究者傳統(tǒng)上認為：先進 AI 系統(tǒng)的行為就像是在最大化預期效用。因此，很多人將對齊 AI 的問題表述為如何讓預期效用最大化算法對齊的問題，并且各種提議方案都側(cè)重于如何規(guī)避效用最大化的危險或準確學習正確的效用函數(shù)。畢竟，如果先進的 AI 系統(tǒng)必定遵守 EUT，那么對齊此類系統(tǒng)的唯一希望就是留在其范圍內(nèi)。此外，如果預期效用最大化是理性所需的如果智能意味著理性那么任何基于人類價值觀行事的足夠智能的智能體最終都必須將這些價值觀整合為一個效用函數(shù)。

這一節(jié)討論并擴展的議題包括：

將預期效用理論用作一個分析視角；

將全局一致性智能體作為設(shè)計目標；

偏好作為動作的規(guī)范基矗

超越將單主體 AI 對齊用作偏好匹配

如果理性選擇理論不能充分描述人類的行為和價值觀，而預期效用理論不能令人滿意地解釋理性決策，那么這對 AI 對齊的實踐意味著什么？

盡管人們越來越意識到這些偏好假設(shè)的局限性，但大多數(shù)應(yīng)用的 AI 對齊方法仍將對齊視為偏好匹配問題：給定一個 AI 系統(tǒng)，目標是確保其行為符合人類用戶或開發(fā)者的偏好。

通過基于偏好匹配的獎勵學習來實現(xiàn)對齊。目前，這類方法中最著名的莫過于 RLHF�；谟脩絷愂銎淦玫臄�(shù)據(jù)集，RLHF 會學習估計用戶假設(shè)存在的獎勵函數(shù)（獎勵模型）。然后，AI 系統(tǒng)會學習繼續(xù)優(yōu)化學習得到的獎勵模型，目標是得到更符合用戶偏好的行為。RLHF 最早是為經(jīng)典控制問題開發(fā)的，但現(xiàn)在已經(jīng)被用于訓練越來越復雜的 AI 系統(tǒng)，包括用于機器人控制的深度神經(jīng)網(wǎng)絡(luò)和大型語言模型（LLM）。其中后者更是憑借其強大的能力和通用性為 RLHF 吸睛無數(shù)。

獎勵學習的根本局限性。RLHF 盡管成功，但仍面臨著許多技術(shù)難題，包括偏好引出問題和可擴展監(jiān)督問題、過度優(yōu)化問題、穩(wěn)定訓練問題。不僅 RLHF ，所以獎勵學習方法都存在問題，包括前述的表征限制問題和采用預期效用理論的問題。

獎勵學習和偏好匹配的范圍有限。為了解決這些局限性，還需要怎樣的 AI 對齊研究？該團隊表示：「我們并不是說基于獎勵的模型永遠不合適。相反，我們認為基于獎勵的對齊（以及更廣義的偏好匹配）僅適用于有足夠本地用途和范圍的 AI 系統(tǒng)�！挂簿褪钦f，它僅適用于價值對齊問題的最狹隘和最簡化版本，其中的價值和范式可以總結(jié)為特定于該系統(tǒng)范圍的獎勵函數(shù)。AI 對齊還需要更多：AI 系統(tǒng)必須了解每個人的偏好是如何動態(tài)構(gòu)建的，并與產(chǎn)生這些偏好的底層價值觀保持一致。

這一節(jié)討論并擴展的議題包括：

標量和非情境獎勵的對齊；

靜態(tài)和非社交偏好的對齊；

偏好作為對齊的目標。

超越將多主體 AI 對齊用作偏好聚合

在批評了基于偏好的單主體對齊概念之后，現(xiàn)在轉(zhuǎn)向多主體對齊的問題：考慮到人類如此之多，持有的價值觀也非常多，那么 AI 系統(tǒng)應(yīng)當與其中哪些對齊呢？

偏好聚合的理論論證。這個問題的傳統(tǒng)答案是，AI 系統(tǒng)應(yīng)該與人類的總體偏好對齊。為什么會這樣？部分原因可能是偏好效用主義倫理具有規(guī)范性的吸引力。但是，在 AI 對齊文獻中，偏好聚合的論證通常更具技術(shù)性，會使用 Harsanyi 的社會聚合定理作為依據(jù)。進一步假設(shè)所有人類也都這樣做，這樣每個個體 i 的偏好都可以表示成對結(jié)果 x 的偏好 U_i (x)。最后，假設(shè)一致性是理性社會選擇的最低要求如果所有人類都偏好某個（概率性）結(jié)果 x 而非 y，則該 AI 系統(tǒng)也應(yīng)該更偏好 x 而非 y。那么，Harsanyi 定理表明 AI 系統(tǒng)的效用函數(shù) U (x) 必定是單個效用函數(shù)的加權(quán)聚合：

對齊實踐中的偏好聚合。但是，無論這個理論觀點如何具有說服力，AI 對齊實踐中還是經(jīng)常出現(xiàn)偏好聚合。RLHF 就是一個顯著例證：盡管 RLHF 原本是為單個人類上下文設(shè)計的，但實踐中，RLHF 總是用于從多個人類標注者收集的偏好數(shù)據(jù)集。近期有研究表明，這種實踐等價于 Borda 計數(shù)投票規(guī)則。在效果上，每位標注者的選擇都會根據(jù)其在一組可能替代方案中的排名進行加權(quán)。

偏好聚合的實踐、政策和基礎(chǔ)限制。這一節(jié)將從實踐、政策和基礎(chǔ)層面對 AI 對齊中的偏好聚合進行批判性的審視。在實踐層面上，該團隊表示偏好聚合常常被錯誤解讀和錯誤應(yīng)用，這樣一來，即使人們接受 Harsanyi 風格的效用聚合作為規(guī)范性理想方法，在實踐中使用各種非效用聚合規(guī)則的效果通常更好。在政策層面上，該團隊批評了聚合主義方法的理想化性質(zhì)，他們認為，由于我們這個社會存在多樣化且互有爭議的價值觀，因此基于協(xié)商和社會契約理論的方法在政策層面上更可行。在基礎(chǔ)層面上，基于前面對 EUT 和偏好匹配的批評，該團隊將其闡述成了對效用注意聚合的規(guī)范性的批評。

這一節(jié)討論并擴展的議題包括：

簡單的效用主義偏好聚合；

將總體偏好用作對齊目標。

參考鏈接：https://x.com/xuanalogue/status/1831044533779669136

相關(guān)熱詞： 人類自身都對不齊怎么對齊新研究研究審視好在

上一篇：AI需求激增！美國光通信芯片巨頭Marvell被曝全線產(chǎn)品明年提價

下一篇：假裝被馬斯克裁員的整活鬼才，現(xiàn)在AI創(chuàng)業(yè)融資3500萬

人類自身都對不齊，怎么對齊AI？新研究審視偏好在AI對齊中的作用
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-22 15:38:15 瀏覽：2482次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

人類自身都對不齊，怎么對齊AI？新研究審視偏好在AI對齊中的作用 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-22 15:38:15 瀏覽：2482次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

人類自身都對不齊，怎么對齊AI？新研究審視偏好在AI對齊中的作用
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-22 15:38:15 瀏覽：2482次