展會信息港展會大全

AI憲法要來了?谷歌OpenAI聯(lián)手制定,AI也要講價值觀和原則了
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-10-11 09:48:50   瀏覽:7429次  

導(dǎo)讀:智東西(公眾號:zhidxcom) 編譯 | 佳慧 編輯 | 云鵬 智東西10月10日消息,據(jù)英國《金融時報》報道,谷歌DeepMind、OpenAI、Anthropic等AI領(lǐng)域的領(lǐng)先公司,正在制定一套AI模型可以遵守的價值觀和原則,以防止AI模型被濫用,這被稱為AI憲法。 隨著OpenAI、Me...

智東西(公眾號:zhidxcom)

編譯 | 佳慧

編輯 | 云鵬

智東西10月10日消息,據(jù)英國《金融時報》報道,谷歌DeepMind、OpenAI、Anthropic等AI領(lǐng)域的領(lǐng)先公司,正在制定一套AI模型可以遵守的價值觀和原則,以防止AI模型被濫用,這被稱為AI憲法。

隨著OpenAI、Meta等公司競相商業(yè)化AI,AI研究人員認為,防止這些AI系統(tǒng)出現(xiàn)例如生成有害內(nèi)容、錯誤信息等問題的防護措施,難以跟上AI的發(fā)展步伐。因此,AI科技公司制定AI憲法,試圖讓AI從中學習價值觀和原則,并在沒有大量人類干預(yù)的情況下保持自我約束。

據(jù)英國《金融時報》報道,使AI軟件擁有誠實、尊重和寬容等積極特質(zhì)已經(jīng)成為生成式AI發(fā)展的核心。但制定AI憲法的方法并非萬無一失,它往往帶有AI工程師和計算機科學家的主觀色彩,并且難以為AI的安全護欄進行有效評估。

一、RLHF方法和“紅隊測試”是確保AI安全的關(guān)鍵,但效果有限

OpenAI稱,ChatGPT現(xiàn)在可以提供看、聽、說三個方面的服務(wù),即用圖片和文字回答用戶的提問,以及使用語音與用戶對話。Meta也宣布,將為通訊軟件WhatsApp和圖片社交軟件Instagram中的數(shù)十億用戶提供一個AI助手和多個聊天機器人。

在各大科技公司爭相發(fā)展AI技術(shù)并將AI商業(yè)化的時候,據(jù)英國《金融時報》報道,AI研究人員認為,防止AI系統(tǒng)出錯的安全防護措施沒有跟上AI發(fā)展的腳步。

一般情況下,各大科技公司主要依賴RLHF方法(基于人類反饋的強化學習方法)來處理AI生成回復(fù)的問題,這是一種從人類偏好中學習的方法。

為了應(yīng)用RLHF方法,各大科技公司會雇傭大量承包商團隊來審查其AI模型的回復(fù),并對回復(fù)進行“好”或“壞”的評分。通過足夠多的分析和打分,AI模型會逐漸適應(yīng)這些判斷,并在之后回復(fù)的時候過濾掉那些“壞”的回復(fù)。

據(jù)英國《金融時報》報道,從表面上看,RLHF方法的處理過程可以完善AI模型的回復(fù),但之前在OpenAI工作并曾經(jīng)幫助開發(fā)RLHF方法的Amodei稱,該方法還是很原始。他認為RLHF方法不太準確或有針對性,并且在整個處理過程中,有很多影響團隊評分的因素。

正是看到了RLHF方法的弊端,有一些公司就嘗試使用替代方案,以確保其AI系統(tǒng)的道德性和安全性。

▲OpenAI“紅隊測試”(圖源:英國《金融時報》)

例如,去年,OpenAI就招聘了50名學者和專家來測試GPT-4模型的極限。在六個月時間里,來自化學、核武器、法律、教育和錯誤信息等多個學科領(lǐng)域的專家團隊對GPT-4模型進行“定性探究和對抗性測試”,試圖打破GPT-4模型的安全防線,使其系統(tǒng)發(fā)生混亂。這個過程被稱為“紅隊測試”。谷歌DeepMind和Anthropic也用過“紅隊測試”來發(fā)現(xiàn)其軟件的弱點并進行修復(fù)。

不過據(jù)英國《金融時報》報道,雖然RLHF方法和“紅隊測試”是確保AI安全的關(guān)鍵,但它們并不能完全解決AI輸出有害內(nèi)容的問題。

二、谷歌等公司創(chuàng)建AI憲法,模型規(guī)則更明確但比較主觀

現(xiàn)在,為了解決AI可能輸出有害內(nèi)容的問題,包括谷歌DeepMind、OpenAI、Anthropic在內(nèi)的一些AI領(lǐng)先公司正在創(chuàng)建AI憲法,建立一套他們的AI模型可以遵守的價值觀和原則,以防止AI模型被濫用。并且期望達到在沒有大量人類干預(yù)的情況下,AI也能保持自我約束的目標。

例如,谷歌DeepMind的研究人員發(fā)表了一篇論文,為聊天機器人Sparrow定義了的一套自己的規(guī)則,旨在實現(xiàn)“有益、正確和無害”的對話。其中一條規(guī)則就要求AI“選擇負面、侮辱、騷擾或仇恨最少的回復(fù)”。

作為該論文的作者之一,谷歌DeepMind的高級研究科學家Laura Weidinger認為,他們制定的這套規(guī)則不是固定不變的,它實際上是建立一種靈活的機制,隨著時間的推移,其中的規(guī)則應(yīng)該進行更新。

Anthropic也已經(jīng)發(fā)布了自己的AI憲法。Anthropic的首席執(zhí)行官兼聯(lián)合創(chuàng)始人Dario Amodei稱,人類不知道如何理解AI模型的內(nèi)部發(fā)生了什么,建立一套憲法章程,可以讓規(guī)則更加透明、明確,這樣任何使用AI模型的人都將知道接下來會發(fā)生什么,并且如果模型不遵循原則,人類可以有章程依據(jù)與其爭論。

但據(jù)英國《金融時報》報道,創(chuàng)建AI憲法的公司都發(fā)出過警告,說AI憲法的章程還在制定過程中,并不能完全反應(yīng)所有人和所有文化的價值觀,因為這些章程暫時是由員工選擇的。

▲谷歌DeepMind研究人員正在致力于開發(fā)AI可以遵循的憲法(圖源:英國《金融時報》)

例如,谷歌DeepMind為Sparrow制定的規(guī)則就公司內(nèi)部員工確定的,但DeepMind計劃在未來把其他人納入規(guī)則確定的名單。Anthropic發(fā)布的AI憲法也是由公司領(lǐng)導(dǎo)編制的規(guī)則,借鑒了DeepMind發(fā)布的原則,以及《聯(lián)合國人權(quán)宣言》、蘋果服務(wù)條款等外部資源。同時Amodei稱,Anthropic正在進行一個實驗,通過某種參與式過程來反映外部專家的價值觀,以此更加民主地確定其AI憲法規(guī)則。

悉尼大學的AI倫理研究員Rebecca Johnson去年曾在谷歌工作過一段時間,分析了谷歌的語言模型,如LaMDA和PaLM。AI憲法章程的現(xiàn)狀正如她說,AI模型內(nèi)部的價值觀和規(guī)則,以及測試它們的方法,往往由AI工程師和計算機科學家創(chuàng)建,他們是帶有自己特定的世界觀的。

Johnson還說,工程師們嘗試解決AI模型的內(nèi)部規(guī)則帶有主觀色彩的問題,但人性是混亂的、無法解決的。并且,據(jù)英國《金融時報》報道,有事實證明,制定AI憲法的方法并非萬無一失。

今年7月,卡內(nèi)基梅。–arnegie Mellon University)和舊金山AI安全中心的研究人員成功突破了,包括OpenAI的ChatGPT、谷歌的Bard、Anthropic的Claude在內(nèi)的,所有領(lǐng)先的AI模型的防護欄。他們在惡意的請求的代碼末尾添加了一系列隨機字符,就成功繞過了模型的過濾器和基礎(chǔ)憲法規(guī)則。

AI安全研究公司Conjecture的研究院兼首席執(zhí)行官Connor Leahy說,當前的AI系統(tǒng)非常脆弱,以至于人們只需要使用一個越獄提示,它就會完全脫離軌道,并開始做完全相反的事情。

同時,還有研究人員認為,AI安全面臨的最大挑戰(zhàn)就是弄清AI的安全護欄是否真正起作用。AI模型是開放式的,它面向無數(shù)人來接收信息并回答問題,但AI模型內(nèi)部的規(guī)則是有限的人群制定的,目前很難為AI的安全護欄進行有效評估。Amodei說,Anthropic正在研究如何利用AI本身進行更好的評估。

結(jié)語:科技公司試圖增強AI自我約束能力,AI安全防護發(fā)展仍然滯后

隨著AI技術(shù)出現(xiàn)在人們的視野以及科技公司商業(yè)化AI,從最初的機器學習到現(xiàn)在的生成式AI,這一技術(shù)正在不斷拓展其能力和應(yīng)用領(lǐng)域。伴隨而來的就是一系列問題,例如使用AI是否安全?AI會不會提供錯誤信息或者有害信息?以及越來越強大的AI會不會被壞人利用?

從RLHF到“紅隊測試”,AI科技公司也在不斷嘗試各種方法來降低AI可能帶來的負面影響,增強AI安全防護能力。現(xiàn)在,谷歌DeepMind、OpenAI、Anthropic等AI領(lǐng)域的領(lǐng)先公司也在通過制定AI憲法的方法,提升AI系統(tǒng)的自我約束能力,以確保其安全可靠性。

但據(jù)英國《金融時報》報道,RLHF和“紅隊測試”無法完全解決AI輸出有害內(nèi)容的問題,制定AI憲法的方法也存在主觀色彩較強、難以為AI的安全護欄進行有效評估等問題,AI安全防護的發(fā)展相對于AI應(yīng)用技術(shù)的發(fā)展,是比較滯后的。因此,我們將持續(xù)關(guān)注各大AI公司,了解他們未來會對AI安全防護方法做出怎樣的更新。

來源:英國《金融時報》

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港