機(jī)器之心報(bào)道
編輯:小舟、梓文
OpenAI:人類管不了未來(lái)的 AI,我們要構(gòu)建一個(gè)監(jiān)督模型對(duì)齊的新 AI。
隨著 ChatGPT、GPT-4、LLaMA 等生成式大模型的爆火,生成式 AI 技術(shù)成為一個(gè)值得關(guān)注和思考的重要話題。一方面,生成式 AI 能夠大幅提升生產(chǎn)效率;另一方面,人們也看到了生成式 AI 技術(shù)背后隱藏的風(fēng)險(xiǎn)。
今年上半年,機(jī)器學(xué)習(xí)領(lǐng)域的專家、學(xué)者已經(jīng)多次聯(lián)合發(fā)表公開(kāi)信,呼吁人們重視生成式 AI 的潛在風(fēng)險(xiǎn),并限制構(gòu)建生成式 AI 大模型。其中,圖靈獎(jiǎng)得主 Geoffrey Hinton 更是在 4 月從谷歌離職,警告人們生成式 AI 將「對(duì)人類構(gòu)成威脅」。
OpenAI 作為 ChatGPT、GPT-4 等大模型背后的公司,無(wú)疑被推上了風(fēng)口浪尖。
現(xiàn)在,OpenAI 開(kāi)始自救,正式宣布成立一個(gè)新的研究團(tuán)隊(duì) Superalignment 團(tuán)隊(duì),由 OpenAI 聯(lián)合創(chuàng)始人 Ilya Sutskever 和 Jan Leike 共同領(lǐng)導(dǎo)。值得注意的是,這個(gè)團(tuán)隊(duì)的主要任務(wù)是構(gòu)建一個(gè)與人類水平相當(dāng)?shù)、?fù)責(zé)模型對(duì)齊的「AI 研究員」。也就是說(shuō),OpenAI 要用 AI 來(lái)監(jiān)督 AI。
OpenAI CEO Sam Altman 和 OpenAI 聯(lián)合創(chuàng)始人 Ilya Sutskever。
四年投入 20% 算力
OpenAI 認(rèn)為,人工智能技術(shù)正在飛速發(fā)展,影響全人類的超級(jí)智能(Superintelligence)看似遙遠(yuǎn),但極有可能在十年內(nèi)到來(lái)。
超級(jí)智能將是一把雙刃劍,它可以幫助人類解決世界上許多重要問(wèn)題,但它也可能導(dǎo)致人類喪失權(quán)力,威脅人類安全。
治理這些風(fēng)險(xiǎn)需要建立新的治理機(jī)構(gòu),并解決 AI 模型的對(duì)齊問(wèn)題。一個(gè)顯著的問(wèn)題是:超級(jí)智能可能比人類更聰明,如何能讓如此強(qiáng)大的 AI 系統(tǒng)遵循人類的意愿?
當(dāng)前,將模型輸出和人類偏好進(jìn)行對(duì)齊最先進(jìn)的方案是 RLHF,即以強(qiáng)化學(xué)習(xí)的方式依據(jù)人類反饋優(yōu)化語(yǔ)言模型,本質(zhì)上講這種方法仍然依賴于人類監(jiān)督 AI 的能力,將不適用于超級(jí)智能。
因此,OpenAI 宣布投入 20% 的計(jì)算資源,花費(fèi) 4 年的時(shí)間全力打造一個(gè)解決超級(jí)智能對(duì)齊問(wèn)題的超級(jí)對(duì)齊(Superalignment)系統(tǒng)。
為了構(gòu)建超級(jí)對(duì)齊系統(tǒng),開(kāi)發(fā)團(tuán)隊(duì)需要做的工作如下:
1)開(kāi)發(fā)一個(gè)可擴(kuò)展的訓(xùn)練方法:
利用人工智能系統(tǒng)來(lái)協(xié)助評(píng)估其他人工智能系統(tǒng),并將 AI 模型的監(jiān)督能力泛化到人類無(wú)法監(jiān)督的任務(wù)上。
2)驗(yàn)證系統(tǒng):
為了驗(yàn)證系統(tǒng)的一致性,開(kāi)發(fā)過(guò)程中會(huì)自動(dòng)搜索有問(wèn)題的行為(穩(wěn)健性)和有問(wèn)題的內(nèi)部結(jié)構(gòu)(可解釋性)。
3)對(duì)整個(gè)對(duì)齊管道進(jìn)行壓力測(cè)試:
最后,使用未對(duì)齊的模型來(lái)測(cè)試整個(gè)流程,確保所提方法可以檢測(cè)到最嚴(yán)重的未對(duì)齊類型(對(duì)抗性測(cè)試)。
團(tuán)隊(duì)信息
前文介紹過(guò),Superalignment 團(tuán)隊(duì)由 OpenAI 聯(lián)合創(chuàng)始人 Ilya Sutskever 和 Jan Leike 共同領(lǐng)導(dǎo)。從 OpenAI 今天推特公布的信息來(lái)看目前也已有多位成員。
Ilya Sutskever 大名想必大家都已經(jīng)聽(tīng)過(guò)。
Sutskever 在多倫多大學(xué)獲得了計(jì)算機(jī)科學(xué)學(xué)士、碩士和博士學(xué)位,導(dǎo)師是 Geoffrey Hinton。博士畢業(yè)后進(jìn)入斯坦福大學(xué),成為吳恩達(dá)的博士后。后擔(dān)任 DNNresearch 的聯(lián)合創(chuàng)始人。2013 年,Ilya Sutskever 與 Hinton 一起加入谷歌大腦團(tuán)隊(duì)。他后來(lái)離開(kāi)谷歌加入 OpenAI,成為了聯(lián)合創(chuàng)始人和首席科學(xué)家。
團(tuán)隊(duì)另一負(fù)責(zé)人 Jan Leike,2016 年博士畢業(yè),后加入谷歌做人類反饋強(qiáng)化學(xué)習(xí)(RLHF)相關(guān)研究,2021 年加入 OpenAI 做對(duì)齊研究。
去年,Jan Leike 曾在 OpenAI 發(fā)博客介紹他們進(jìn)行對(duì)齊研究的相關(guān)方法,感興趣的讀者可以詳細(xì)了解下。
鏈接:https://openai.com/blog/our-approach-to-alignment-research
OpenAI 這種用 AI 來(lái)監(jiān)督 AI 的方法將是一種新的嘗試,我們很難預(yù)判這種方法的實(shí)際效果,有人發(fā)出疑問(wèn):「誰(shuí)來(lái)管理這個(gè)『AI 監(jiān)督員』呢?」
但毫無(wú)疑問(wèn)的是,面對(duì)超級(jí)強(qiáng)大的人工智能模型,我們的確需要新的對(duì)齊方法來(lái)保證 AI 模型的可控性。OpenAI 的方案如何,我們拭目以待。
參考鏈接:https://openai.com/blog/introducing-superalignment#JanLeike