展會(huì)信息港展會(huì)大全

可以自我進(jìn)化的AI,已經(jīng)在敲人類的門了
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-09-05 19:01:12   瀏覽:16934次  

導(dǎo)讀:作者|騰訊科技 郝博陽(yáng) 我造我自己 AI威脅的核心:自我進(jìn)化的速度 關(guān)于AI可能帶來的威脅在過去幾個(gè)月的時(shí)間中已經(jīng)讓人有點(diǎn)疲憊了。從業(yè)界大佬馬斯克、山姆奧特曼,到學(xué)術(shù)界巨擘杰弗里辛頓,約書亞本亞吉都多次表達(dá)了對(duì)AI威脅的強(qiáng)烈恐懼。但同時(shí),以楊立昆為...

作者|科技新聞 郝博陽(yáng)

我造我自己

AI威脅的核心:自我進(jìn)化的速度

關(guān)于AI可能帶來的威脅在過去幾個(gè)月的時(shí)間中已經(jīng)讓人有點(diǎn)疲憊了。從業(yè)界大佬馬斯克、山姆奧特曼,到學(xué)術(shù)界巨擘杰弗里辛頓,約書亞本亞吉都多次表達(dá)了對(duì)AI威脅的強(qiáng)烈恐懼。但同時(shí),以楊立昆為代表的很多AI的研究人員和從業(yè)者都對(duì)此威脅不屑一顧,認(rèn)為這不過是一種科幻式的夸張。

兩種觀點(diǎn)爭(zhēng)議的核心在于:我們是否有可能控制AI和對(duì)它的應(yīng)用。如果在人工智能超越人類智能時(shí)我們還是找不到合理的和它對(duì)齊,對(duì)它限制的方法的話,那它就很可能會(huì)陷入失控。

樂觀主義者們認(rèn)為當(dāng)下的AI離完善的AGI還尚有不小的距離,遠(yuǎn)沒有達(dá)到超過人類的智能水平。因此在發(fā)展AI的期間我們完全可以通過尋找人工干預(yù)對(duì)齊的方法,控制AI發(fā)展的方向。另外,因?yàn)楝F(xiàn)階段訓(xùn)練AI必須通過人的參與才能完成,因此人類可以隨時(shí)停止它。

然而對(duì)悲觀主義者而言,也許我們已經(jīng)沒有這個(gè)時(shí)間了。過去幾年來AI的發(fā)展突飛猛進(jìn),作為深度學(xué)習(xí)之父的辛頓都多次表達(dá)被震驚之感。他告訴《紐約時(shí)報(bào)》:“看看五年前和現(xiàn)在的情況。這種前進(jìn)的速度這太可怕了。”

但這還不是最快,因?yàn)锳I還面對(duì)著一些速度瓶頸。其中最要命的就是無法靠算力加速的人工對(duì)齊工作。但如果有一天,它能突破人工參與這個(gè)限制會(huì)發(fā)生什么呢?一個(gè)完全可以自我進(jìn)化的AI。

對(duì)此,MetaLab的 Tamlyn Hunt 曾在《科學(xué)美國(guó)人》上撰文稱:人工智能算法將很快達(dá)到快速自我完善的地步。這威脅到我們控制它們的能力,并對(duì)人類構(gòu)成巨大的潛在風(fēng)險(xiǎn)。提出暫停AI實(shí)驗(yàn)建議的Tagesmark也在之前參與Lex的播客時(shí),表達(dá)了同樣的觀點(diǎn):如果這一自我完善能夠被做到,AI進(jìn)化的速度將大幅加快,而且也會(huì)基本完全脫離人類的控制。

按照他們的觀點(diǎn),一旦AI跨過自我進(jìn)化的速度這個(gè)門檻,那些樂觀主義的論點(diǎn)也就不再有效。AI加速進(jìn)化,失控就在眼前。

那可以自我進(jìn)化的AI到底離我們還有多遠(yuǎn)?現(xiàn)在看來已經(jīng)近在咫尺了。

自我進(jìn)化的AI,已經(jīng)徘徊在門前

在當(dāng)前的AI訓(xùn)練中,為什么人工是不可缺少的?

完成一個(gè)大語(yǔ)言模型需要經(jīng)過三個(gè)階段:預(yù)訓(xùn)練、提示微調(diào)和強(qiáng)化學(xué)習(xí)。前兩個(gè)階段目前可以完全依靠給定的數(shù)據(jù)集由AI自行完成。但如果想要AI的回答準(zhǔn)確更可理解,更符合特定需求,還需要一個(gè)重要的步驟即來自人類反饋強(qiáng)化學(xué)習(xí)(RLHF)。在這一過程中,人類標(biāo)記員與預(yù)訓(xùn)練的模型對(duì)話,提供對(duì)話樣本讓模型生成一些回復(fù)。之后標(biāo)記員會(huì)對(duì)回復(fù)選項(xiàng)打分排名。最后把這個(gè)結(jié)果反饋回模型中,以強(qiáng)化它的獎(jiǎng)懲算法。這也是GPT4和ChatGPT相對(duì)于GPT3最重要的一個(gè)策略升級(jí),通過RLHF,OpenAI很大地提升了給模型的回應(yīng)質(zhì)量和能力。

這個(gè)RLHF,也就是強(qiáng)化學(xué)習(xí)的步驟就是之前在主流大語(yǔ)言模型訓(xùn)練過程中還無法被AI自主接管的唯一步驟。

為什么說之前,因?yàn)楝F(xiàn)在AI也能做到了。

AI研究者表示:完了

在Google的新論文“RLAIF:Scaling Reinforcement Learning from Human Feedback with AI Feedback”測(cè)試了一種革命性的新技術(shù),使AI系統(tǒng)能夠通過使用其他AI的反饋來遞歸地改進(jìn)自己。

這種新技術(shù)被稱為RLAIF(AI反饋強(qiáng)化學(xué)習(xí))。它并非本文作者獨(dú)創(chuàng),而是在之前被其Anthropic的研究者提出的一個(gè)概念(Gilardi et al., 2023; Ding et al., 2023). Bai et al. (2022b)。他們用這RLAIF 和 RLHF 結(jié)合形成一個(gè)綜合的Constitutional AI,用于融合人類和AI提出的偏好應(yīng)用在微調(diào)上,為微調(diào)提效。但這一工作并沒有直接比較AI的反饋和人類反饋的效果。本文作者這一次就單獨(dú)讓AI作為反饋強(qiáng)化的唯一參與者,測(cè)試其效果。

作者限制了一個(gè)相對(duì)較窄的使用場(chǎng)景:用強(qiáng)化學(xué)習(xí)來訓(xùn)練人工智能系統(tǒng)的文本摘要能力即產(chǎn)生從較長(zhǎng)文章中捕捉關(guān)鍵點(diǎn),來進(jìn)行簡(jiǎn)明摘要。具體實(shí)驗(yàn)如下:

給定一個(gè)經(jīng)過監(jiān)督微調(diào)(SFT)的大語(yǔ)言模型(在本實(shí)驗(yàn)中是OpenAI開源的Reddit TL;DR數(shù)據(jù)集進(jìn)行的預(yù)訓(xùn)練)。RLHF的處理流程是:

1.讓被訓(xùn)練的語(yǔ)言模型都為給定的文章生成文本摘要

2.人類標(biāo)注師對(duì)比較并評(píng)估幾對(duì)總結(jié),判斷哪一個(gè)總結(jié)更優(yōu)秀

3.這些人類的偏好被用來開發(fā)一個(gè)“獎(jiǎng)勵(lì)模型”,預(yù)測(cè)人類會(huì)喜歡哪些總結(jié)

4.然后,這個(gè)獎(jiǎng)勵(lì)模型被用來提供反饋和獎(jiǎng)勵(lì),以增強(qiáng)人工智能代理生成被人類認(rèn)為優(yōu)秀的摘要

這一標(biāo)注操作會(huì)進(jìn)行多輪,以有效改進(jìn)這個(gè)語(yǔ)言模型的效果。

RLAIF系統(tǒng)經(jīng)歷了相同的整體過程。然而關(guān)鍵的區(qū)別在于,這里面作為裁判的一個(gè)能力更強(qiáng)經(jīng)過提前訓(xùn)練的“現(xiàn)成”自然語(yǔ)言模型。作者用經(jīng)過精調(diào)后的PaLM-2.7B 來提供反饋判斷,形成一套完整地對(duì)語(yǔ)言模型輸出打分的偏好系統(tǒng)。這個(gè)先進(jìn)的人工智能系統(tǒng)的反饋被用來代替人工評(píng)分,以訓(xùn)練提供訓(xùn)練獎(jiǎng)勵(lì)的獎(jiǎng)勵(lì)模型。

基本框架完全一致

訓(xùn)練這個(gè)用作偏好打分的LLM的過程也相當(dāng)簡(jiǎn)單明了,完全通過提示(prompting)完成。共四步:

1.情況簡(jiǎn)述:介紹并描述當(dāng)前的任務(wù)

2.小樣本給予(可選步驟):給出一個(gè)文本事例,幾組總結(jié)的結(jié)果,一個(gè)可用的理性思維鏈和一個(gè)偏好判斷

3.需注釋內(nèi)容的范例:一個(gè)文本和一組總結(jié)

4.結(jié)論:一個(gè)對(duì)LLM的提示終止線(比如說:偏好的總結(jié)=XX)

三步走的方法

在用兩種方法完成一輪強(qiáng)化學(xué)習(xí)訓(xùn)練后,人類標(biāo)記員對(duì)這兩個(gè)訓(xùn)練完成模型的總結(jié)能力進(jìn)行了評(píng)價(jià)。其結(jié)論是RLAIF策略與RLHF策略效果相當(dāng)。經(jīng)RLAIF訓(xùn)練過的模型總結(jié)的結(jié)果在 71%的情況下超過了SFT基線的預(yù)訓(xùn)練模型的結(jié)果,而經(jīng)RLHF訓(xùn)練過的模型在73%的情況下超過了基礎(chǔ)與訓(xùn)練模型(其中2%差異可以認(rèn)為沒有統(tǒng)計(jì)學(xué)意義)。單純比較經(jīng)過強(qiáng)化學(xué)習(xí)的結(jié)果語(yǔ)言模型,RLAIF對(duì)RLHF的勝率各為50%。這就意味著純粹使用AI反饋進(jìn)行微調(diào)的RLAIF系統(tǒng)在強(qiáng)化學(xué)習(xí)方面,和人類反饋能達(dá)到一樣的效果。

兩種方法的評(píng)分比較

作者之后把研究更推進(jìn)了一步。既然大語(yǔ)言模型已經(jīng)在很多標(biāo)準(zhǔn)測(cè)試中取得了比一般人更好的成績(jī),針對(duì)這種有著某種標(biāo)準(zhǔn)的偏好反饋任務(wù),有沒有可能優(yōu)化RLAIF的水平,讓它們甚至可能超過人類標(biāo)注員的水平呢?完全有可能。

一個(gè)方向是加強(qiáng)提示工程。作者初步試驗(yàn)了使用不同的提示詞技術(shù)優(yōu)化RLAIF給出的判斷。其中包擴(kuò)一些提示策略、思維鏈推理和自我一致性。最終發(fā)現(xiàn)無上下文示例提示+思想鏈的效果最好。而用自我一致性要求和較多上下文示例去加強(qiáng)思維鏈反而有可能會(huì)降低AI的訓(xùn)練能力。這表明隨著研究人員的不斷嘗試,RLAIF的性能仍有很大地提升空間。

0-Shot最好

除了提示工程上的改進(jìn),模型本身的能力也會(huì)影響最終的標(biāo)注水平。作者接下里還對(duì)RLAIF系統(tǒng)進(jìn)行了改變計(jì)算規(guī)模的實(shí)驗(yàn)。以及觀察注釋經(jīng)驗(yàn)提升對(duì)判斷準(zhǔn)確的影響。好不意外,他們發(fā)現(xiàn)較大的模型在RLAIF訓(xùn)練后產(chǎn)生更高質(zhì)量的反饋,從而導(dǎo)致更好的最終總結(jié)性能。然而經(jīng)驗(yàn)對(duì)效果提升的影響是比較有限的,在RLAIF進(jìn)行過數(shù)千個(gè)帶注釋的摘要比較后,它帶來的準(zhǔn)確性收益開始遞減。當(dāng)然這表明模型本身可能已經(jīng)獲得了充分地反饋,形成了穩(wěn)定標(biāo)準(zhǔn)。

目前看來,這種方法也并非完全沒有缺點(diǎn)。在定性分析后,作者發(fā)現(xiàn)RLAIF生成的模型連貫性略低于RLHF,但它不太容易產(chǎn)生幻覺。

目前AI發(fā)展速度的瓶頸,都有了突破的解決辦法

論文的內(nèi)容就這么多。但我們可以考慮的未來卻更豐富。隨著越來越多的在AI性能提升和訓(xùn)練領(lǐng)域中AI開始逐漸替代人類的角色。在很近切的未來,我們就很可能看到計(jì)算機(jī)模型以越來越復(fù)雜和快速的方式相互建立和增強(qiáng),達(dá)到遠(yuǎn)遠(yuǎn)超出孤立狀態(tài)下的智能水平。

盡管RLAIF確實(shí)需要大量的計(jì)算資源來進(jìn)行自動(dòng)反饋,但在初始訓(xùn)練后,它消除了持續(xù)的人類參與的需要。RLAIF方法有著不言而喻的優(yōu)點(diǎn),即提供訓(xùn)練反饋的系統(tǒng)可以快速標(biāo)記大量的經(jīng)驗(yàn),遠(yuǎn)遠(yuǎn)超出人類的注釋范圍。

RLAIF的成功提供了一個(gè)即將到來的機(jī)器學(xué)習(xí)范式轉(zhuǎn)變的一瞥,即依靠AI系統(tǒng)增強(qiáng)自身的范式已經(jīng)有了充分的基矗人工智能中的遞歸自我完善,自我實(shí)現(xiàn)在可能在一年前看還是一個(gè)長(zhǎng)期的愿景,但現(xiàn)在已經(jīng)越來越觸手可及。

隨著人工智能的能力越來越強(qiáng),進(jìn)一步提高其智能水平遇到了三個(gè)核心瓶頸:數(shù)據(jù),算力以及人工調(diào)整的效率。

算力瓶頸的問題并非是真實(shí)的天花板,更多是面對(duì)AI的突然爆發(fā),整體硬件產(chǎn)業(yè)的一種措手不及。隨著產(chǎn)能的迅速調(diào)整,老黃豪言2024H100供貨200萬(wàn)塊。更別提在更多新玩家入局(比如最近憋著要在GPU市場(chǎng)上與英偉達(dá)爭(zhēng)雄的AMD,自己打著自研小算盤的亞馬遜和谷歌,以及數(shù)十家GPU初創(chuàng)公司)和更大的算力基建鋪設(shè)之后,這個(gè)瓶頸就會(huì)逐步自然得到解除。

老黃:AI的命脈(H100)就抓在我手里

數(shù)據(jù)方面的瓶頸主要來源于人類生產(chǎn)高質(zhì)量的內(nèi)容數(shù)據(jù)目前已經(jīng)大部分被AI訓(xùn)練所消耗,在沒有新的數(shù)據(jù)補(bǔ)充的情況下,縮放效應(yīng)帶來的語(yǔ)言模型能力的線性成長(zhǎng)就無法達(dá)成。但這個(gè)問題其實(shí)已經(jīng)被一定程度的解決了。早在7月,微軟、OpenAI和Cohere等公司就已經(jīng)開始測(cè)試使用合成數(shù)據(jù)(計(jì)算機(jī)生成的信息)訓(xùn)練大語(yǔ)言模型。雖然劍橋牛津的學(xué)者發(fā)表論文警告說隨著時(shí)間的推移,這些合成數(shù)據(jù)或許會(huì)破壞模型,導(dǎo)致「不可逆轉(zhuǎn)的缺陷」。但至少在一些實(shí)驗(yàn)條件下,比如港大利用合成圖像訓(xùn)練模型的實(shí)驗(yàn)中,這一通路還是獲得了很好的效果的。

在RAILF出現(xiàn)之前,訓(xùn)練AI的最大瓶頸坑就是人工調(diào)整對(duì)齊的效率難以提升。比如在GPT4的開發(fā)過程中,完成預(yù)訓(xùn)練的時(shí)間可能僅有3個(gè)月左右,但使用RLHF進(jìn)行對(duì)抗和強(qiáng)化的過程就持續(xù)了6個(gè)月。超過訓(xùn)練模型時(shí)間的兩倍,而且訓(xùn)練模型的時(shí)間可以通過算力加強(qiáng)和算法改進(jìn)縮短,但人工的有效速度很難提升。現(xiàn)在論文中的RAILF一但被有效應(yīng)用,這一瓶頸自然也就解決了。

AI進(jìn)化上的路障,已經(jīng)一個(gè)接一個(gè)的被掃清。我們控制它的方法改進(jìn)卻似乎遠(yuǎn)沒有這么快。

贊助本站

人工智能實(shí)驗(yàn)室

相關(guān)熱詞: 可以 自我 進(jìn)化 已經(jīng) 人類

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港