欧美一本大道香蕉综合视频,日本成本人片在线观看免费网站

可以自我進(jìn)化的AI，已經(jīng)在敲人類的門了

來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-09-05 19:01:12 瀏覽：16934次

導(dǎo)讀：作者｜騰訊科技郝博陽(yáng) 我造我自己 AI威脅的核心：自我進(jìn)化的速度關(guān)于AI可能帶來的威脅在過去幾個(gè)月的時(shí)間中已經(jīng)讓人有點(diǎn)疲憊了。從業(yè)界大佬馬斯克、山姆奧特曼，到學(xué)術(shù)界巨擘杰弗里辛頓，約書亞本亞吉都多次表達(dá)了對(duì)AI威脅的強(qiáng)烈恐懼。但同時(shí)，以楊立昆為...

作者｜科技新聞郝博陽(yáng)

我造我自己

AI威脅的核心：自我進(jìn)化的速度

關(guān)于AI可能帶來的威脅在過去幾個(gè)月的時(shí)間中已經(jīng)讓人有點(diǎn)疲憊了。從業(yè)界大佬馬斯克、山姆奧特曼，到學(xué)術(shù)界巨擘杰弗里辛頓，約書亞本亞吉都多次表達(dá)了對(duì)AI威脅的強(qiáng)烈恐懼。但同時(shí)，以楊立昆為代表的很多AI的研究人員和從業(yè)者都對(duì)此威脅不屑一顧，認(rèn)為這不過是一種科幻式的夸張。

兩種觀點(diǎn)爭(zhēng)議的核心在于：我們是否有可能控制AI和對(duì)它的應(yīng)用。如果在人工智能超越人類智能時(shí)我們還是找不到合理的和它對(duì)齊，對(duì)它限制的方法的話，那它就很可能會(huì)陷入失控。

樂觀主義者們認(rèn)為當(dāng)下的AI離完善的AGI還尚有不小的距離，遠(yuǎn)沒有達(dá)到超過人類的智能水平。因此在發(fā)展AI的期間我們完全可以通過尋找人工干預(yù)對(duì)齊的方法，控制AI發(fā)展的方向。另外，因?yàn)楝F(xiàn)階段訓(xùn)練AI必須通過人的參與才能完成，因此人類可以隨時(shí)停止它。

然而對(duì)悲觀主義者而言，也許我們已經(jīng)沒有這個(gè)時(shí)間了。過去幾年來AI的發(fā)展突飛猛進(jìn)，作為深度學(xué)習(xí)之父的辛頓都多次表達(dá)被震驚之感。他告訴《紐約時(shí)報(bào)》：“看看五年前和現(xiàn)在的情況。這種前進(jìn)的速度這太可怕了。”

但這還不是最快，因?yàn)锳I還面對(duì)著一些速度瓶頸。其中最要命的就是無法靠算力加速的人工對(duì)齊工作。但如果有一天，它能突破人工參與這個(gè)限制會(huì)發(fā)生什么呢？一個(gè)完全可以自我進(jìn)化的AI。

對(duì)此，MetaLab的 Tamlyn Hunt 曾在《科學(xué)美國(guó)人》上撰文稱：人工智能算法將很快達(dá)到快速自我完善的地步。這威脅到我們控制它們的能力，并對(duì)人類構(gòu)成巨大的潛在風(fēng)險(xiǎn)。提出暫停AI實(shí)驗(yàn)建議的Tagesmark也在之前參與Lex的播客時(shí)，表達(dá)了同樣的觀點(diǎn)：如果這一自我完善能夠被做到，AI進(jìn)化的速度將大幅加快，而且也會(huì)基本完全脫離人類的控制。

按照他們的觀點(diǎn)，一旦AI跨過自我進(jìn)化的速度這個(gè)門檻，那些樂觀主義的論點(diǎn)也就不再有效。AI加速進(jìn)化，失控就在眼前。

那可以自我進(jìn)化的AI到底離我們還有多遠(yuǎn)？現(xiàn)在看來已經(jīng)近在咫尺了。

自我進(jìn)化的AI，已經(jīng)徘徊在門前

在當(dāng)前的AI訓(xùn)練中，為什么人工是不可缺少的？

完成一個(gè)大語(yǔ)言模型需要經(jīng)過三個(gè)階段：預(yù)訓(xùn)練、提示微調(diào)和強(qiáng)化學(xué)習(xí)。前兩個(gè)階段目前可以完全依靠給定的數(shù)據(jù)集由AI自行完成。但如果想要AI的回答準(zhǔn)確更可理解，更符合特定需求，還需要一個(gè)重要的步驟即來自人類反饋強(qiáng)化學(xué)習(xí)（RLHF）。在這一過程中，人類標(biāo)記員與預(yù)訓(xùn)練的模型對(duì)話，提供對(duì)話樣本讓模型生成一些回復(fù)。之后標(biāo)記員會(huì)對(duì)回復(fù)選項(xiàng)打分排名。最后把這個(gè)結(jié)果反饋回模型中，以強(qiáng)化它的獎(jiǎng)懲算法。這也是GPT4和ChatGPT相對(duì)于GPT3最重要的一個(gè)策略升級(jí)，通過RLHF，OpenAI很大地提升了給模型的回應(yīng)質(zhì)量和能力。

這個(gè)RLHF，也就是強(qiáng)化學(xué)習(xí)的步驟就是之前在主流大語(yǔ)言模型訓(xùn)練過程中還無法被AI自主接管的唯一步驟。

為什么說之前，因?yàn)楝F(xiàn)在AI也能做到了。

AI研究者表示：完了

在Google的新論文“RLAIF:Scaling Reinforcement Learning from Human Feedback with AI Feedback”測(cè)試了一種革命性的新技術(shù)，使AI系統(tǒng)能夠通過使用其他AI的反饋來遞歸地改進(jìn)自己。

這種新技術(shù)被稱為RLAIF（AI反饋強(qiáng)化學(xué)習(xí)）。它并非本文作者獨(dú)創(chuàng)，而是在之前被其Anthropic的研究者提出的一個(gè)概念(Gilardi et al., 2023; Ding et al., 2023). Bai et al. (2022b)。他們用這RLAIF 和 RLHF 結(jié)合形成一個(gè)綜合的Constitutional AI，用于融合人類和AI提出的偏好應(yīng)用在微調(diào)上，為微調(diào)提效。但這一工作并沒有直接比較AI的反饋和人類反饋的效果。本文作者這一次就單獨(dú)讓AI作為反饋強(qiáng)化的唯一參與者，測(cè)試其效果。

作者限制了一個(gè)相對(duì)較窄的使用場(chǎng)景：用強(qiáng)化學(xué)習(xí)來訓(xùn)練人工智能系統(tǒng)的文本摘要能力即產(chǎn)生從較長(zhǎng)文章中捕捉關(guān)鍵點(diǎn)，來進(jìn)行簡(jiǎn)明摘要。具體實(shí)驗(yàn)如下：

給定一個(gè)經(jīng)過監(jiān)督微調(diào)（SFT）的大語(yǔ)言模型（在本實(shí)驗(yàn)中是OpenAI開源的Reddit TL;DR數(shù)據(jù)集進(jìn)行的預(yù)訓(xùn)練）。RLHF的處理流程是：

1.讓被訓(xùn)練的語(yǔ)言模型都為給定的文章生成文本摘要

2.人類標(biāo)注師對(duì)比較并評(píng)估幾對(duì)總結(jié)，判斷哪一個(gè)總結(jié)更優(yōu)秀

3.這些人類的偏好被用來開發(fā)一個(gè)“獎(jiǎng)勵(lì)模型”，預(yù)測(cè)人類會(huì)喜歡哪些總結(jié)

4.然后，這個(gè)獎(jiǎng)勵(lì)模型被用來提供反饋和獎(jiǎng)勵(lì)，以增強(qiáng)人工智能代理生成被人類認(rèn)為優(yōu)秀的摘要

這一標(biāo)注操作會(huì)進(jìn)行多輪，以有效改進(jìn)這個(gè)語(yǔ)言模型的效果。

RLAIF系統(tǒng)經(jīng)歷了相同的整體過程。然而關(guān)鍵的區(qū)別在于，這里面作為裁判的一個(gè)能力更強(qiáng)經(jīng)過提前訓(xùn)練的“現(xiàn)成”自然語(yǔ)言模型。作者用經(jīng)過精調(diào)后的PaLM-2.7B 來提供反饋判斷，形成一套完整地對(duì)語(yǔ)言模型輸出打分的偏好系統(tǒng)。這個(gè)先進(jìn)的人工智能系統(tǒng)的反饋被用來代替人工評(píng)分，以訓(xùn)練提供訓(xùn)練獎(jiǎng)勵(lì)的獎(jiǎng)勵(lì)模型。

基本框架完全一致

訓(xùn)練這個(gè)用作偏好打分的LLM的過程也相當(dāng)簡(jiǎn)單明了，完全通過提示（prompting）完成。共四步：

1.情況簡(jiǎn)述：介紹并描述當(dāng)前的任務(wù)

2.小樣本給予（可選步驟）：給出一個(gè)文本事例，幾組總結(jié)的結(jié)果，一個(gè)可用的理性思維鏈和一個(gè)偏好判斷

3.需注釋內(nèi)容的范例：一個(gè)文本和一組總結(jié)

4.結(jié)論：一個(gè)對(duì)LLM的提示終止線（比如說：偏好的總結(jié)=XX）

三步走的方法

在用兩種方法完成一輪強(qiáng)化學(xué)習(xí)訓(xùn)練后，人類標(biāo)記員對(duì)這兩個(gè)訓(xùn)練完成模型的總結(jié)能力進(jìn)行了評(píng)價(jià)。其結(jié)論是RLAIF策略與RLHF策略效果相當(dāng)。經(jīng)RLAIF訓(xùn)練過的模型總結(jié)的結(jié)果在 71%的情況下超過了SFT基線的預(yù)訓(xùn)練模型的結(jié)果，而經(jīng)RLHF訓(xùn)練過的模型在73%的情況下超過了基礎(chǔ)與訓(xùn)練模型（其中2%差異可以認(rèn)為沒有統(tǒng)計(jì)學(xué)意義）。單純比較經(jīng)過強(qiáng)化學(xué)習(xí)的結(jié)果語(yǔ)言模型，RLAIF對(duì)RLHF的勝率各為50%。這就意味著純粹使用AI反饋進(jìn)行微調(diào)的RLAIF系統(tǒng)在強(qiáng)化學(xué)習(xí)方面，和人類反饋能達(dá)到一樣的效果。

兩種方法的評(píng)分比較

作者之后把研究更推進(jìn)了一步。既然大語(yǔ)言模型已經(jīng)在很多標(biāo)準(zhǔn)測(cè)試中取得了比一般人更好的成績(jī)，針對(duì)這種有著某種標(biāo)準(zhǔn)的偏好反饋任務(wù)，有沒有可能優(yōu)化RLAIF的水平，讓它們甚至可能超過人類標(biāo)注員的水平呢？完全有可能。

一個(gè)方向是加強(qiáng)提示工程。作者初步試驗(yàn)了使用不同的提示詞技術(shù)優(yōu)化RLAIF給出的判斷。其中包擴(kuò)一些提示策略、思維鏈推理和自我一致性。最終發(fā)現(xiàn)無上下文示例提示+思想鏈的效果最好。而用自我一致性要求和較多上下文示例去加強(qiáng)思維鏈反而有可能會(huì)降低AI的訓(xùn)練能力。這表明隨著研究人員的不斷嘗試，RLAIF的性能仍有很大地提升空間。

0-Shot最好

除了提示工程上的改進(jìn)，模型本身的能力也會(huì)影響最終的標(biāo)注水平。作者接下里還對(duì)RLAIF系統(tǒng)進(jìn)行了改變計(jì)算規(guī)模的實(shí)驗(yàn)。以及觀察注釋經(jīng)驗(yàn)提升對(duì)判斷準(zhǔn)確的影響。好不意外，他們發(fā)現(xiàn)較大的模型在RLAIF訓(xùn)練后產(chǎn)生更高質(zhì)量的反饋，從而導(dǎo)致更好的最終總結(jié)性能。然而經(jīng)驗(yàn)對(duì)效果提升的影響是比較有限的，在RLAIF進(jìn)行過數(shù)千個(gè)帶注釋的摘要比較后，它帶來的準(zhǔn)確性收益開始遞減。當(dāng)然這表明模型本身可能已經(jīng)獲得了充分地反饋，形成了穩(wěn)定標(biāo)準(zhǔn)。

目前看來，這種方法也并非完全沒有缺點(diǎn)。在定性分析后，作者發(fā)現(xiàn)RLAIF生成的模型連貫性略低于RLHF，但它不太容易產(chǎn)生幻覺。

目前AI發(fā)展速度的瓶頸，都有了突破的解決辦法

論文的內(nèi)容就這么多。但我們可以考慮的未來卻更豐富。隨著越來越多的在AI性能提升和訓(xùn)練領(lǐng)域中AI開始逐漸替代人類的角色。在很近切的未來，我們就很可能看到計(jì)算機(jī)模型以越來越復(fù)雜和快速的方式相互建立和增強(qiáng)，達(dá)到遠(yuǎn)遠(yuǎn)超出孤立狀態(tài)下的智能水平。

盡管RLAIF確實(shí)需要大量的計(jì)算資源來進(jìn)行自動(dòng)反饋，但在初始訓(xùn)練后，它消除了持續(xù)的人類參與的需要。RLAIF方法有著不言而喻的優(yōu)點(diǎn)，即提供訓(xùn)練反饋的系統(tǒng)可以快速標(biāo)記大量的經(jīng)驗(yàn)，遠(yuǎn)遠(yuǎn)超出人類的注釋范圍。

RLAIF的成功提供了一個(gè)即將到來的機(jī)器學(xué)習(xí)范式轉(zhuǎn)變的一瞥，即依靠AI系統(tǒng)增強(qiáng)自身的范式已經(jīng)有了充分的基矗人工智能中的遞歸自我完善，自我實(shí)現(xiàn)在可能在一年前看還是一個(gè)長(zhǎng)期的愿景，但現(xiàn)在已經(jīng)越來越觸手可及。

隨著人工智能的能力越來越強(qiáng)，進(jìn)一步提高其智能水平遇到了三個(gè)核心瓶頸：數(shù)據(jù)，算力以及人工調(diào)整的效率。

算力瓶頸的問題并非是真實(shí)的天花板，更多是面對(duì)AI的突然爆發(fā)，整體硬件產(chǎn)業(yè)的一種措手不及。隨著產(chǎn)能的迅速調(diào)整，老黃豪言2024H100供貨200萬(wàn)塊。更別提在更多新玩家入局（比如最近憋著要在GPU市場(chǎng)上與英偉達(dá)爭(zhēng)雄的AMD，自己打著自研小算盤的亞馬遜和谷歌，以及數(shù)十家GPU初創(chuàng)公司）和更大的算力基建鋪設(shè)之后，這個(gè)瓶頸就會(huì)逐步自然得到解除。

老黃：AI的命脈（H100）就抓在我手里

數(shù)據(jù)方面的瓶頸主要來源于人類生產(chǎn)高質(zhì)量的內(nèi)容數(shù)據(jù)目前已經(jīng)大部分被AI訓(xùn)練所消耗，在沒有新的數(shù)據(jù)補(bǔ)充的情況下，縮放效應(yīng)帶來的語(yǔ)言模型能力的線性成長(zhǎng)就無法達(dá)成。但這個(gè)問題其實(shí)已經(jīng)被一定程度的解決了。早在7月，微軟、OpenAI和Cohere等公司就已經(jīng)開始測(cè)試使用合成數(shù)據(jù)（計(jì)算機(jī)生成的信息）訓(xùn)練大語(yǔ)言模型。雖然劍橋牛津的學(xué)者發(fā)表論文警告說隨著時(shí)間的推移，這些合成數(shù)據(jù)或許會(huì)破壞模型，導(dǎo)致「不可逆轉(zhuǎn)的缺陷」。但至少在一些實(shí)驗(yàn)條件下，比如港大利用合成圖像訓(xùn)練模型的實(shí)驗(yàn)中，這一通路還是獲得了很好的效果的。

在RAILF出現(xiàn)之前，訓(xùn)練AI的最大瓶頸坑就是人工調(diào)整對(duì)齊的效率難以提升。比如在GPT4的開發(fā)過程中，完成預(yù)訓(xùn)練的時(shí)間可能僅有3個(gè)月左右，但使用RLHF進(jìn)行對(duì)抗和強(qiáng)化的過程就持續(xù)了6個(gè)月。超過訓(xùn)練模型時(shí)間的兩倍，而且訓(xùn)練模型的時(shí)間可以通過算力加強(qiáng)和算法改進(jìn)縮短，但人工的有效速度很難提升。現(xiàn)在論文中的RAILF一但被有效應(yīng)用，這一瓶頸自然也就解決了。

AI進(jìn)化上的路障，已經(jīng)一個(gè)接一個(gè)的被掃清。我們控制它的方法改進(jìn)卻似乎遠(yuǎn)沒有這么快。

相關(guān)熱詞： 可以自我進(jìn)化已經(jīng) 人類

可以自我進(jìn)化的AI，已經(jīng)在敲人類的門了
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-09-05 19:01:12 瀏覽：16934次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

可以自我進(jìn)化的AI，已經(jīng)在敲人類的門了 來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-09-05 19:01:12 瀏覽：16934次