曹建峰騰訊研究院高級研究員
原文標(biāo)題為《大模型背景下的人機對齊》,刊發(fā)在《中國社會科學(xué)報》
隨著人工智能大模型的能力日益強大,如何讓其行為和目標(biāo)同人類的價值、偏好、意圖之間實現(xiàn)協(xié)調(diào)一致,即人機對齊(human-AI alignment)問題,變得越發(fā)重要。
目前,人機對齊已成為人工智能領(lǐng)域的重要發(fā)展方向。在大模型加速發(fā)展引發(fā)了有效加速(e/acc)還是有效對齊(e/a)的發(fā)展理念之爭的背景下,人們需要更加負責(zé)任地發(fā)展與應(yīng)用人工智能技術(shù),而人機對齊(包括人工智能價值對齊)方面的技術(shù)演進和治理探索,將推動人工智能領(lǐng)域的負責(zé)任創(chuàng)新,使人類與人工智能走向和諧共存、有效協(xié)作的美好未來。
重要性與必要性近年來,隨著大模型的加速發(fā)展,相關(guān)的人工智能安全風(fēng)險和控制問題引發(fā)了全球關(guān)注。以大模型為代表的新興技術(shù),不斷推動人工智能邁向新的前沿。但這也在一定程度上引發(fā)了人們對人工智能未來可能導(dǎo)致極端風(fēng)險的擔(dān)憂。除了重要數(shù)據(jù)及隱私泄露、算法歧視及不透明、虛假信息等倫理問題,未來更加強大且通用的人工智能模型是否可能導(dǎo)致災(zāi)難性風(fēng)險或極端風(fēng)險的問題也受到了更多關(guān)注。具體而言,不同于以往的任何技術(shù),當(dāng)前以及未來的人工智能技術(shù)主要會在三個核心維度給個人和社會帶來新的風(fēng)險與挑戰(zhàn)。
一是決策讓渡風(fēng)險。在經(jīng)濟社會活動維度,人工智能和機器人會在越來越多的人類事務(wù)中輔助甚至替代人類進行決策,這種決策讓渡會帶來新的風(fēng)險,如技術(shù)性失業(yè)、人工智能安全等。甚至還需要考慮有一些決策和人類事務(wù)是否應(yīng)外包給人工智能。
二是情感替代風(fēng)險。在人際/人機關(guān)系維度,人工智能和機器人已經(jīng)并將持續(xù)深度介入人類情感領(lǐng)域,給人們提供情感陪伴價值,但卻可能影響到人際交往,產(chǎn)生情感替代風(fēng)險,導(dǎo)致人與人之間的真實聯(lián)系被削弱甚至被取代。這種新型人機關(guān)系的倫理邊界應(yīng)如何確定?一個重要的原則是,人機交互必須促進人類聯(lián)系和社會團結(jié)真實的人類聯(lián)系在智能時代將是彌足珍貴的。
三是人類增強風(fēng)險。在人類自身發(fā)展維度,人工智能、腦機接口等技術(shù)可能推動人類社會進入所謂的“后人類時代”。此類技術(shù)或被用于增強、改造人類自身,未來人機深度融合后,人的身體、大腦、智力等都有可能被人工智能改造,屆時人會變成什么?這種人類增強是否會帶來新形式的人類不平等?在這幾個維度之外,還有技術(shù)濫用、惡用的風(fēng)險(如深度偽造技術(shù)的惡性使用),人工智能消耗大量能源對環(huán)境和可持續(xù)發(fā)展的挑戰(zhàn),人工智能技術(shù)失控、威脅人類生存等災(zāi)難性風(fēng)險(以及由此引發(fā)的加速派與對齊派的發(fā)展理念分歧),等等。因此,人工智能領(lǐng)域的負責(zé)任創(chuàng)新變得越發(fā)重要且必要。
在此背景下,隨著大模型能力的持續(xù)提升以及日益通用化,如何讓大模型的行為和目標(biāo)與人類的價值、偏好、倫理道德、意圖和目標(biāo)等相一致,成為大模型發(fā)展的重要內(nèi)容。人機對齊是人工智能安全和倫理領(lǐng)域的一個新概念,其主要目的是將人工智能大模型打造成安全、真誠、有用、無害的智能助手,避免在與人的交互過程中造成潛在的負面影響或危害,如輸出有害內(nèi)容、帶來幻覺、造成歧視等。要而言之,人機對齊包含雙重含義,一方面是人工智能對齊人類,主要涉及創(chuàng)建安全、符合倫理的人工智能系統(tǒng);另一方面是人類對齊人工智能,核心是確保人們負責(zé)任地使用、部署人工智能系統(tǒng)。
在大模型背景下,人機對齊對于確保人類與人工智能交互過程中的安全與信任至關(guān)重要。現(xiàn)在的聊天機器人等大模型應(yīng)用之所以能夠游刃有余地應(yīng)對用戶的各種提問,而不至于產(chǎn)生太大負面影響,在很大程度上歸功于人機對齊方面的技術(shù)和治理實踐?梢哉f,人機對齊是大模型可用性和安全性的重要基礎(chǔ)和必要保障。
實現(xiàn)路徑在實踐中,目前產(chǎn)業(yè)界將人機對齊作為人工智能大模型安全治理的重要思路,并在技術(shù)上取得了可觀的效果,很大程度上保障了大模型開發(fā)、部署和使用中的安全與信任。人機對齊是大模型開發(fā)和訓(xùn)練過程中的一個重要環(huán)節(jié),在技術(shù)上目前主要有兩種人機對齊方法:
一種是自下而上的思路,即人類反饋強化學(xué)習(xí)的對齊方法,需要用價值對齊的數(shù)據(jù)集對模型進行精調(diào),并由人類訓(xùn)練員對模型的輸出進行評分,以便通過強化學(xué)習(xí)讓模型學(xué)習(xí)人類的價值和偏好。在技術(shù)上,人類反饋的強化學(xué)習(xí)包括初始模型訓(xùn)練、收集人類反饋、強化學(xué)習(xí)、迭代過程等步驟。
另一種是自上而下的思路,即原則型人工智能的對齊方法,核心是把一套倫理原則輸入給模型,并通過技術(shù)方法讓模型對自己的輸出進行判斷或評分,以使其輸出符合這些原則。例如,OpenAI公司采取了人類反饋強化學(xué)習(xí)的對齊方法,Anthropic公司采取了原則型人工智能的對齊方法。這些人機對齊方法殊途同歸,都致力于將大模型打造成為安全、真誠、有用、無害的智能助手。
此外,產(chǎn)業(yè)界還在探索對抗測試(如紅隊測試)、模型安全評估、可解釋人工智能方法、倫理審查、第三方服務(wù)等多元化的安全和治理措施,共同保障人工智能領(lǐng)域的負責(zé)任創(chuàng)新。此外,值得一提的是,對于可能具有災(zāi)難性風(fēng)險的人工智能模型和將來可能出現(xiàn)的超級人工智能,一些人工智能企業(yè)在探索專門的安全機制(如OpenAI的“預(yù)備”團隊、Anthropic公司的負責(zé)任擴展政策),其核心思路是對新研發(fā)的更先進模型進行系統(tǒng)性評估,只有在模型的風(fēng)險低于一定的安全風(fēng)險閾值時才會對外推出,否則將暫緩?fù)瞥鲋敝涟踩L(fēng)險得到緩解。人工智能企業(yè)通過在人機對齊上的相關(guān)探索和舉措,可以建立起人工智能產(chǎn)品的市場競爭力,同時這些企業(yè)將人機對齊作為保障未來更強大的人工智能模型安全、有益的核心要素,積極開展前沿探索。
可以說,包括人工智能價值對齊在內(nèi)的人機對齊理念和實踐,是當(dāng)前人工智能大模型發(fā)展應(yīng)用的必由之路,可以幫助解決人工智能大模型商業(yè)應(yīng)用過程中面臨的很多難題。通過人機對齊的理念和實踐,人工智能開發(fā)者可以構(gòu)建更加安全、有用、可信且符合倫理的人工智能系統(tǒng)。可以預(yù)見,未來人工智能大模型會在更多場景中輔助人類甚至替代人類,人機對齊將是當(dāng)前和未來的人工智能大模型以及未來可能出現(xiàn)的通用人工智能的必由之路。這既關(guān)乎信任,也關(guān)乎控制,更關(guān)乎未來人工智能的安全發(fā)展,因為人機對齊對于應(yīng)對未來更加強大的人工智能模型的涌現(xiàn)風(fēng)險至關(guān)重要。
總之,考慮到人機對齊在解決大模型的安全和信任問題上所扮演的重要角色實現(xiàn)安全與創(chuàng)新的有效平衡,人工智能領(lǐng)域的相關(guān)政策需要積極支持與鼓勵探索大模型領(lǐng)域人機對齊的技術(shù)手段和管理措施,推動形成政策指南、行業(yè)標(biāo)準(zhǔn)、技術(shù)規(guī)范等,以保障人工智能的向善發(fā)展。