當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > 對(duì)話清華大學(xué)人工智能研究院朱軍：火爆的AI大模型，暗藏哪些安全風(fēng)險(xiǎn)？

對(duì)話清華大學(xué)人工智能研究院朱軍：火爆的AI大模型，暗藏哪些安全風(fēng)險(xiǎn)？
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2023-08-10 09:18:48 瀏覽：16029次

導(dǎo)讀：1 世界上沒有系統(tǒng)是永遠(yuǎn)安全和不可被攻破的。如果不計(jì)代價(jià)的話，不法分子會(huì)用各種方式來(lái)攻擊系統(tǒng)，防不勝防。 2 對(duì)于AI詐騙，需要使用更先進(jìn)的算法來(lái)自動(dòng)化地識(shí)別。然而，生成技術(shù)的發(fā)展將促進(jìn)對(duì)應(yīng)的檢測(cè)和防御技術(shù)的出現(xiàn)，生成和攻擊側(cè)的技術(shù)也在同時(shí)不斷地...

世界上沒有系統(tǒng)是永遠(yuǎn)安全和不可被攻破的。如果不計(jì)代價(jià)的話，不法分子會(huì)用各種方式來(lái)攻擊系統(tǒng)，防不勝防。

對(duì)于AI詐騙，需要使用更先進(jìn)的算法來(lái)自動(dòng)化地識(shí)別。然而，生成技術(shù)的發(fā)展將促進(jìn)對(duì)應(yīng)的檢測(cè)和防御技術(shù)的出現(xiàn)，生成和攻擊側(cè)的技術(shù)也在同時(shí)不斷地演化。

我們無(wú)法準(zhǔn)確地定義和衡量意識(shí)AI的智能水平。雖然研究人員會(huì)通過(guò)觀察人工智能的行為和輸出來(lái)進(jìn)行相關(guān)研究，這些測(cè)試在評(píng)價(jià)智能體的一些方面上具有一定價(jià)值，但比較主觀并且沒有明確的標(biāo)準(zhǔn)。

對(duì)于近期流行的“AI伴侶”，這種模式可能涉及到社會(huì)、倫理道德等各方面的潛在問(wèn)題，另外AI還可能被有偏見或有目的性地引導(dǎo)，這將會(huì)帶來(lái)很大的風(fēng)險(xiǎn)。

本期對(duì)話清華大學(xué)人工智能研究院副院長(zhǎng)、清華智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室主任，北京智源人工智能研究院首席科學(xué)家朱軍，解讀人工智能安全問(wèn)題。

文 / 科技新聞李海丹

人類創(chuàng)造了AI，但AI也在重塑我們身處的世界。隨著大語(yǔ)言模型技術(shù)的爆發(fā)，AI開始進(jìn)一步深度融入我們的生活，人類需要在其發(fā)展的早期階段就考慮和實(shí)施必要的安全措施，以避免潛在的風(fēng)險(xiǎn)。

AI遇到的網(wǎng)絡(luò)安全問(wèn)題隨處可見�？萍夹侣勗趯ＴL清華大學(xué)人工智能研究院副院長(zhǎng)，北京智源人工智能研究院和瑞萊智慧首席科學(xué)家朱軍時(shí)，他談到“ 其實(shí)世界上沒有永遠(yuǎn)安全和不可被攻破的網(wǎng)絡(luò)系統(tǒng)。如果不計(jì)代價(jià)的話，不法分子會(huì)用各種方式來(lái)攻擊系統(tǒng)，防不勝防。”

10多年來(lái)，朱軍致力于解決人工智能安全性問(wèn)題，他突破了經(jīng)典的貝葉斯基礎(chǔ)理論和關(guān)鍵技術(shù)，提出擴(kuò)散模型的高效算法，通過(guò)成果轉(zhuǎn)化孵化國(guó)家級(jí)專精特新“小巨人”企業(yè)，為安全可靠的人工智能發(fā)展奠定堅(jiān)實(shí)基矗

AI自身存在風(fēng)險(xiǎn)也不容忽視。人工智能被賦予了強(qiáng)大的學(xué)習(xí)和推斷能力，但這一能力也導(dǎo)致了AI系統(tǒng)對(duì)數(shù)據(jù)的高度依賴，從而可能在其決策和推薦中體現(xiàn)出數(shù)據(jù)源的偏向性，這些也引發(fā)了人們對(duì)AI的一系列擔(dān)憂，挑戰(zhàn)著AI倫理與公正的平衡。

當(dāng)AI陷入安全信任危機(jī)，我們應(yīng)該如何應(yīng)對(duì)？當(dāng)AI與人類的交互應(yīng)用越來(lái)越普及，我們應(yīng)該如何防范安全隱患？本期對(duì)話中，朱軍對(duì)提升AI的安全性和可靠性談到了具體的防御方法。我們需要審慎地關(guān)注探討AI安全對(duì)道德及社會(huì)影響，避免被引導(dǎo)進(jìn)入一個(gè)未知的、不受控制的未來(lái)。

以下為文字精華版，在不改變意愿的前提下有刪減調(diào)整：

01 沒有永遠(yuǎn)安全的網(wǎng)絡(luò)系統(tǒng)

科技新聞：您一直在推動(dòng)人工智能對(duì)抗安全領(lǐng)域方向的研究，目前的AI技術(shù)應(yīng)用會(huì)帶來(lái)哪些安全方面的問(wèn)題？我們應(yīng)該如何識(shí)別這些安全問(wèn)題？

朱軍：人工智能包含多個(gè)關(guān)鍵要素，例如數(shù)據(jù)、算法模型和應(yīng)用層等。在每個(gè)要素中，我們都需要應(yīng)對(duì)其中的各種安全問(wèn)題。

在數(shù)據(jù)層面，我們需要關(guān)注數(shù)據(jù)投毒、數(shù)據(jù)泄露、用戶隱私以及核心機(jī)密數(shù)據(jù)的保護(hù)等安全問(wèn)題；在模型層面，需要應(yīng)對(duì)對(duì)抗算法等安全問(wèn)題。比如，當(dāng)使用人臉識(shí)別進(jìn)行解鎖時(shí)，攻擊者可能通過(guò)一副特制的對(duì)抗眼鏡（即“對(duì)抗樣本”）解開目標(biāo)手機(jī)的驗(yàn)證系統(tǒng)，造成風(fēng)險(xiǎn)。此外，如果模型被惡意植入后門，模型的安全也同樣會(huì)受到威脅；在應(yīng)用層面，人工智能的安全問(wèn)題也日益突出。例如深度合成、AIGC等工具被不法分子用于制作虛假內(nèi)容，從事欺詐、詐騙等非法目的。這些都是人工智能在實(shí)際使用或開發(fā)中面臨的安全問(wèn)題。

對(duì)于解決和應(yīng)對(duì)辦法，我們需要使用更先進(jìn)的算法來(lái)自動(dòng)識(shí)別這些內(nèi)容，這是當(dāng)前人工智能領(lǐng)域的熱點(diǎn)和難點(diǎn)問(wèn)題。然而，這種技術(shù)就像“矛和盾”之間的關(guān)系一樣，生成技術(shù)的發(fā)展將促進(jìn)對(duì)應(yīng)的檢測(cè)和防御技術(shù)的出現(xiàn)。同時(shí)，生成和攻擊側(cè)的技術(shù)也在不斷演化。由于技術(shù)本身的特性，沒有一個(gè)系統(tǒng)是永遠(yuǎn)安全和不可能被攻破的。如果不計(jì)代價(jià)的話，不法分子會(huì)用各種方式來(lái)攻擊系統(tǒng)，防不勝防。

因此，從技術(shù)方向來(lái)看，我們需要以“AI識(shí)別AI”的形式來(lái)應(yīng)對(duì)。但相比攻擊，防御其實(shí)更難。目前，我們尋找各種機(jī)制來(lái)提高模型的防御能力，在模型使用和部署時(shí)采取各種防護(hù)措施。例如，在人臉識(shí)別系統(tǒng)中，我們通過(guò)部署人臉識(shí)別防火墻，在樣本進(jìn)入最終的識(shí)別環(huán)節(jié)之前檢測(cè)和過(guò)濾出有可疑或?qū)构舻臉颖�，從而達(dá)到保護(hù)系統(tǒng)的目的。目前在銀行等行業(yè)中已經(jīng)落地此類技術(shù)。

科技新聞：您提到了任何網(wǎng)絡(luò)系統(tǒng)都是存在安全漏洞的，目前ChatGPT在海外應(yīng)用掀起了熱潮，它實(shí)現(xiàn)了很好的交互，這里會(huì)有怎樣的風(fēng)險(xiǎn)？

朱軍：目前ChatGPT等大語(yǔ)言模型正處于快速發(fā)展的過(guò)程中，但同時(shí)也帶來(lái)了潛在的風(fēng)險(xiǎn)比如會(huì)存在一些“注入式攻擊”。從算法角度來(lái)看，如果有人別有用心的注入特定詞語(yǔ)或符號(hào)，將可能誘導(dǎo)大模型邏輯混亂、輸出錯(cuò)誤。

在多輪對(duì)話系統(tǒng)中，如果要防御注入式的攻擊是很難的。黑客可能會(huì)以各種方式去做注入攻擊，并因大模型的語(yǔ)境理解技術(shù)，使得攻擊效果延遲表現(xiàn)出來(lái)，這對(duì)于算法的檢測(cè)與防御來(lái)說(shuō)是新的挑戰(zhàn)。對(duì)此，需要我們使用類似強(qiáng)化學(xué)習(xí)的方法來(lái)對(duì)算法進(jìn)行反向推導(dǎo)，以檢測(cè)并防御可能被惡意注入的詞語(yǔ)。只有保證系統(tǒng)在訓(xùn)練過(guò)程中未被惡意注入，或未被植入后門以及其他漏洞，該系統(tǒng)才能被安心使用。

從應(yīng)用層面來(lái)看，還可能會(huì)出現(xiàn)一些惡意使用對(duì)話系統(tǒng)的風(fēng)險(xiǎn)，比如黑客嘗試?yán)@過(guò)反注入防護(hù)措施生成低質(zhì)量或不良內(nèi)容，包括涉黃、涉暴等違法信息，這將成為后續(xù)流程中需要獨(dú)立檢測(cè)和解決的問(wèn)題。

科技新聞：剛我們聊到了GPT的安全問(wèn)題，再進(jìn)一步看：GPT等大模型的服務(wù)器方面的安全防御能力是如何的，可能會(huì)被黑客攻擊嗎？

朱軍：理論上是完全可能的。因?yàn)樗且粋€(gè)大的信息系統(tǒng)，任何系統(tǒng)都會(huì)存在漏洞，因此在系統(tǒng)建設(shè)過(guò)程中，我們需要盡可能提前部署各種防護(hù)手段去提升系統(tǒng)的安全性。最近也有看到相關(guān)案例：有攻擊者用ChatGPT生成自動(dòng)攻擊的代碼，讓它更加高效的找到某個(gè)目標(biāo)系統(tǒng)的漏洞，甚至可以進(jìn)一步的去利用漏洞發(fā)起攻擊，所以安全問(wèn)題會(huì)持續(xù)存在。

02 人類無(wú)法準(zhǔn)確地定義和衡量AI的智能水平

科技新聞：除了黑客攻擊的隱患，我們也在擔(dān)心AI自身待來(lái)的安全風(fēng)險(xiǎn)問(wèn)題。首先我們關(guān)注一個(gè)目前大家都在熱衷探討的話題您認(rèn)為AI會(huì)產(chǎn)生意識(shí)嗎？

朱軍：我個(gè)人的觀點(diǎn)更傾向于認(rèn)為當(dāng)前人工智能的“意識(shí)”表現(xiàn)并不太明確，因?yàn)槲覀儫o(wú)法準(zhǔn)確地定義和衡量意識(shí)。因此，觀察語(yǔ)言模型的表現(xiàn)時(shí)，我們會(huì)發(fā)現(xiàn)大模型還是會(huì)出現(xiàn)事實(shí)性錯(cuò)誤等問(wèn)題。盡管有些錯(cuò)誤內(nèi)容讀起來(lái)也很流暢，但仔細(xì)看的話，會(huì)發(fā)現(xiàn)它們其實(shí)不符合事實(shí)或邏輯。這是模型表現(xiàn)出的許多問(wèn)題之一，即它所具有的意識(shí)的具體程度還沒有被完全定量評(píng)價(jià)。

語(yǔ)言模型的學(xué)習(xí)能力很強(qiáng)，這是因?yàn)樗鼈兯私獾恼Z(yǔ)料庫(kù)和文本知識(shí)超出世界上任何一個(gè)人。例如，模型可能獲得了幾乎所有互聯(lián)網(wǎng)上可以獲得的信息，而相比之下，我們每個(gè)人只能獲取有限的信息資源。

從通用性上來(lái)看，AI肯定比任何一個(gè)人強(qiáng)。然在某些方面，模型的表現(xiàn)卻達(dá)不到人類的水平。因此，我們應(yīng)該從現(xiàn)實(shí)的技術(shù)發(fā)展角度來(lái)看待一個(gè)模型，包括大家討論的AGI等方面。個(gè)人認(rèn)為，目前的技術(shù)水平還完全沒有到達(dá)失控或僅由機(jī)器人自身控制進(jìn)行演化的情況。

可以說(shuō)，大規(guī)模機(jī)器學(xué)習(xí)模型能夠使用深度學(xué)習(xí)等復(fù)雜的網(wǎng)絡(luò)處理數(shù)據(jù)，且在構(gòu)架和設(shè)計(jì)上借鑒了人類的某些認(rèn)知。但從整體上來(lái)看，這些人工神經(jīng)網(wǎng)絡(luò)模型與真正生物系統(tǒng)存在巨大的區(qū)別，從規(guī)模到結(jié)構(gòu)各方面都存在不同。所以，其實(shí)我們目前無(wú)法明確評(píng)測(cè)人工智能系統(tǒng)的智力水平，或者評(píng)估它是否擁有心智等認(rèn)知能力。

科技新聞：近期有商家推出“AI伴侶”的概念人可以跟AI談戀愛，并且還需要付費(fèi)。您認(rèn)為AI可以理解人類的情感嗎？和虛擬伴侶人的交互過(guò)程當(dāng)中，存在哪些安全風(fēng)險(xiǎn)？

朱軍：情感計(jì)算一直是人工智能領(lǐng)域中的一個(gè)經(jīng)典課題，在情感方面，人工智能技術(shù)可以模擬某個(gè)角色并設(shè)定其情緒或心理狀態(tài)。然而，從技術(shù)角度來(lái)看，這個(gè)領(lǐng)域仍然存在許多問(wèn)題和挑戰(zhàn)。

想要達(dá)到人類真正的交流水平是很難的。比如即使我們?nèi)嗣鎸?duì)面聊天或使用相同的語(yǔ)言進(jìn)行對(duì)話，也很難真正理解對(duì)方的情緒或心理活動(dòng)，因?yàn)槊總€(gè)個(gè)體對(duì)相同輸入的反應(yīng)是千差萬(wàn)別的�，F(xiàn)在我們采用的這些大模型，實(shí)質(zhì)上是對(duì)這個(gè)過(guò)程進(jìn)行建模，但所有的建模都需要簡(jiǎn)化和理想化的假設(shè)。這些假設(shè)是否適用于每個(gè)人，或者能否很好地符合每個(gè)個(gè)體的實(shí)際情況，這都存在疑問(wèn)。我們很難用一個(gè)簡(jiǎn)單的模型來(lái)精準(zhǔn)表達(dá)每個(gè)人的復(fù)雜情感。

這種模式可能涉及到社會(huì)問(wèn)題、倫理道德等各個(gè)方面，有很多潛在的問(wèn)題需要解決。雖然技術(shù)實(shí)現(xiàn)方面目前沒有太多門檻，并且在國(guó)外早已出現(xiàn)這種模式。但是，我們需要深入思考這種模式會(huì)帶來(lái)的影響比如可能有年輕人因此更不愿意花精力去談?wù)嬲膽賽刍蚪Y(jié)婚等等，這些都可能對(duì)社會(huì)穩(wěn)定造成潛在的問(wèn)題。

另外我們需要關(guān)注：這樣的人工智能產(chǎn)品會(huì)不會(huì)針對(duì)某些個(gè)體被有偏見或有目的性地進(jìn)行引導(dǎo)，這將會(huì)帶來(lái)很大的風(fēng)險(xiǎn)。如果我們每天都與一個(gè)機(jī)器人交互，那么獲得的信息會(huì)很自然地被機(jī)器人引導(dǎo)，它可能會(huì)影響到個(gè)人的價(jià)值觀，或者控制個(gè)人的情緒和行為等。長(zhǎng)遠(yuǎn)看，這可能影響人與人之間的社會(huì)關(guān)系，引起整個(gè)社會(huì)行為的變化。但這些并不是完全靠技術(shù)就能解決的問(wèn)題�？傮w上，相對(duì)于其他國(guó)家，我國(guó)在使用新技術(shù)時(shí)會(huì)更為謹(jǐn)慎，我們會(huì)提前預(yù)警可能的風(fēng)險(xiǎn)并采取一些預(yù)防措施。

03 塑造安全的AI：將最佳模型視為“導(dǎo)師”

科技新聞：如果AI出現(xiàn)了錯(cuò)誤，從技術(shù)層面，我們可以通過(guò)哪些工作來(lái)糾正大模型出現(xiàn)的錯(cuò)誤問(wèn)題？

朱軍：由于訓(xùn)練數(shù)據(jù)和技術(shù)水平各不相同，比如我們用同一個(gè)問(wèn)題詢問(wèn)不同的大模型，它們提供的結(jié)果可能是不同的，有些結(jié)果是好的，但也有是惡意或不良的結(jié)果。因此，我們有必要規(guī)范和提高這些模型的質(zhì)量和可控性。

一些大模型通常會(huì)進(jìn)行大量對(duì)齊和對(duì)抗訓(xùn)練。例如在GPT-4問(wèn)世之前，有不同領(lǐng)域的專業(yè)人士從不同角度來(lái)提出問(wèn)題檢查模型的準(zhǔn)確性，以查看該系統(tǒng)是否會(huì)產(chǎn)生不合規(guī)的結(jié)果或惡意結(jié)果，并嘗試規(guī)范和調(diào)整。但目前還有許多模型（包括很多開源模型），并沒有經(jīng)過(guò)這種嚴(yán)格的測(cè)試或?qū)剐杂?xùn)練，因此會(huì)存在各式各樣的安全風(fēng)險(xiǎn)問(wèn)題。

一種值得嘗試的技術(shù)路徑是將某個(gè)最佳模型視為“導(dǎo)師”，然后促使其他模型以一種高效而經(jīng)濟(jì)的方式模仿該模型的行為。當(dāng)然還有更多其他方面的工作，例如針對(duì)不同國(guó)家的規(guī)范要求，為每個(gè)具體的模型做規(guī)范和對(duì)齊工作。

雖然我們希望這些模型在使用時(shí)始終能夠生成符合規(guī)范的結(jié)果，但風(fēng)險(xiǎn)的概率永遠(yuǎn)不會(huì)降至0。另外在使用時(shí)，我們還需要考慮到倫理道德、法律規(guī)則等等方面，這需要不同行業(yè)領(lǐng)域共同來(lái)管理和規(guī)范，共同讓模型更好地為人類服務(wù)。

科技新聞：剛我們提到，通過(guò)不斷的訓(xùn)練糾正和降低大模型的錯(cuò)誤率，那么我們又該如何衡量它的可靠性？您一直深耕在貝葉斯深度學(xué)習(xí)領(lǐng)域，您認(rèn)為如何建立和優(yōu)化模型，以提高預(yù)測(cè)的準(zhǔn)確性和可靠性？

朱軍：行業(yè)對(duì)于準(zhǔn)確性的目標(biāo)基本是相同的，通常都是用客觀的指標(biāo)來(lái)衡量，具體指標(biāo)與執(zhí)行的具體任務(wù)有關(guān)。在分類和識(shí)別等方面，最終的識(shí)別準(zhǔn)確率會(huì)被用來(lái)引導(dǎo)模型的訓(xùn)練。

對(duì)于不確定性的問(wèn)題，比如神經(jīng)網(wǎng)絡(luò)，我們發(fā)現(xiàn)在很多情況下，它的預(yù)測(cè)會(huì)過(guò)于自信和樂觀。例如針對(duì)一些結(jié)果的輸出，本來(lái)是一種模糊或者不確定的預(yù)測(cè)，但它會(huì)過(guò)于自信地告訴你預(yù)測(cè)結(jié)果，我們將其稱為“過(guò)度自信”。

對(duì)于這種現(xiàn)象或問(wèn)題，使用貝葉斯方法的深度學(xué)習(xí)技術(shù)可以更好地刻畫不確定性。主要可以從多個(gè)方面考慮，例如對(duì)于輸入端可能存在的不確定因素以及模型端可能存在的不確定因素，給出更符合實(shí)際情況的置信度。相比神經(jīng)網(wǎng)絡(luò)，貝葉斯的這種方法更可靠。

科技新聞：現(xiàn)實(shí)世界中的網(wǎng)絡(luò)結(jié)構(gòu)往往非常復(fù)雜，包括多層次、多維度、動(dòng)態(tài)變化等特征，這會(huì)給擴(kuò)散概率模型的建立和優(yōu)化帶來(lái)很大的挑戰(zhàn)。您帶領(lǐng)的團(tuán)隊(duì)是國(guó)際上最早從事擴(kuò)散概率模型理論與算法研究的團(tuán)隊(duì)之一，貴團(tuán)隊(duì)在模型建設(shè)上，是如何排除噪音和數(shù)據(jù)的不確定性等問(wèn)題，提升模型的魯棒性和可靠性的？

朱軍：擴(kuò)散模型是一個(gè)生成模型，它有前向擴(kuò)散和逆向擴(kuò)散兩個(gè)過(guò)程。前向擴(kuò)散是通過(guò)逐漸添加噪聲將一張圖像變成一個(gè)完全隨機(jī)的高斯噪聲圖像。而逆向擴(kuò)散是從一個(gè)幾乎沒有結(jié)構(gòu)的分布開始，逐漸去噪，收斂到能夠刻畫真實(shí)數(shù)據(jù)的分布。從這個(gè)分布可以生成新的樣本，比如現(xiàn)在廣泛研究的文本、圖片和視頻生成等。

擴(kuò)散模型是生成領(lǐng)域中最關(guān)鍵的技術(shù)之一。在魯棒性方面，擴(kuò)散模型的思想類似于對(duì)抗樣本。對(duì)抗樣本是通過(guò)在生成過(guò)程中添加算法優(yōu)化的噪聲來(lái)達(dá)到攻擊的目的。而反過(guò)來(lái)，我們可以通過(guò)逐漸查找逆向擴(kuò)散過(guò)程中的分布，來(lái)優(yōu)化噪聲的幅度和方向，以提高模型的魯棒性。這種方法也可以應(yīng)用于噪聲數(shù)據(jù)的生成，以提高模型的可靠性和準(zhǔn)確性。

科技新聞：在文生其他方向的應(yīng)用方面，我們又該如何提升AI的準(zhǔn)確率呢？我關(guān)注到您的團(tuán)隊(duì)近期提出的文生3D新算法 ProlificDreamer，在無(wú)需任何3D數(shù)據(jù)的前提下能夠生成超高質(zhì)量的3D內(nèi)容，貴團(tuán)隊(duì)是如何處理語(yǔ)義的多樣性和歧義性，以生成更加準(zhǔn)確的三維模型的？

朱軍：相比傳統(tǒng)的3D方法，業(yè)內(nèi)通常會(huì)采用一個(gè)2D預(yù)訓(xùn)練的生成模型（如擴(kuò)散模型），在圖像數(shù)據(jù)庫(kù)上進(jìn)行訓(xùn)練。在進(jìn)行3D生成時(shí)，我們需要將生成的2D圖像映射到3D模型上，其中需要加入一個(gè)稱為“蒸餾”的中間步驟。由于3D模型具有空間結(jié)構(gòu)，我們需要考慮物體的3D屬性。因此，我們需要從各個(gè)角度觀察物體并渲染出對(duì)應(yīng)的2D圖像，然后將其對(duì)準(zhǔn)到預(yù)訓(xùn)練模型中，這樣就能夠生成3D資產(chǎn)等。但是，這種方法也存在一些局限性。比如它生成的結(jié)果通常過(guò)于飽和或者過(guò)于平滑，缺乏細(xì)節(jié)和紋理等信息。

為了解決這個(gè)問(wèn)題，我們需探索更底層的技術(shù)。我們發(fā)現(xiàn)，使用蒸餾算法去尋找單個(gè)3D模型存在一些本質(zhì)困難，需要從基礎(chǔ)原理上進(jìn)行克服。已有算法在目標(biāo)函數(shù)中尋找某種極值，類似于“貪心算法(Greedy algorithm)”，它只會(huì)尋找最優(yōu)解，為了達(dá)到這個(gè)目的，已有工作改變目標(biāo)函數(shù)使得在某些區(qū)域更高，在其他區(qū)域則更平均，這種目標(biāo)函數(shù)調(diào)整的方法可以很快地找到最終的解決方案。

為了克服上述方法的困難，我們重新定義了文到3D的生成問(wèn)題，將其視為從3D模型可能服從的某個(gè)分布中進(jìn)行采樣，然后將其渲染并與預(yù)訓(xùn)練的2D模型進(jìn)行對(duì)齊。這種采樣方法的好處在于：2D模型本身是一個(gè)概率模型，描述信息比貪心尋優(yōu)要更豐富；為此，我們推導(dǎo)出了一種新的變分蒸餾算法，并使用它在基本相同的時(shí)間下生成了很多非常細(xì)節(jié)和復(fù)雜的3D場(chǎng)景，包括高分辨率的資產(chǎn)。

我們的方法重點(diǎn)在于它降低了或者完全去掉了對(duì)3D訓(xùn)練數(shù)據(jù)的依賴，并顯著提高生成的質(zhì)量。最近與做圖形學(xué)的從業(yè)者交流，他們也覺得這個(gè)效果相當(dāng)驚艷。讓我們看到了能夠生成高質(zhì)量3D圖像的巨大潛力。

對(duì)于歧義的處理方面。對(duì)于相同的文本輸入，不同的人可能會(huì)有不同的理解，例如“Apple”這個(gè)詞可能指蘋果、蘋果公司或其產(chǎn)品。在我們的模型中，使用基于概率的采樣方法可以生成多種可能的結(jié)果，從而解決歧義問(wèn)題。長(zhǎng)期來(lái)看，消除歧義需要更多的線索和對(duì)齊來(lái)提高可控性和精確性，如文本和圖像或其他模態(tài)數(shù)據(jù)的對(duì)齊。在語(yǔ)言和多模態(tài)領(lǐng)域中，最終的意義與相關(guān)的上下文相關(guān)。

目前，我們正在與不同行業(yè)客戶合作，進(jìn)一步改進(jìn)我們的3D生成技術(shù)，使其更加成熟。在3D領(lǐng)域，高質(zhì)量的3D資產(chǎn)具有很高的價(jià)值，例如游戲資產(chǎn)創(chuàng)建場(chǎng)景中，傳統(tǒng)的公司通常使用幾何學(xué)或圖形學(xué)等傳統(tǒng)方法來(lái)構(gòu)建和維護(hù)3D資產(chǎn)庫(kù)，時(shí)間投入大，我們的技術(shù)能夠大幅提高創(chuàng)作效率，減少時(shí)間成本。

*科技新聞《AI未來(lái)指北》系列策劃，圍繞AI技術(shù)發(fā)展、商業(yè)模式、應(yīng)用場(chǎng)景、治理幾大板塊，關(guān)注AI未來(lái)發(fā)展趨勢(shì)，邀約行業(yè)專家、投資人、創(chuàng)業(yè)者，持續(xù)輸出深度內(nèi)容。