當(dāng)前位置：人工智能實驗室> 人工智能動態(tài) > 生成式人工智能：發(fā)展演進及產(chǎn)業(yè)機遇

生成式人工智能：發(fā)展演進及產(chǎn)業(yè)機遇
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-08-25 09:42:17 瀏覽：15688次

導(dǎo)讀：徐思彥騰訊研究院高級研究員當(dāng)OpenAI在2022年11月30日發(fā)布ChatGPT的時候，沒有人會意識到，新一代人工智能浪潮將在接下來的6個月給人類社會帶來一場眩暈式的變革。自2010年代初深度學(xué)習(xí)問世以來，人工智能進入到第三次高潮。而2017年Transformer算法將深度...

徐思彥騰訊研究院高級研究員

當(dāng)OpenAI在2022年11月30日發(fā)布ChatGPT的時候，沒有人會意識到，新一代人工智能浪潮將在接下來的6個月給人類社會帶來一場眩暈式的變革。自2010年代初深度學(xué)習(xí)問世以來，人工智能進入到第三次高潮。而2017年Transformer算法將深度學(xué)習(xí)推向了大模型時代。OpenAI基于Transformer的Decoder部分建立起來了GPT家族。

ChatGPT一經(jīng)面世便風(fēng)靡全球，人們驚訝于其能夠進行連貫、有深度對話的同時，也驚異地發(fā)現(xiàn)了它涌現(xiàn)了推理、思維鏈等體現(xiàn)智能的能力。伴隨AI預(yù)訓(xùn)練大模型持續(xù)發(fā)展、人工智能生成內(nèi)容（AIGC）算法不斷創(chuàng)新以及多模態(tài)AI日益主流化，以ChatGPT為代表的AIGC技術(shù)加速成為AI領(lǐng)域的最新發(fā)展方向，推動AI迎來下一個大發(fā)展、大繁榮的時代，將對經(jīng)濟社會發(fā)展產(chǎn)生重大的影響。

AIGC 技術(shù)的定義及背景

AIGC（Artificial Inteligence Generated Content），指的是通過人工智能技術(shù)自動生成內(nèi)容的生產(chǎn)方式。通過訓(xùn)練模型來生成新的、與訓(xùn)練數(shù)據(jù)相似的內(nèi)容。與傳統(tǒng)類型的AI主要關(guān)注識別和預(yù)測現(xiàn)有數(shù)據(jù)的模式不同，AIGC著重于創(chuàng)造新的、有創(chuàng)意的數(shù)據(jù)，其關(guān)鍵原理在于學(xué)習(xí)和理解數(shù)據(jù)的分布，進而生成具有相似特征的新數(shù)據(jù)，在圖像、文本、音頻、視頻等多種領(lǐng)域都有廣泛的應(yīng)用。AIGC目前最引人注目的應(yīng)用當(dāng)屬ChatGPT。ChatGPT是基于OpenAI公司的大型語言模型GPT-3.5訓(xùn)練、調(diào)試、優(yōu)化的聊天機器人應(yīng)用，同一個AI模型可以處理各種各樣的文字和推理任務(wù)。ChatGPT發(fā)布僅兩個月即獲得1億月活用戶，超越了歷史上所有互聯(lián)網(wǎng)消費者應(yīng)用軟件的用戶增長速度。以大型語言模型、圖像生成模型為代表的AIGC技術(shù)，成為新一代人工智能的平臺型技術(shù)，助力不同行業(yè)實現(xiàn)價值躍升。

AIGC大爆發(fā)的背后，普遍認為三個領(lǐng)域的AI技術(shù)的發(fā)展為其提供了肥沃的土壤，分別是生成算法、預(yù)訓(xùn)練模型和多模態(tài)技術(shù)。

第一，隨著各種生成算法的不斷創(chuàng)新突破，AI現(xiàn)在已經(jīng)可以生成文字、代碼、圖像、語音、視頻物體等各種類型的內(nèi)容和數(shù)據(jù)。AIGC與過去最顯著的區(qū)別是從分析式AI（Analytical AI）發(fā)展為生成式AI（Generative AI）。分析式AI模型是根據(jù)已有數(shù)據(jù)進行分析、判斷、預(yù)測，最典型的應(yīng)用之一是內(nèi)容智能推薦；生成式AI模型則是學(xué)習(xí)已有數(shù)據(jù)后進行演繹、生成創(chuàng)造全新內(nèi)容。

第二，預(yù)訓(xùn)練模型，也就是我們常說的大模型，引發(fā)了AIGC技術(shù)能力的質(zhì)變。在過去，研究人員需要針對每一個類型的任務(wù)單獨訓(xùn)練AI模型，訓(xùn)練好的模型只能從事特定任務(wù)，不具有通用性。而預(yù)訓(xùn)練的大模型技術(shù)顯著提升了AIGC模型的通用化能力和工業(yè)化水平，讓AIGC模型成為自動化內(nèi)容生產(chǎn)的“工廠”和“流水線”。生成式AI模型，包括ChatGPT、GPT-4等大語言模型（Large Language Models，LLM）和Midjourney、Stable Diffusion等圖像生成模型，又被稱為基礎(chǔ)模型（Foundation Models），其作為基于種類豐富的海量數(shù)據(jù)預(yù)訓(xùn)練的深度學(xué)習(xí)算法，展現(xiàn)出強大的、更加泛化的語言理解和內(nèi)容生成能力。

以大型語言模型（LLM）為例，經(jīng)過海量的互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)的訓(xùn)練，語言模型的參數(shù)可以達到萬億甚至百萬億級別。這大大增強了語言模型的生成能力，同一個語言模型可以高質(zhì)量地完成各種各樣的文字和推理任務(wù)，例如作詩、寫文章、講故事、寫代碼、提供專業(yè)知識等等。因此，大模型已經(jīng)成為了各大企業(yè)競相追逐的AI方向。

第三，多模態(tài)AI技術(shù)的發(fā)展。多模態(tài)技術(shù)讓AIGC模型可以跨模態(tài)地去生成各種類型的內(nèi)容，比如把文字轉(zhuǎn)化為圖片、視頻等等。進一步增強了AIGC模型的通用能力。[1]

以下是AIGC領(lǐng)域的一些基本技術(shù)：

1）生成對抗網(wǎng)絡(luò)（GAN, Generative Adversarial Networks）：GAN是由Ian Goodfellow等人于2014年提出的一種生成式模型。它由生成器（Generator）和判別器（Discriminator）兩部分組成。生成器負責(zé)生成新的數(shù)據(jù)，判別器負責(zé)判斷生成數(shù)據(jù)與真實數(shù)據(jù)的相似程度。通過不斷的訓(xùn)練，生成器能夠生成越來越逼真的數(shù)據(jù)。

2）變分自編碼器（VAE, Variational Autoencoders）：VAE是一種基于概率生成模型的生成式方法，它通過編碼器（Encoder）和解碼器（Decoder）兩部分來實現(xiàn)數(shù)據(jù)的生成。編碼器負責(zé)將輸入數(shù)據(jù)映射到潛在空間中的一個分布，解碼器負責(zé)從潛在空間中的分布采樣數(shù)據(jù)并生成新的數(shù)據(jù)。

3）循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN, Recurrent Neural Networks）：RNN是一種用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。RNN具有記憶功能，能夠捕捉序列數(shù)據(jù)中的時序信息。在生成式人工智能中，RNN可以用于生成文本、音樂等序列數(shù)據(jù)。

4）Transformer模型：Transformer是一種基于自注意力（Self-Attention）機制的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，它在自然語言處理領(lǐng)域取得了顯著的成果。Transformer模型可以用于生成式任務(wù)，如文本生成、機器翻譯等。

其他相關(guān)技術(shù)：除了上述技術(shù)外，還有一些其他的生成式模型和技術(shù)，如PixelRNN、PixelCNN、WaveNet等。這些技術(shù)在圖像和音頻生成等領(lǐng)域也取得了一定的成果。

大語言模型等生成式AI技術(shù)帶來了新的AI發(fā)展范式，其應(yīng)用前景十分廣闊。。對于大眾而言，生成式AI意味著新的創(chuàng)造力工具，將在更大程度上解放個體的創(chuàng)造力和創(chuàng)意生產(chǎn)。除此之外，AIGC還將改變獲取信息的主要方式。ChatGPT在尋找答案、解決問題的效率上已經(jīng)部分的超越了如今的搜索引擎，ChatGPT或許在未來會改變我們獲取信息、輸出內(nèi)容的方式，AIGC有望成為數(shù)字經(jīng)濟時代驅(qū)動需求爆發(fā)的殺手級應(yīng)用。

比爾蓋茨將人工智能的發(fā)展和微處理器、個人電腦、互聯(lián)網(wǎng)以及智能手機相提并論，認為其將重塑所有的行業(yè)。微軟公司首席執(zhí)行官Satya Nadella認為，ChatGPT是知識工作者的“工業(yè)革命”，斷言人工智能將徹底改變所有類型的軟件服務(wù)。目前，搜索、辦公、在線會議等諸多軟件服務(wù)都已融入了生成式AI的能力。OpenAI公司首席執(zhí)行官Sam Altman稱，多模態(tài)的AI大模型有望成為繼移動互聯(lián)網(wǎng)之后的新的技術(shù)平臺。這意味著，開發(fā)人員基于預(yù)訓(xùn)練的AI大模型，可以通過模型微調(diào)快速開發(fā)出垂直領(lǐng)域的模型應(yīng)用并予以部署使用，人工智能的革命性正在于此。[2]

AIGC的應(yīng)用領(lǐng)域及案例

1.文本生成領(lǐng)域

自然語言生成是一種AIGC技術(shù)，可以生成逼真的自然語言文本。生成式AI可以編寫文章、故事、詩歌等，為作家和內(nèi)容創(chuàng)作者提供新的創(chuàng)作方式。同時，它還可以用于智能對話系統(tǒng)，提高用戶與AI的交流體驗。

ChatGPT (全名:Chat Generative Pre-trained Transformer對話生成式預(yù)訓(xùn)練變換模型)是由OpenAI開發(fā)的一個人工智能聊天機器人程序，于2022年11月推出。該程序使用基于GPT-3.5架構(gòu)的大型語言模型并通過強化學(xué)習(xí)進行訓(xùn)練。ChatGPT目前仍以文字方式互動，可以解決包括自動文本生成、自動問答、自動摘要等在內(nèi)的多種任務(wù)。

Jasper已經(jīng)開始為谷歌、臉書等知名公司提供文案AIGC的商業(yè)服務(wù)。

2.圖像生成領(lǐng)域

圖像生成是AIGC技術(shù)中最為普遍的應(yīng)用之一。Stability AI發(fā)布了穩(wěn)定擴散（Stable Diffusion）模型，通過開源快速迭代大幅降低了AI繪畫的技術(shù)使用門檻，消費者可以通過訂閱旗下產(chǎn)品DreamStudio來輸入文本提示詞生成繪畫作品，產(chǎn)品已經(jīng)吸引全球50多個國家超過100萬的用戶注冊。

3.音視頻創(chuàng)作與生成

AIGC技術(shù)可以用于語音合成，即生成逼真的語音。例如，通過學(xué)習(xí)人類的語音特征，生成式模型可以生成逼真的語音，從而用于虛擬助手、語音翻譯等應(yīng)用。AIGC技術(shù)可以用于生成音樂。生成式AI可以根據(jù)給定的風(fēng)格和旋律創(chuàng)作新的音樂作品，為音樂家提供新的創(chuàng)作靈感。這種技術(shù)還可以幫助音樂家更有效地探索音樂風(fēng)格和元素的組合。這些曲目可以用于音樂創(chuàng)作、廣告音樂等應(yīng)用。

4.電影與游戲

生成式AI可以用于生成虛擬角色、場景和動畫，為電影和游戲制作帶來更多的創(chuàng)意可能。此外，AI還可以根據(jù)用戶的喜好和行為生成個性化的故事情節(jié)和游戲體驗。

2023年3月，騰訊AI Lab在GDC上提出了3D虛擬場景自動生成解決方案，能夠幫助游戲開發(fā)者以更低成本創(chuàng)造風(fēng)格多樣、貼近現(xiàn)實的虛擬城市，提升3D虛擬場景的生產(chǎn)效率。其中重點分享了城市布局生成、建筑外觀生成和室內(nèi)映射生成三大能力。整個路網(wǎng)生成和微調(diào)過程僅需要不到30分鐘，相比手動設(shè)計效率提升近100倍；而單個獨特建筑的制作時間也降低至17.5分鐘，大大提升了場景制作的效率。

5.科研與創(chuàng)新

生成式AI可以在化學(xué)、生物學(xué)、物理學(xué)等領(lǐng)域探索新的理論和實驗方法，幫助科學(xué)家發(fā)現(xiàn)新的知識。此外，生成式AI還可以用于藥物設(shè)計、材料科學(xué)等領(lǐng)域，加速技術(shù)創(chuàng)新和發(fā)展。

6.代碼生成領(lǐng)域

經(jīng)過自然語言和數(shù)十億行代碼的訓(xùn)練。部分生成式AI模型精通十幾種語言，包括Python、JavaScript、Go、Perl、PHP、Ruby等等。能夠根據(jù)自然語言的指令生成相應(yīng)的代碼。

GitHub Copilot是一個GitHub和OpenAI合作產(chǎn)生的AI代碼生成工具，可根據(jù)命名或者正在編輯的代碼上下文為開發(fā)者提供代碼建議。官方介紹其已經(jīng)接受了來自GitHub上公開可用存儲庫的數(shù)十億行代碼的訓(xùn)練，支持大多數(shù)編程語言。

騰訊云新一代AI代碼助手CODING Wise：將大模型AI能力賦能給開發(fā)者，增強開發(fā)體驗，提升開發(fā)效率。CODING Wise支持多種編程語言、主流開發(fā)框架和常用IDE。具備代碼補全、生成單元測試、代碼糾錯等能力，能輔助開發(fā)者加速開發(fā)過程，提升開發(fā)質(zhì)量。CODING Wise能力覆蓋溝通、編碼、評審等關(guān)鍵環(huán)節(jié)，包括：溝通環(huán)節(jié)：通過對話方式，進行上下文推理給出代碼回復(fù)，幫助開發(fā)者理解代碼邏輯；研發(fā)環(huán)節(jié)：根據(jù)當(dāng)前代碼類型、代碼上下文等信息進行代碼補全；能根據(jù)代碼反向生成注釋和單元測試代碼；排錯環(huán)節(jié)：進行代碼查錯、定位問題并輔助生成建議；隨后給出建議代碼、替換錯誤的代碼塊；評審環(huán)節(jié)：輔助開發(fā)者生成代碼提交信息，也可以輔助評審者生成評審建議；調(diào)試環(huán)節(jié)：可通過自然語言指令實現(xiàn)快速的代碼修改和調(diào)優(yōu)。

7.內(nèi)容理解與分析

騰訊會議AI小助手：只需通過簡單自然的會議指令，基于對會議內(nèi)容的理解，就可以完成信息提娶內(nèi)容分析、會管會控等多種復(fù)雜任務(wù)。會后可以自動生成智能總結(jié)摘要，還能基于智能錄制的能力，幫助用戶高效回顧，提升用戶開會和信息流轉(zhuǎn)效率。

彭博社于近期發(fā)布了為金融界打造的大語言模型（LLM)BloombergGPT。它使用了類似于ChatGPT的技術(shù)原理，即使用Transformer模型和大規(guī)模預(yù)訓(xùn)練技術(shù)來實現(xiàn)自然語言處理，擁有500億參數(shù)。BloombergGPT的預(yù)訓(xùn)練數(shù)據(jù)集主要來自彭博社的新聞和金融數(shù)據(jù)，構(gòu)建了一個3630億個標(biāo)簽的數(shù)據(jù)集，支持金融行業(yè)的各種任務(wù)。

BloombergGPT的目標(biāo)是幫助用戶更好地理解和分析金融數(shù)據(jù)和新聞。它可以根據(jù)用戶的輸入，生成與金融相關(guān)的自然語言文本，例如新聞?wù)�、市場分析、投資建議等。它的應(yīng)用場景主要包括金融分析、投資咨詢、資產(chǎn)管理等領(lǐng)域。例如，在資產(chǎn)管理領(lǐng)域，它可以根據(jù)歷史數(shù)據(jù)和市場情況，預(yù)測未來的股票價格和交易量，為投資經(jīng)理提供投資建議和決策支持。在財經(jīng)新聞領(lǐng)域，BloombergGPT可以根據(jù)市場數(shù)據(jù)和事件，自動生成新聞?wù)头治鰣蟾妫瑸樽x者提供及時、準(zhǔn)確的金融信息。

8.AI智能體（AI Agent）

AI智能體（AI Agent）被認為是OpenAI的下一個方向。從今年3月AutoGPT推出后，Generative Agent、GPT-Engineer、BabyAGI項目的爆發(fā)將LLM的敘事代入了新的階段，從“超級大腦”到真正有可能成為“全能助手”。

2023年4月，一個名叫AutoGPT的開源項目在Github上發(fā)布了，截止至2023年4月16日，該項目已經(jīng)獲得70K+星。AutoGPT是一個由GPT-4驅(qū)動的可以自主實現(xiàn)用戶設(shè)定的任何目標(biāo)的開源應(yīng)用程序。當(dāng)用戶提出一個需求或任務(wù)時，AutoGPT會自主分析問題，給出具體的執(zhí)行計劃并開始執(zhí)行，直到完成用戶提出的要求。

Auto-GPT的出現(xiàn)意味著AGI正逐漸向更加自主化和智能化的方向發(fā)展。首先，它可以使人工智能應(yīng)用更加普及和便利�，F(xiàn)Auto-GPT能夠自主分析和執(zhí)行任務(wù)，大大降低了應(yīng)用的門檻和成本，讓更多的人能夠輕松地使用人工智能技術(shù)來解決問題。其次，Auto-GPT能夠提高人工智能應(yīng)用的效率和精度。傳統(tǒng)的人工智能模型需要從頭到尾地執(zhí)行整個任務(wù)，這會浪費很多時間和計算資源，并且容易出現(xiàn)錯誤。AutoGPT可以自主分析任務(wù)，并且提出具體的執(zhí)行計劃，這樣可以大大縮短執(zhí)行時間，并且減少錯誤率。[3]

盡管Auto-GPT還在非常早期的實驗階段，但其開創(chuàng)了一種全新的AI交互方式，即由機器主動提出任務(wù)和計劃，人類只需要給出任務(wù)目標(biāo)。這種交互方式不僅提高了AI智能體的自主性和靈活性，同時也拓展了人與AI之間的交互方式，打破了人類對于人工智能的“控制”想象，使得人工智能技術(shù)能從“工具”走向人類的“伙伴”。

除了獨立的AI Agent之外，未來還可能出現(xiàn)由多個AI智能體組成的“虛擬智能社會”。GenerativeAgents在由斯坦福大學(xué)和谷歌聯(lián)合發(fā)表的一篇名叫《GenerativeAgents:InterativeSimulacra of Human Behavior》論文中，研究者們成功地構(gòu)建了一個“虛擬小鎮(zhèn)”，其中的25個智能體在小鎮(zhèn)上生存。借助AIGC，其中的NPC具備了可信人類行為，并對周圍環(huán)境變化做出適當(dāng)?shù)姆磻?yīng)，使得可以用現(xiàn)實社會現(xiàn)象去填充賽博空間。

國外商業(yè)咨詢機構(gòu)預(yù)測，到2030年AIGC和生成式AI市場規(guī)模將達到1100億美元。正如“互聯(lián)網(wǎng)+”一樣，“AIGC+”有望滲透到各行各業(yè)，在教育、醫(yī)療、金融、政務(wù)、制造、機器人、數(shù)字人、元宇宙、廣告營銷、電子商務(wù)、市場和戰(zhàn)略咨詢等眾多領(lǐng)域帶來新的應(yīng)用形式，深度賦能千行百業(yè)，助力高質(zhì)量發(fā)展。

AIGC的產(chǎn)業(yè)應(yīng)用中的挑戰(zhàn)與問題

1.可解釋性與可靠性

生成式人工智能的可解釋性問題是指生成式人工智能（Generative Artificial Intelligence）所產(chǎn)生的結(jié)果難以解釋或理解。生成式人工智能是一種基于深度學(xué)習(xí)的人工智能技術(shù)，其通過學(xué)習(xí)大量數(shù)據(jù)來生成新的數(shù)據(jù)或圖像。但是，生成式人工智能所產(chǎn)生的結(jié)果通常很難理解和解釋，因為其內(nèi)部的運作過程非常復(fù)雜，而且很難直觀地描述。

這種可解釋性問題對于許多應(yīng)用場景都非常重要，比如醫(yī)療診斷、金融風(fēng)控、自動駕駛等領(lǐng)域。在這些領(lǐng)域中，人們需要了解生成式人工智能的內(nèi)部運作過程，以便更好地理解其產(chǎn)生的結(jié)果，并且能夠?qū)ζ溥M行調(diào)整和優(yōu)化。

解決生成式人工智能的可解釋性問題是當(dāng)前人工智能研究的一個重要方向，研究人員正在探索各種方法來使生成式人工智能的結(jié)果更加可解釋和可理解。這些方法包括可視化技術(shù)、可解釋性模型、對抗性樣本等等。

2.AI大模型的價值對齊問題

所謂人工智能的價值對齊（AI Alignment），就是讓人工智能系統(tǒng)的行為符合人類的目標(biāo)、偏好或倫理原則。價值對齊是AI安全研究的一個核心議題。在理論上，如果一個強大的AI系統(tǒng)所追求的目標(biāo)和人類的真實目的意圖和價值不一致，就有可能給人類帶來災(zāi)難性后果。就目前而言，大語言模型的價值對齊問題主要表現(xiàn)為，如何在模型層面讓人工智能理解人類的價值和倫理原則，盡可能地防止模型的有害輸出，從而打造出更加有用同時更加符合人類價值觀的AI模型。在這方面，RLHF是一個有效的方法，通過小量的數(shù)據(jù)就可能實現(xiàn)比較好的效果。簡言之，RLHF要求人類專家對模型輸出內(nèi)容的適當(dāng)性進行評估，并基于人類提供的反饋對模型進行優(yōu)化。其目標(biāo)是減少模型在未來生產(chǎn)有害內(nèi)容的可能性。實際上，RLHF算法不僅是確保AI模型具有正確價值觀的關(guān)鍵所在，而且對于生成式AI領(lǐng)域的長期健康可持續(xù)發(fā)展也十分重要。[4]

3.塑造負責(zé)任的AI創(chuàng)新生態(tài)

大語言模型等生成式AI的進展，在讓人們看到AGI曙光的同時，也帶來更加復(fù)雜難控的風(fēng)險，包括對人類未來生存的潛在風(fēng)險。AI時代需要成為一個負責(zé)任創(chuàng)新的時代，而非另一個“快速行動、打破陳規(guī)”的時代。人們需要建立合理審慎的AI倫理和治理框架，塑造負責(zé)任的AI生態(tài)，打造人機和諧共生的未來。生成式AI領(lǐng)域的創(chuàng)新主體則需要積極探索技術(shù)上和管理上的安全保障措施，為生成式AI的健康發(fā)展和安全可控應(yīng)用構(gòu)筑起防護欄。

在科技向善理念之下，人工智能時代不應(yīng)成為另一個“快速行動、打破陳規(guī)”的時代（即先快速把產(chǎn)品做出來，事后再通過修補、補救等方式解決其社會問題），而應(yīng)成為一個負責(zé)任創(chuàng)新的時代，通過建立合理審慎的AI倫理和治理框架，塑造負責(zé)任的AI生態(tài)，打造人機和諧共生的未來。[5]

AIGC在產(chǎn)業(yè)應(yīng)用中的未來趨勢

1.多模態(tài)帶來創(chuàng)新應(yīng)用藍海

多模態(tài)AI是指能夠處理和理解多種類型信息的人工智能，如文本、圖像、音頻、視頻等。這種AI不僅能夠處理單一數(shù)據(jù)類型的任務(wù)，而且可以在不同數(shù)據(jù)類型間建立聯(lián)系和融合，從而實現(xiàn)一個綜合、全面的理解多模態(tài)。AI能夠?qū)Ω鞣N不同類型的數(shù)據(jù)進行關(guān)聯(lián)分析，為解決復(fù)雜問題提供支持。

在多模態(tài)技術(shù)發(fā)展初期，不同模態(tài)的AI開始進行集成，比如圖像識別和自然語言處理技術(shù)的結(jié)合。除了ImageBind打通六種模態(tài)外，多數(shù)仍在探索文本與圖像的融合，但進展飛快。UniDiffuser:除了單向文生圖，還能實現(xiàn)圖生問、圖文聯(lián)合生產(chǎn)、無條件圖文生成等多種功能

OpenAI開發(fā)了許多多模態(tài)AI案例如DALL-E、CLIP等，可以識別圖像中的對象，同時生成與圖像相關(guān)的描述性文本，或由文本指導(dǎo)生成有關(guān)物品的新圖像。

隨著多模態(tài)技術(shù)的進展，多模態(tài)AI在理解和處理不同類型數(shù)據(jù)時能夠?qū)崿F(xiàn)更高程度的融合。算法和模型可以在不同數(shù)據(jù)類型之間建立聯(lián)系，提取跨模態(tài)的共享信息。這使得AI能夠深度理解和解決復(fù)雜問題。未來在諸多創(chuàng)新領(lǐng)域，多模態(tài)技術(shù)的發(fā)展將帶來創(chuàng)新應(yīng)用的藍海。[6]

2.生成式AI帶來更貼近人的交互方式

從使用鍵盤-鼠標(biāo)等方式跟電腦交互，到使用手指滑動屏幕跟手機交互，再到人們用喚醒詞跟智能音箱等交互，人機交互從識別機器指令，到識別人的動作，語音，不斷朝著更貼近人的習(xí)慣的交互方式演進。生成式AI的發(fā)展，讓人類有史以來第一次有機會用自然語言的方式，來跟機器對話，而機器也借由大模型擁有了極強的理解人類語言的能力，有望帶來一場全新的交互變革。正如歷次交互變革帶來從終端、到連接，到各類應(yīng)用的顛覆式變革，生成式AI也必將帶來產(chǎn)業(yè)鏈、價值鏈和生態(tài)的重塑。

生成式AI的技術(shù)突破，帶來了大模型理解能力的大幅提升。大模型可以更好地理解人類表達的含義，并生成更符合人類價值觀的回答。其技術(shù)成熟度已經(jīng)可以在很多場景下達到可用，甚至好用的程度。在科技公司不斷投入對齊工作的進展中，大模型的“幻覺”被持續(xù)降低，從而讓人類第一次有可能完全以自然語言對話的方式來跟機器交流。這也是人去發(fā)掘機器智能最簡單直接，最有效的交互方式。

在這個背景下，所有APP都可以用生成式AI重做一遍，并可能產(chǎn)生原生AI APP。一方面，當(dāng)前的所有軟件，在后端不變的情況下，前端的交互可以直接換成自然語言對話的方式，這樣讓更多的APP擁有了智能對話的能力，給用戶帶來全新的體驗�，F(xiàn)在已經(jīng)有很多應(yīng)用軟件和硬件，開始往這個方向升級。另一方面，未來更具市場想象力的，是原生的AI APP，例如未來很可能出現(xiàn)一個萬能的個人助理，他可以回答人的各種問題，幫人出主意，甚至做會議預(yù)定、文章撰寫、藝術(shù)創(chuàng)作等更多的工作。“機器生成+人腦篩選”在可預(yù)見的將來，會成為人機協(xié)作的重要方式。[7]

結(jié)論

綜上所述，生成式人工智能在發(fā)展演進過程中取得了顯著的成果，為人類社會的進步和發(fā)展提供了強大的技術(shù)支持。從深度學(xué)習(xí)、自然語言處理等技術(shù)的發(fā)展，再到生成式人工智能在各個產(chǎn)業(yè)中的應(yīng)用，都展示了其強大的潛力和價值。然而，伴隨著技術(shù)的不斷創(chuàng)新和突破，生成式人工智能在應(yīng)用過程中也暴露出了一些問題，如數(shù)據(jù)安全、隱私保護、倫理等方面的挑戰(zhàn)。因此，未來的研究應(yīng)關(guān)注如何在保障技術(shù)創(chuàng)新的同時，解決這些潛在問題，以實現(xiàn)生成式人工智能的可持續(xù)發(fā)展。此外，各國政府、企業(yè)、研究機構(gòu)等應(yīng)加強合作，共同推動生成式人工智能的研究與應(yīng)用，以實現(xiàn)人類社會的共同繁榮與進步。

本文首發(fā)于《人工智能》2023年第四期