展會信息港展會大全

生成式人工智能:發(fā)展演進及產(chǎn)業(yè)機遇
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-08-25 09:42:17   瀏覽:15688次  

導(dǎo)讀:徐思彥 騰訊研究院高級研究員 當(dāng)OpenAI在2022年11月30日發(fā)布ChatGPT的時候,沒有人會意識到,新一代人工智能浪潮將在接下來的6個月給人類社會帶來一場眩暈式的變革。自2010年代初深度學(xué)習(xí)問世以來,人工智能進入到第三次高潮。而2017年Transformer算法將深度...

徐思彥騰訊研究院高級研究員

當(dāng)OpenAI在2022年11月30日發(fā)布ChatGPT的時候,沒有人會意識到,新一代人工智能浪潮將在接下來的6個月給人類社會帶來一場眩暈式的變革。自2010年代初深度學(xué)習(xí)問世以來,人工智能進入到第三次高潮。而2017年Transformer算法將深度學(xué)習(xí)推向了大模型時代。OpenAI基于Transformer的Decoder部分建立起來了GPT家族。

ChatGPT一經(jīng)面世便風(fēng)靡全球,人們驚訝于其能夠進行連貫、有深度對話的同時,也驚異地發(fā)現(xiàn)了它涌現(xiàn)了推理、思維鏈等體現(xiàn)智能的能力。伴隨AI預(yù)訓(xùn)練大模型持續(xù)發(fā)展、人工智能生成內(nèi)容(AIGC)算法不斷創(chuàng)新以及多模態(tài)AI日益主流化,以ChatGPT為代表的AIGC技術(shù)加速成為AI領(lǐng)域的最新發(fā)展方向,推動AI迎來下一個大發(fā)展、大繁榮的時代,將對經(jīng)濟社會發(fā)展產(chǎn)生重大的影響。

AIGC 技術(shù)的定義及背景

AIGC(Artificial Inteligence Generated Content),指的是通過人工智能技術(shù)自動生成內(nèi)容的生產(chǎn)方式。通過訓(xùn)練模型來生成新的、與訓(xùn)練數(shù)據(jù)相似的內(nèi)容。與傳統(tǒng)類型的AI主要關(guān)注識別和預(yù)測現(xiàn)有數(shù)據(jù)的模式不同,AIGC著重于創(chuàng)造新的、有創(chuàng)意的數(shù)據(jù),其關(guān)鍵原理在于學(xué)習(xí)和理解數(shù)據(jù)的分布,進而生成具有相似特征的新數(shù)據(jù),在圖像、文本、音頻、視頻等多種領(lǐng)域都有廣泛的應(yīng)用。AIGC目前最引人注目的應(yīng)用當(dāng)屬ChatGPT。ChatGPT是基于OpenAI公司的大型語言模型GPT-3.5訓(xùn)練、調(diào)試、優(yōu)化的聊天機器人應(yīng)用,同一個AI模型可以處理各種各樣的文字和推理任務(wù)。ChatGPT發(fā)布僅兩個月即獲得1億月活用戶,超越了歷史上所有互聯(lián)網(wǎng)消費者應(yīng)用軟件的用戶增長速度。以大型語言模型、圖像生成模型為代表的AIGC技術(shù),成為新一代人工智能的平臺型技術(shù),助力不同行業(yè)實現(xiàn)價值躍升。

AIGC大爆發(fā)的背后,普遍認為三個領(lǐng)域的AI技術(shù)的發(fā)展為其提供了肥沃的土壤,分別是生成算法、預(yù)訓(xùn)練模型和多模態(tài)技術(shù)。

第一,隨著各種生成算法的不斷創(chuàng)新突破,AI現(xiàn)在已經(jīng)可以生成文字、代碼、圖像、語音、視頻物體等各種類型的內(nèi)容和數(shù)據(jù)。AIGC與過去最顯著的區(qū)別是從分析式AI(Analytical AI)發(fā)展為生成式AI(Generative AI)。分析式AI模型是根據(jù)已有數(shù)據(jù)進行分析、判斷、預(yù)測,最典型的應(yīng)用之一是內(nèi)容智能推薦;生成式AI模型則是學(xué)習(xí)已有數(shù)據(jù)后進行演繹、生成創(chuàng)造全新內(nèi)容。

第二,預(yù)訓(xùn)練模型,也就是我們常說的大模型,引發(fā)了AIGC技術(shù)能力的質(zhì)變。在過去,研究人員需要針對每一個類型的任務(wù)單獨訓(xùn)練AI模型,訓(xùn)練好的模型只能從事特定任務(wù),不具有通用性。而預(yù)訓(xùn)練的大模型技術(shù)顯著提升了AIGC模型的通用化能力和工業(yè)化水平,讓AIGC模型成為自動化內(nèi)容生產(chǎn)的“工廠”和“流水線”。生成式AI模型,包括ChatGPT、GPT-4等大語言模型(Large Language Models,LLM)和Midjourney、Stable Diffusion等圖像生成模型,又被稱為基礎(chǔ)模型(Foundation Models),其作為基于種類豐富的海量數(shù)據(jù)預(yù)訓(xùn)練的深度學(xué)習(xí)算法,展現(xiàn)出強大的、更加泛化的語言理解和內(nèi)容生成能力。

以大型語言模型(LLM)為例,經(jīng)過海量的互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)的訓(xùn)練,語言模型的參數(shù)可以達到萬億甚至百萬億級別。這大大增強了語言模型的生成能力,同一個語言模型可以高質(zhì)量地完成各種各樣的文字和推理任務(wù),例如作詩、寫文章、講故事、寫代碼、提供專業(yè)知識等等。因此,大模型已經(jīng)成為了各大企業(yè)競相追逐的AI方向。

第三,多模態(tài)AI技術(shù)的發(fā)展。多模態(tài)技術(shù)讓AIGC模型可以跨模態(tài)地去生成各種類型的內(nèi)容,比如把文字轉(zhuǎn)化為圖片、視頻等等。進一步增強了AIGC模型的通用能力。[1]

以下是AIGC領(lǐng)域的一些基本技術(shù):

1)生成對抗網(wǎng)絡(luò)(GAN, Generative Adversarial Networks):GAN是由Ian Goodfellow等人于2014年提出的一種生成式模型。它由生成器(Generator)和判別器(Discriminator)兩部分組成。生成器負責(zé)生成新的數(shù)據(jù),判別器負責(zé)判斷生成數(shù)據(jù)與真實數(shù)據(jù)的相似程度。通過不斷的訓(xùn)練,生成器能夠生成越來越逼真的數(shù)據(jù)。

2)變分自編碼器(VAE, Variational Autoencoders):VAE是一種基于概率生成模型的生成式方法,它通過編碼器(Encoder)和解碼器(Decoder)兩部分來實現(xiàn)數(shù)據(jù)的生成。編碼器負責(zé)將輸入數(shù)據(jù)映射到潛在空間中的一個分布,解碼器負責(zé)從潛在空間中的分布采樣數(shù)據(jù)并生成新的數(shù)據(jù)。

3)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN, Recurrent Neural Networks):RNN是一種用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。RNN具有記憶功能,能夠捕捉序列數(shù)據(jù)中的時序信息。在生成式人工智能中,RNN可以用于生成文本、音樂等序列數(shù)據(jù)。

4)Transformer模型:Transformer是一種基于自注意力(Self-Attention)機制的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),它在自然語言處理領(lǐng)域取得了顯著的成果。Transformer模型可以用于生成式任務(wù),如文本生成、機器翻譯等。

其他相關(guān)技術(shù):除了上述技術(shù)外,還有一些其他的生成式模型和技術(shù),如PixelRNN、PixelCNN、WaveNet等。這些技術(shù)在圖像和音頻生成等領(lǐng)域也取得了一定的成果。

大語言模型等生成式AI技術(shù)帶來了新的AI發(fā)展范式,其應(yīng)用前景十分廣闊。。對于大眾而言,生成式AI意味著新的創(chuàng)造力工具,將在更大程度上解放個體的創(chuàng)造力和創(chuàng)意生產(chǎn)。除此之外,AIGC還將改變獲取信息的主要方式。ChatGPT在尋找答案、解決問題的效率上已經(jīng)部分的超越了如今的搜索引擎,ChatGPT或許在未來會改變我們獲取信息、輸出內(nèi)容的方式,AIGC有望成為數(shù)字經(jīng)濟時代驅(qū)動需求爆發(fā)的殺手級應(yīng)用。

比爾蓋茨將人工智能的發(fā)展和微處理器、個人電腦、互聯(lián)網(wǎng)以及智能手機相提并論,認為其將重塑所有的行業(yè)。微軟公司首席執(zhí)行官Satya Nadella認為,ChatGPT是知識工作者的“工業(yè)革命”,斷言人工智能將徹底改變所有類型的軟件服務(wù)。目前,搜索、辦公、在線會議等諸多軟件服務(wù)都已融入了生成式AI的能力。OpenAI公司首席執(zhí)行官Sam Altman稱,多模態(tài)的AI大模型有望成為繼移動互聯(lián)網(wǎng)之后的新的技術(shù)平臺。這意味著,開發(fā)人員基于預(yù)訓(xùn)練的AI大模型,可以通過模型微調(diào)快速開發(fā)出垂直領(lǐng)域的模型應(yīng)用并予以部署使用,人工智能的革命性正在于此。[2]

AIGC的應(yīng)用領(lǐng)域及案例

1.文本生成領(lǐng)域

自然語言生成是一種AIGC技術(shù),可以生成逼真的自然語言文本。生成式AI可以編寫文章、故事、詩歌等,為作家和內(nèi)容創(chuàng)作者提供新的創(chuàng)作方式。同時,它還可以用于智能對話系統(tǒng),提高用戶與AI的交流體驗。

ChatGPT (全名:Chat Generative Pre-trained Transformer對話生成式預(yù)訓(xùn)練變換模型)是由OpenAI開發(fā)的一個人工 智能聊天機器人程序,于2022年11月推出。該程序使用基于GPT-3.5架構(gòu)的大型語言模型并通過強化學(xué)習(xí)進行訓(xùn)練。ChatGPT目前仍以文字方式互動,可以解決包括自動文本生成、自動問答、自動摘要等在內(nèi)的多種任務(wù)。

Jasper已經(jīng)開始為谷歌、臉書等知名公司提供文案AIGC的商業(yè)服務(wù)。

2.圖像生成領(lǐng)域

圖像生成是AIGC技術(shù)中最為普遍的應(yīng)用之一。Stability AI發(fā)布了穩(wěn)定擴散(Stable Diffusion)模型,通過開源快速迭代大幅降低了AI繪畫的技術(shù)使用門檻,消費者可以通過訂閱旗下產(chǎn)品DreamStudio來輸入文本提示詞生成繪畫作品,產(chǎn)品已經(jīng)吸引全球50多個國家超過100萬的用戶注冊。

3.音視頻創(chuàng)作與生成

AIGC技術(shù)可以用于語音合成,即生成逼真的語音。例如,通過學(xué)習(xí)人類的語音特征,生成式模型可以生成逼真的語音,從而用于虛擬助手、語音翻譯等應(yīng)用。AIGC技術(shù)可以用于生成音樂。生成式AI可以根據(jù)給定的風(fēng)格和旋律創(chuàng)作新的音樂作品,為音樂家提供新的創(chuàng)作靈感。這種技術(shù)還可以幫助音樂家更有效地探索音樂風(fēng)格和元素的組合。這些曲目可以用于音樂創(chuàng)作、廣告音樂等應(yīng)用。

4.電影與游戲

生成式AI可以用于生成虛擬角色、場景和動畫,為電影和游戲制作帶來更多的創(chuàng)意可能。此外,AI還可以根據(jù)用戶的喜好和行為生成個性化的故事情節(jié)和游戲體驗。

2023年3月,騰訊AI Lab在GDC上提出了3D虛擬場景自動生成解決方案,能夠幫助游戲開發(fā)者以更低成本創(chuàng)造風(fēng)格多樣、貼近現(xiàn)實的虛擬城市,提升3D虛擬場景的生產(chǎn)效率。其中重點分享了城市布局生成、建筑外觀生成和室內(nèi)映射生成三大能力。整個路網(wǎng)生成和微調(diào)過程僅需要不到30分鐘,相比手動設(shè)計效率提升近100倍;而單個獨特建筑的制作時間也降低至17.5分鐘,大大提升了場景制作的效率。

5.科研與創(chuàng)新

生成式AI可以在化學(xué)、生物學(xué)、物理學(xué)等領(lǐng)域探索新的理論和實驗方法,幫助科學(xué)家發(fā)現(xiàn)新的知識。此外,生成式AI還可以用于藥物設(shè)計、材料科學(xué)等領(lǐng)域,加速技術(shù)創(chuàng)新和發(fā)展。

6.代碼生成領(lǐng)域

經(jīng)過自然語言和數(shù)十億行代碼的訓(xùn)練。部分生成式AI模型精通十幾種語言,包括Python、JavaScript、Go、Perl、PHP、Ruby等等。能夠根據(jù)自然語言的指令生成相應(yīng)的代碼。

GitHub Copilot是一個GitHub和OpenAI合作產(chǎn)生的AI代碼生成工具,可根據(jù)命名或者正在編輯的代碼上下文為開發(fā)者提供代碼建議。官方介紹其已經(jīng)接受了來自GitHub上公開可用存儲庫的數(shù)十億行代碼的訓(xùn)練,支持大多數(shù)編程語言。

騰訊云新一代AI代碼助手CODING Wise:將大模型AI能力賦能給開發(fā)者,增強開發(fā)體驗,提升開發(fā)效率。CODING Wise支持多種編程語言、主流開發(fā)框架和常用IDE。具備代碼補全、生成單元測試、代碼糾錯等能力,能輔助開發(fā)者加速開發(fā)過程,提升開發(fā)質(zhì)量。CODING Wise能力覆蓋溝通、編碼、評審等關(guān)鍵環(huán)節(jié),包括:溝通環(huán)節(jié):通過對話方式,進行上下文推理給出代碼回復(fù),幫助開發(fā)者理解代碼邏輯;研發(fā)環(huán)節(jié):根據(jù)當(dāng)前代碼類型、代碼上下文等信息進行代碼補全;能根據(jù)代碼反向生成注釋和單元測試代碼;排錯環(huán)節(jié):進行代碼查錯、定位問題并輔助生成建議;隨后給出建議代碼、替換錯誤的代碼塊;評審環(huán)節(jié):輔助開發(fā)者生成代碼提交信息,也可以輔助評審者生成評審建議;調(diào)試環(huán)節(jié):可通過自然語言指令實現(xiàn)快速的代碼修改和調(diào)優(yōu)。

7.內(nèi)容理解與分析

騰訊會議AI小助手:只需通過簡單自然的會議指令,基于對會議內(nèi)容的理解,就可以完成信息提娶內(nèi)容分析、會管會控等多種復(fù)雜任務(wù)。會后可以自動生成智能總結(jié)摘要,還能基于智能錄制的能力,幫助用戶高效回顧,提升用戶開會和信息流轉(zhuǎn)效率。

彭博社于近期發(fā)布了為金融界打造的大語言模型(LLM)BloombergGPT。它使用了類似于ChatGPT的技術(shù)原理,即使用Transformer模型和大規(guī)模預(yù)訓(xùn)練技術(shù)來實現(xiàn)自然語言處理,擁有500億參數(shù)。BloombergGPT的預(yù)訓(xùn)練數(shù)據(jù)集主要來自彭博社的新聞和金融數(shù)據(jù),構(gòu)建了一個3630億個標(biāo)簽的數(shù)據(jù)集,支持金融行業(yè)的各種任務(wù)。

BloombergGPT的目標(biāo)是幫助用戶更好地理解和分析金融數(shù)據(jù)和新聞。它可以根據(jù)用戶的輸入,生成與金融相關(guān)的自然語言文本,例如新聞?wù)、市場分析、投資建議等。它的應(yīng)用場景主要包括金融分析、投資咨詢、資產(chǎn)管理等領(lǐng)域。例如,在資產(chǎn)管理領(lǐng)域,它可以根據(jù)歷史數(shù)據(jù)和市場情況,預(yù)測未來的股票價格和交易量,為投資經(jīng)理提供投資建議和決策支持。在財經(jīng)新聞領(lǐng)域,BloombergGPT可以根據(jù)市場數(shù)據(jù)和事件,自動生成新聞?wù)头治鰣蟾妫瑸樽x者提供及時、準(zhǔn)確的金融信息。

8.AI智能體(AI Agent)

AI智能體(AI Agent)被認為是OpenAI的下一個方向。從今年3月AutoGPT推出后,Generative Agent、GPT-Engineer、BabyAGI項目的爆發(fā)將LLM的敘事代入了新的階段,從“超級大腦”到真正有可能成為“全能助手”。

2023年4月,一個名叫AutoGPT的開源項目在Github上發(fā)布了,截止至2023年4月16日,該項目已經(jīng)獲得70K+星。AutoGPT是一個由GPT-4驅(qū)動的可以自主實現(xiàn)用戶設(shè)定的任何目標(biāo)的開源應(yīng)用程序。當(dāng)用戶提出一個需求或任務(wù)時,AutoGPT會自主分析問題,給出具體的執(zhí)行計劃并開始執(zhí)行,直到完成用戶提出的要求。

Auto-GPT的出現(xiàn)意味著AGI正逐漸向更加自主化和智能化的方向發(fā)展。首先,它可以使人工智能應(yīng)用更加普及和便利,F(xiàn)Auto-GPT能夠自主分析和執(zhí)行任務(wù),大大降低了應(yīng)用的門檻和成本,讓更多的人能夠輕松地使用人工智能技術(shù)來解決問題。其次,Auto-GPT能夠提高人工智能應(yīng)用的效率和精度。傳統(tǒng)的人工智能模型需要從頭到尾地執(zhí)行整個任務(wù),這會浪費很多時間和計算資源,并且容易出現(xiàn)錯誤。AutoGPT可以自主分析任務(wù),并且提出具體的執(zhí)行計劃,這樣可以大大縮短執(zhí)行時間,并且減少錯誤率。[3]

盡管Auto-GPT還在非常早期的實驗階段,但其開創(chuàng)了一種全新的AI交互方式,即由機器主動提出任務(wù)和計劃,人類只需要給出任務(wù)目標(biāo)。這種交互方式不僅提高了AI智能體的自主性和靈活性,同時也拓展了人與AI之間的交互方式,打破了人類對于人工智能的“控制”想象,使得人工智能技術(shù)能從“工具”走向人類的“伙伴”。

除了獨立的AI Agent之外,未來還可能出現(xiàn)由多個AI智能體組成的“虛擬智能社會”。GenerativeAgents在由斯坦福大學(xué)和谷歌聯(lián)合發(fā)表的一篇名叫《GenerativeAgents:InterativeSimulacra of Human Behavior》論文中,研究者們成功地構(gòu)建了一個“虛擬小鎮(zhèn)”,其中的25個智能體在小鎮(zhèn)上生存。借助AIGC,其中的NPC具備了可信人類行為,并對周圍環(huán)境變化做出適當(dāng)?shù)姆磻?yīng),使得可以用現(xiàn)實社會現(xiàn)象去填充賽博空間。

國外商業(yè)咨詢機構(gòu)預(yù)測,到2030年AIGC和生成式AI市場規(guī)模將達到1100億美元。正如“互聯(lián)網(wǎng)+”一樣,“AIGC+”有望滲透到各行各業(yè),在教育、醫(yī)療、金融、政務(wù)、制造、機器人、數(shù)字人、元宇宙、廣告營銷、電子商務(wù)、市場和戰(zhàn)略咨詢等眾多領(lǐng)域帶來新的應(yīng)用形式,深度賦能千行百業(yè),助力高質(zhì)量發(fā)展。

AIGC的產(chǎn)業(yè)應(yīng)用中的挑戰(zhàn)與問題

1.可解釋性與可靠性

生成式人工智能的可解釋性問題是指生成式人工智能(Generative Artificial Intelligence)所產(chǎn)生的結(jié)果難以解釋或理解。生成式人工智能是一種基于深度學(xué)習(xí)的人工智能技術(shù),其通過學(xué)習(xí)大量數(shù)據(jù)來生成新的數(shù)據(jù)或圖像。但是,生成式人工智能所產(chǎn)生的結(jié)果通常很難理解和解釋,因為其內(nèi)部的運作過程非常復(fù)雜,而且很難直觀地描述。

這種可解釋性問題對于許多應(yīng)用場景都非常重要,比如醫(yī)療診斷、金融風(fēng)控、自動駕駛等領(lǐng)域。在這些領(lǐng)域中,人們需要了解生成式人工智能的內(nèi)部運作過程,以便更好地理解其產(chǎn)生的結(jié)果,并且能夠?qū)ζ溥M行調(diào)整和優(yōu)化。

解決生成式人工智能的可解釋性問題是當(dāng)前人工智能研究的一個重要方向,研究人員正在探索各種方法來使生成式人工智能的結(jié)果更加可解釋和可理解。這些方法包括可視化技術(shù)、可解釋性模型、對抗性樣本等等。

2.AI大模型的價值對齊問題

所謂人工智能的價值對齊(AI Alignment),就是讓人工智能系統(tǒng)的行為符合人類的目標(biāo)、偏好或倫理原則。價值對齊是AI安全研究的一個核心議題。在理論上,如果一個強大的AI系統(tǒng)所追求的目標(biāo)和人類的真實目的意圖和價值不一致,就有可能給人類帶來災(zāi)難性后果。就目前而言,大語言模型的價值對齊問題主要表現(xiàn)為,如何在模型層面讓人工智能理解人類的價值和倫理原則,盡可能地防止模型的有害輸出,從而打造出更加有用同時更加符合人類價值觀的AI模型。在這方面,RLHF是一個有效的方法,通過小量的數(shù)據(jù)就可能實現(xiàn)比較好的效果。簡言之,RLHF要求人類專家對模型輸出內(nèi)容的適當(dāng)性進行評估,并基于人類提供的反饋對模型進行優(yōu)化。其目標(biāo)是減少模型在未來生產(chǎn)有害內(nèi)容的可能性。實際上,RLHF算法不僅是確保AI模型具有正確價值觀的關(guān)鍵所在,而且對于生成式AI領(lǐng)域的長期健康可持續(xù)發(fā)展也十分重要。[4]

3.塑造負責(zé)任的AI創(chuàng)新生態(tài)

大語言模型等生成式AI的進展,在讓人們看到AGI曙光的同時,也帶來更加復(fù)雜難控的風(fēng)險,包括對人類未來生存的潛在風(fēng)險。AI時代需要成為一個負責(zé)任創(chuàng)新的時代,而非另一個“快速行動、打破陳規(guī)”的時代。人們需要建立合理審慎的AI倫理和治理框架,塑造負責(zé)任的AI生態(tài),打造人機和諧共生的未來。生成式AI領(lǐng)域的創(chuàng)新主體則需要積極探索技術(shù)上和管理上的安全保障措施,為生成式AI的健康發(fā)展和安全可控應(yīng)用構(gòu)筑起防護欄。

在科技向善理念之下,人工智能時代不應(yīng)成為另一個“快速行動、打破陳規(guī)”的時代(即先快速把產(chǎn)品做出來,事后再通過修補、補救等方式解決其社會問題),而應(yīng)成為一個負責(zé)任創(chuàng)新的時代,通過建立合理審慎的AI倫理和治理框架,塑造負責(zé)任的AI生態(tài),打造人機和諧共生的未來。[5]

AIGC在產(chǎn)業(yè)應(yīng)用中的未來趨勢

1.多模態(tài)帶來創(chuàng)新應(yīng)用藍海

多模態(tài)AI是指能夠處理和理解多種類型信息的人工智能,如文本、圖像、音頻、視頻等。這種AI不僅能夠處理單一數(shù)據(jù)類型的任務(wù),而且可以在不同數(shù)據(jù)類型間建立聯(lián)系和融合,從而實現(xiàn)一個綜合、全面的理解多模態(tài)。AI能夠?qū)Ω鞣N不同類型的數(shù)據(jù)進行關(guān)聯(lián)分析,為解決復(fù)雜問題提供支持。

在多模態(tài)技術(shù)發(fā)展初期,不同模態(tài)的AI開始進行集成,比如圖像識別和自然語言處理技術(shù)的結(jié)合。除了ImageBind打通六種模態(tài)外,多數(shù)仍在探索文本與圖像的融合,但進展飛快。UniDiffuser:除了單向文生圖,還能實現(xiàn)圖生問、圖文聯(lián)合生產(chǎn)、無條件圖文生成等多種功能

OpenAI開發(fā)了許多多模態(tài)AI案例如DALL-E、CLIP等,可以識別圖像中的對象,同時生成與圖像相關(guān)的描述性文本,或由文本指導(dǎo)生成有關(guān)物品的新圖像。

隨著多模態(tài)技術(shù)的進展,多模態(tài)AI在理解和處理不同類型數(shù)據(jù)時能夠?qū)崿F(xiàn)更高程度的融合。算法和模型可以在不同數(shù)據(jù)類型之間建立聯(lián)系,提取跨模態(tài)的共享信息。這使得AI能夠深度理解和解決復(fù)雜問題。未來在諸多創(chuàng)新領(lǐng)域,多模態(tài)技術(shù)的發(fā)展將帶來創(chuàng)新應(yīng)用的藍海。[6]

2.生成式AI帶來更貼近人的交互方式

從使用鍵盤-鼠標(biāo)等方式跟電腦交互,到使用手指滑動屏幕跟手機交互,再到人們用喚醒詞跟智能音箱等交互,人機交互從識別機器指令,到識別人的動作,語音,不斷朝著更貼近人的習(xí)慣的交互方式演進。生成式AI的發(fā)展,讓人類有史以來第一次有機會用自然語言的方式,來跟機器對話,而機器也借由大模型擁有了極強的理解人類語言的能力,有望帶來一場全新的交互變革。正如歷次交互變革帶來從終端、到連接,到各類應(yīng)用的顛覆式變革,生成式AI也必將帶來產(chǎn)業(yè)鏈、價值鏈和生態(tài)的重塑。

生成式AI的技術(shù)突破,帶來了大模型理解能力的大幅提升。大模型可以更好地理解人類表達的含義,并生成更符合人類價值觀的回答。其技術(shù)成熟度已經(jīng)可以在很多場景下達到可用,甚至好用的程度。在科技公司不斷投入對齊工作的進展中,大模型的“幻覺”被持續(xù)降低,從而讓人類第一次有可能完全以自然語言對話的方式來跟機器交流。這也是人去發(fā)掘機器智能最簡單直接,最有效的交互方式。

在這個背景下,所有APP都可以用生成式AI重做一遍,并可能產(chǎn)生原生AI APP。一方面,當(dāng)前的所有軟件,在后端不變的情況下,前端的交互可以直接換成自然語言對話的方式,這樣讓更多的APP擁有了智能對話的能力,給用戶帶來全新的體驗,F(xiàn)在已經(jīng)有很多應(yīng)用軟件和硬件,開始往這個方向升級。另一方面,未來更具市場想象力的,是原生的AI APP,例如未來很可能出現(xiàn)一個萬能的個人助理,他可以回答人的各種問題,幫人出主意,甚至做會議預(yù)定、文章撰寫、藝術(shù)創(chuàng)作等更多的工作。“機器生成+人腦篩選”在可預(yù)見的將來,會成為人機協(xié)作的重要方式。[7]

結(jié)論

綜上所述,生成式人工智能在發(fā)展演進過程中取得了顯著的成果,為人類社會的進步和發(fā)展提供了強大的技術(shù)支持。從深度學(xué)習(xí)、自然語言處理等技術(shù)的發(fā)展,再到生成式人工智能在各個產(chǎn)業(yè)中的應(yīng)用,都展示了其強大的潛力和價值。然而,伴隨著技術(shù)的不斷創(chuàng)新和突破,生成式人工智能在應(yīng)用過程中也暴露出了一些問題,如數(shù)據(jù)安全、隱私保護、倫理等方面的挑戰(zhàn)。因此,未來的研究應(yīng)關(guān)注如何在保障技術(shù)創(chuàng)新的同時,解決這些潛在問題,以實現(xiàn)生成式人工智能的可持續(xù)發(fā)展。此外,各國政府、企業(yè)、研究機構(gòu)等應(yīng)加強合作,共同推動生成式人工智能的研究與應(yīng)用,以實現(xiàn)人類社會的共同繁榮與進步。

本文首發(fā)于《人工智能》2023年第四期

參考資料:

[1]騰訊研究院.AIGC發(fā)展趨勢報告2023[R].2023

[2]陳楚儀、曹建峰. AIGC技術(shù)的發(fā)展趨勢、影響和展望[J].2023.中國銀行業(yè)

[3]宋嘉吉等. Auto-GPT評測更聰明的AGI[R].2023

[4]曹建峰.邁向可信AI:ChatGPT類生成式人工智能的治理挑戰(zhàn)及應(yīng)對[J].2023.上政學(xué)報

[5][6][7]騰訊研究院.大模型時代的AI十大趨勢2023[R].2023

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港