劃重點(diǎn)
01AI圖像處理市場正在快速增長,2024年至2030年的復(fù)合年增長率預(yù)計分別達(dá)到11%、17%和23%。
02Transformer架構(gòu)融合模型正迅速將生成下一個字符的能力擴(kuò)展到“生成像素”的圖像領(lǐng)域,如Stable Diffusion 3.0和Flux.1。
03由于計算資源、訓(xùn)練數(shù)據(jù)集、模型架構(gòu)以及性能與質(zhì)量平衡等多方面的因素,AI圖像處理在1K分辨率方面取得了突破。
04與此同時,圖像理解方面的挑戰(zhàn)主要體現(xiàn)在多模態(tài)基礎(chǔ)模型的輸入限制上,如GPT-4和GPT-4 Vision版本。
05未來,AI圖像處理技術(shù)有望迎來新一輪突破,推動大一統(tǒng)的進(jìn)程。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
李瑞龍騰訊研究院
騰訊研究院AGI路線圖系列專題研究二
本期AGI路線圖中關(guān)鍵節(jié)點(diǎn):DiT架構(gòu)、Stable Diffusion 3.0、Flux.1、ControlNet、1024×1024分辨率、醫(yī)學(xué)影像、英偉達(dá)Eagle模型、谷歌Med-Gemini系列模型、GPT-4o端到端、Meta Transfusion模型。
得益于人工智能算法的進(jìn)步和技術(shù)的普及,信息與數(shù)據(jù)處理技術(shù)正在迅速變革。其中一個應(yīng)用領(lǐng)域就是AI圖像處理。
從AI圖像生成、醫(yī)療成像、目標(biāo)檢測和地圖繪制,到實(shí)時人臉檢測,人工智能在圖像處理方面的能力被廣泛應(yīng)用于傳媒、醫(yī)療、健康、安全等多個領(lǐng)域。
AI圖像處理市場正在快速增長。數(shù)據(jù)顯示*,在AI圖像編輯、生成、識別等多個領(lǐng)域,2024年至2030年的復(fù)合年增長率或?qū)⒎謩e達(dá)到11%、17%和23%,并廣泛應(yīng)用于各行各業(yè)。
因此,我們有必要深入了解AI圖像處理的基本原理、應(yīng)用場景和最新技術(shù)發(fā)展,以便在不同的應(yīng)用場景下,評估并把握AI圖像處理的價值與機(jī)會點(diǎn)。
AI圖像處理的精進(jìn)之路Transformer:從生成字符到“生成像素”
事實(shí)上,AIGC和計算機(jī)視覺(CV)技術(shù)已經(jīng)有了相當(dāng)長的發(fā)展歷史,但隨著大語言模型相關(guān)算法和技術(shù)的飛速進(jìn)步,傳統(tǒng)的AI圖像處理技術(shù)在前沿應(yīng)用中的可見度正在逐漸下降,而Transformer融合模型正迅速將生成下一個字符的能力擴(kuò)展到“生成像素”的圖像領(lǐng)域。
以公眾最為熟知的AI圖像生成器為例,Stable Diffusion作為一種經(jīng)典的潛空間擴(kuò)散模型,能夠通過正向添加噪聲和反向去噪還原圖像的方式來控制圖像生成,這一過程中的關(guān)鍵,是讓模型學(xué)會從隨機(jī)噪聲到清晰圖像的轉(zhuǎn)換方法。
自2022年發(fā)布以來,Stable Diffusion在1.0至2.0階段中,這一關(guān)鍵環(huán)節(jié)由核心組件U-Net架構(gòu)主導(dǎo)。U-Net作為編碼器和解碼器,負(fù)責(zé)將圖像壓縮到潛在空間,并在潛在空間中執(zhí)行擴(kuò)散過程,對于生成高質(zhì)量圖像起到了至關(guān)重要的作用。
今年2月份,Stable Diffusion 3.0正式發(fā)布,采用了MMDiT架構(gòu)(Multimodal Diffusion Transformer,MMDiT),替代了原有的U-Net架構(gòu)和骨干網(wǎng)絡(luò)。結(jié)合Transformer強(qiáng)大的序列建模能力和流匹配技術(shù),圖像的可控性大幅提升。它能夠更好地理解涉及空間關(guān)系、構(gòu)圖元素、動作和風(fēng)格的復(fù)雜提示,并在高分辨率(1024x1024像素)、復(fù)雜區(qū)域(如手和臉)的細(xì)節(jié)處理以及文字拼寫方面,較上一代模型實(shí)現(xiàn)了顛覆性的進(jìn)步。6月中旬,擁有20億參數(shù)的Stable Diffusion 3 Medium模型正式開源。該中等參數(shù)模型能夠在消費(fèi)級PC上運(yùn)行,具有較低的VRAM占用,適合處理小數(shù)據(jù)集和定制化需求,進(jìn)一步刷新了開源生產(chǎn)力。
Transformer架構(gòu)的引入還開啟了AI圖像模型訓(xùn)練的Scaling Law。基于并行注意力的Transformer架構(gòu),較其它神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),有著將scaling law代入生圖領(lǐng)域的重要潛力。它可以讓圖像模型能夠消化更多的圖像和視頻數(shù)據(jù),從而進(jìn)一步增強(qiáng)圖像領(lǐng)域的涌現(xiàn)能力。例如,引入Transformer架構(gòu)后,上述最新版本的Stable Diffusion 3.0模型的可選參數(shù)范圍從800M到8B,8B的模型上限相比上一代提升了整整一個數(shù)量級。又例如,8月中旬,一家名為Black Forest Labs的新創(chuàng)公司(由前Stable Diffusion核心作者創(chuàng)立)成功發(fā)布了Flux.1,通過融合架構(gòu)的優(yōu)勢,進(jìn)一步將模型參數(shù)上限刷新至12B(截至發(fā)稿日,F(xiàn)lux模型已優(yōu)化迭代至Flux1.1版本,模型參數(shù)規(guī)模不變)。
當(dāng)前,F(xiàn)lux模型現(xiàn)已成為當(dāng)前開放權(quán)重圖像模型領(lǐng)域的頂流代表。從技術(shù)報告來看,與Stable Diffusion 3.0類似,F(xiàn)lux.1采用MMDiT架構(gòu),并采用流匹配、旋轉(zhuǎn)位置嵌入和并行注意層等技術(shù),重新定義了圖像細(xì)節(jié)、提示遵循、風(fēng)格多樣性以及場景復(fù)雜性等方面的最新技術(shù)水平(SOTA)。根據(jù)研究人員的說法,得益于大規(guī)模訓(xùn)練,F(xiàn)lux.1 Pro和Flux.1 Dev在視覺質(zhì)量、提示一致性、尺寸和長寬比的可變性、排版以及輸出多樣性等方面,已經(jīng)超越了Midjourney v6.0、Dall-E3和Stable Diffusion 3 Ultra。從官方發(fā)布的樣張和網(wǎng)友的測試情況來看,F(xiàn)lux.1幾乎達(dá)到了真假難辨的程度,AI圖像生成的Scaling Law奏效了。(迭代版本Flux1.1相關(guān)技術(shù)尚未完全公開,官方稱其運(yùn)算效率與表現(xiàn)更佳,仍在進(jìn)化中)
騰研AGI路線圖圖譜截選Stable Diffusion 3與 Flux.1從Prompt提示詞到ControlNet控制
在AI技術(shù)的應(yīng)用過程中,指令遵循性是一個通用且至關(guān)重要的指標(biāo)。圖像生成控制的方法有很多,包括Prompt(提示詞)、LoRA(低秩適配器) 、ControlNet(控制網(wǎng)絡(luò))等等,還包括ComfyUI等一類用于配置工作流的外部應(yīng)用程序。
Prompt是一個非常深入人心的概念,它是來自用戶的文本描述,指引模型生成特定的圖像,例如,輸入“一個穿紅色裙子的小女孩”將促使模型生成符合該描述的圖像。而通過調(diào)整prompt的內(nèi)容和細(xì)節(jié),用戶可以進(jìn)一步控制生成圖像的主題、風(fēng)格和細(xì)節(jié)。
LoRA全稱Low-Rank Adaptation(低秩適配器),最早是微軟在大語言模型的訓(xùn)練中發(fā)明并使用的一種低成本的模型微調(diào)技術(shù)。其根本出發(fā)點(diǎn)是為了降低大語言模型finetune的代價和大量Finetune模型加載的代價問題,更輕松的部署在專業(yè)生圖領(lǐng)域,如建筑設(shè)計等。
ControlNet是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過添加額外的條件輸入來控制現(xiàn)有模型(如Stable Diffusion)的輸出。它允許用戶在生成過程中引入更多的控制信息,包括姿勢、深度或邊緣檢測等,從而精確地引導(dǎo)生成結(jié)果,線稿、深度圖或語義分割圖等均可以作為輸入條件。
實(shí)際上,ControlNet與LoRA的核心思路相似,都是通過旁路網(wǎng)絡(luò)干預(yù)模型輸出。不同之處在于,LoRA通過低秩壓縮減少模型體積,但限制了其能力上限;而ControlNet則不壓縮模型參數(shù),而是1比1復(fù)刻,實(shí)現(xiàn)更高的控制精度。
進(jìn)一步展開,我們可以看到,ControlNet已經(jīng)可以提供一系列讓人驚艷的精準(zhǔn)控制能力:
例如,光影控制方面,ControlNet作者在5月發(fā)布了IC-Light(全稱Imposing Consistent Light),用于操控圖像的照明效果。該技術(shù)利用潛在空間一致性,確保在不同光源組合下外觀的一致性,實(shí)現(xiàn)自然的光照變化。用戶只需上傳任意圖片,系統(tǒng)會自動分離主體并選擇光源位置,配合說明,即可為圖像自動添加AI打光效果。。
例如,在輪廓控制方面,7月中旬,ControlNet作者發(fā)布了名為Paints-Undo的項(xiàng)目,靈感來源于繪畫軟件中的「撤銷」功能,模型的輸出過程類似于連續(xù)按下Ctrl+Z。該項(xiàng)目允許用戶通過上傳圖片倒推其創(chuàng)作過程,包括素描、上色等步驟,還能生成展示整個繪畫過程的25秒視頻。高度一致的畫面效果展現(xiàn)了ControlNet卓越的輪廓控制力。
例如,在畫面構(gòu)圖方面,ControlNet架構(gòu)還可以作為中間載體,將用戶簡短的Prompt提示詞進(jìn)行擴(kuò)展,并精確控制圖像生成的各項(xiàng)元素。ControlNet作者的新工具Omost通過LLM AI代理的自動擴(kuò)展功能,能夠根據(jù)簡單的Prompt生成詳細(xì)的圖像構(gòu)圖描述,包括光照、輪廓、對象等全局和局部的具體要求。特定的生成器最終則根據(jù)LLM設(shè)計的藍(lán)圖來創(chuàng)建圖像。
從Prompt提示詞到LoRA再到ControlNet的控制,再結(jié)合工作流程設(shè)計工具(如ComfyUI),當(dāng)前的AI圖像處理模型已經(jīng)為用戶提供了極高的靈活性和控制能力。
騰研AGI路線圖圖譜截選
ControlNet
生成與理解的產(chǎn)業(yè)化現(xiàn)狀1K分辨率的產(chǎn)業(yè)意義:從生成到理解
類比于基礎(chǔ)語言模型的最長上下文,分辨率在AI圖像處理中同樣至關(guān)重要。更高的分辨率使模型能夠捕捉更多信息和細(xì)節(jié)。同樣地,當(dāng)前的AI圖像處理也會受到類似于“最長上下文”的限制,受制于計算資源、訓(xùn)練數(shù)據(jù)集、模型架構(gòu)以及性能與質(zhì)量平衡等多方面的因素。
AI圖像處理,無論是AIGC還是多模態(tài)理解與識別,都已成功突破了1K分辨率的關(guān)鍵門檻。
例如,AI圖像生成模型如Flux.1、Imagen 3、Midjourney v6、Stable Diffusion 3等,均可支持主流的1024×1024原生圖像分辨率(一次生成),并且可以通過超分辨率技術(shù)進(jìn)行2倍甚至更高的像素擴(kuò)展,進(jìn)一步提升圖像細(xì)節(jié);這對于藝術(shù)創(chuàng)作、廣告、游戲開發(fā)以及影像制作等行業(yè)的輔助圖像生成,可以起到較好的支持。
在圖像理解方面,挑戰(zhàn)則主要體現(xiàn)在多模態(tài)基礎(chǔ)模型的輸入限制上。由于高分辨率圖像處理需要在架構(gòu)和數(shù)據(jù)集等方面進(jìn)行大量適配與再訓(xùn)練,這并非易事。
以GPT-4和GPT-4 Vision版本為例,它們在輸入圖像時采取了嚴(yán)格的限制。根據(jù)官方文件描述:“提前將圖像縮小至小于預(yù)期的最大尺寸可以提高模型的響應(yīng)速度。在低分辨率模式下,建議圖像為512px x 512px。在高分辨率模式下,圖像的短邊應(yīng)小于768px,長邊應(yīng)小于2000px。” 同時,還列出了一系列“局限性”:不適用于醫(yī)學(xué)圖像解讀、處理非拉丁文字效果較差、可能誤解旋轉(zhuǎn)或倒置的圖像、對圖表和不同線條樣式的理解困難、空間定位能力有限等。
對于圖像理解而言,為什么1K分辨率同樣具有重要意義?以醫(yī)學(xué)影像為例,計算機(jī)斷層掃描(CT)的矩陣大小通常為512x512像素;磁共振成像(MRI)的分辨率范圍較廣,但一般在256x256到1024x1024像素之間;超聲成像的分辨率通常約為512x512像素。因此,多模態(tài)基礎(chǔ)模型需要基于或高于這些目標(biāo)分辨率,改善模型以更好地處理醫(yī)學(xué)影像等高精度數(shù)據(jù)。
例如,9月,Mistral發(fā)布了Pixtral 12B多模態(tài)大模型,采用專用視覺編碼器和24GB容量,并結(jié)合GeLU和2D RoPE技術(shù),優(yōu)化視覺適配能力,使其能夠更好地處理高分辨率圖像(1024x1024像素)。同月,英偉達(dá)推出了Eagle系列模型,能夠處理高達(dá)1024x1024像素分辨率的圖像,顯著提升了視覺信息的處理和理解能力。為了應(yīng)對復(fù)雜的圖像信息,Eagle采用多專家視覺編碼器架構(gòu),不同編碼器針對特定任務(wù)進(jìn)行專門訓(xùn)練,實(shí)現(xiàn)了更全面的圖像理解。
1K分辨率使生成式AI在圖像理解方面具備了更高的應(yīng)用潛力,尤其在法律、醫(yī)療、電子商務(wù)等行業(yè)中,這種能力有望帶來更廣泛的應(yīng)用。
騰研AGI路線圖圖譜截選
Pixtral 12B 與Eagle
破解商業(yè)化:技術(shù)能力與產(chǎn)業(yè)場景的適配
在當(dāng)前的生成式AI浪潮中,原生技術(shù)能力的展示已經(jīng)能夠吸引大量流量。AI生成的文本、圖像、視頻甚至音樂等內(nèi)容,由于能夠快速觸達(dá)用戶,并具備可視化和娛樂化的特點(diǎn),獲得了更多市場關(guān)注。然而,這并不一定能夠形成有效的商業(yè)閉環(huán)。
相反,許多知名的生成式AI應(yīng)用程序由于商業(yè)模式的限制,正被大公司收購,或并入更大的應(yīng)用平臺,亦或通過資源整合進(jìn)入特定行業(yè)。
例如,今年年中,Stability AI面臨嚴(yán)重的財務(wù)困境,虧損和債務(wù)不斷累積,不得不尋求新一輪融資以重組公司并緩解財務(wù)壓力。隨后,Stability AI任命《阿凡達(dá)》視覺特效公司前負(fù)責(zé)人Prem Akkaraju為新任CEO,借助其在Weta Digital的豐富技術(shù)和營銷經(jīng)驗(yàn),推動Stability AI將視頻、圖片、音樂等大模型與先進(jìn)視覺特效技術(shù)相結(jié)合,以尋求財務(wù)狀況的改善。
一個月后,在2023年完成融資估值上億,目前年經(jīng)常性收入3000萬美元,團(tuán)隊(duì)規(guī)模120人的AI圖像生成大廠Leonardo.ai,尋找Canva(一個用于圖形設(shè)計和內(nèi)容創(chuàng)建的在線平臺)的收購,交易價格僅約3億美元,整合其視頻和圖像生成模型。通過這次收購,Canva的主要目標(biāo)是提升其AI技術(shù)儲備,與Adobe展開競爭,加速收入增長并吸引更多企業(yè)客戶。
從中可以看出,AI圖像處理能力雖重要,但原生市場需求仍處于發(fā)育階段。相關(guān)企業(yè)不得不尋求與更高層次的AI圖像編輯和影視制作市場的融合,通過曲線救國的方式,推動商業(yè)化落地。
相比AI圖像生成市場,圖像理解與分析的熱度雖稍低,但實(shí)際上早已更早地進(jìn)入了行業(yè)融合的商業(yè)化模式。
醫(yī)療AI是其中最為矚目的賽道之一,谷歌在多模態(tài)任務(wù)與醫(yī)學(xué)領(lǐng)域投入了大量精力。5月份,谷歌DeepMind發(fā)布了Med-Gemini系列模型,專門針對醫(yī)學(xué)領(lǐng)域的多模態(tài)任務(wù)進(jìn)行優(yōu)化,包括Med-Gemini-2D、Med-Gemini-3D和Med-Gemini-Polygenic。這些模型利用大規(guī)模醫(yī)學(xué)圖像數(shù)據(jù),在多個醫(yī)學(xué)圖像分析任務(wù)上超越了現(xiàn)有最佳模型,特別是在胸部X射線、CT圖像和基因組數(shù)據(jù)處理方面。測試結(jié)果顯示,生成式AI在多模態(tài)醫(yī)學(xué)AI任務(wù)中表現(xiàn)出色,尤其是在視覺問答和放射學(xué)報告生成領(lǐng)域。
類似的研究在學(xué)術(shù)界也取得了大量進(jìn)展。例如,MIT開發(fā)的Mirai系統(tǒng)可以基于常規(guī)乳房X光檢查預(yù)測乳腺癌風(fēng)險,嘗試提前五年發(fā)現(xiàn)潛在病例。另一個例子是上海交通大學(xué)的3D醫(yī)學(xué)大模型SAT,該模型能夠?qū)?97種人體器官和病灶進(jìn)行3D圖像分割,展現(xiàn)出強(qiáng)大的應(yīng)用潛力。
此外,Geoffrey Hinton(杰弗里辛頓)、LeCun(楊立昆)以及吳恩達(dá)等AI領(lǐng)域的領(lǐng)軍人物也多次公開支持醫(yī)療AI及醫(yī)療影像分析方面的研究。
騰研AGI路線圖圖譜截選
Med-Gemini
技術(shù)到頭了嗎?遠(yuǎn)遠(yuǎn)沒有AI圖像處理的Scaling Law剛剛開始
目前,各大圖像生成模型尚未完全披露其技術(shù)細(xì)節(jié),但從整體趨勢來看,純Diffusion路線正逐步融合Transformer架構(gòu)。如DiT架構(gòu)(此處指代大的架構(gòu)類型,包含MMDiT架構(gòu)),這也是Sora和 Stable Diffusion 3,以及Flux.1、騰訊混元文生圖(首個中文原生DiT)的同款架構(gòu)和關(guān)鍵技術(shù),是一種基于Transformer架構(gòu)的擴(kuò)散模型。
正如上述,使用Transformer架構(gòu),可以擴(kuò)展更多的圖像數(shù)據(jù)處理能力,而這項(xiàng)技術(shù)的Scaling Law才剛剛開始不到半年時間。
回顧以往的各類擴(kuò)散模型,大多數(shù)的參數(shù)量都在1B或更小的規(guī)模。而引入DiT架構(gòu)后,Stable Diffusion 3和Flux.1的參數(shù)量分別達(dá)到了8B和12B。對比一年半前Midjourney V5驚艷全網(wǎng)的“情侶合照”,到如今Flux.1掀起的新一輪風(fēng)暴,AI圖像生成技術(shù)似乎邁上了一個全新的臺階。沃頓商學(xué)院AI方向的副教授Ethan Mollick在看到Flux.1的生成效果后,預(yù)言AI將在18個月內(nèi)完成一次重大進(jìn)化。而事實(shí)上,距離Sora和Stable Diffusion 3大規(guī)模應(yīng)用DiT架構(gòu),僅過去不到半年。
相比于基礎(chǔ)模型在文本訓(xùn)練數(shù)據(jù)上的豐富性,圖像處理和多模態(tài)領(lǐng)域仍有較大的提升空間。
首先,當(dāng)前的數(shù)據(jù)生成環(huán)境中,視頻和文本數(shù)據(jù)的數(shù)量仍在增長,尤其是視頻數(shù)據(jù),增速尤為顯著。據(jù)統(tǒng)計,全球每天生成約4.7億個視頻,約相當(dāng)于數(shù)十PB的數(shù)據(jù)。例如,YouTube每天處理約720,000小時的視頻內(nèi)容,總計約4.3PB的數(shù)據(jù)。這些海量圖片和視頻數(shù)據(jù)將為圖像處理和多模態(tài)領(lǐng)域的迭代提供源源不斷的訓(xùn)練素材,推動技術(shù)持續(xù)進(jìn)步。
其次,得益于開源生態(tài),無論是DiT架構(gòu)還是多模態(tài)基礎(chǔ)模型,如今都處于一個開放且活躍的探索階段。各行各業(yè)可以借助開源模型,針對特定業(yè)務(wù)場景進(jìn)行定制化優(yōu)化,從而探索每個領(lǐng)域的Scaling Law,例如在醫(yī)療影像和傳媒娛樂等不同方向的應(yīng)用潛力。
最后,更多資本和人才的涌入將推動圖像處理進(jìn)入新階段。9月25日,導(dǎo)演詹姆斯卡梅隆宣布加入Stability AI董事會,強(qiáng)調(diào)AI與CGI的結(jié)合將開創(chuàng)全新的敘事方式,引發(fā)了國內(nèi)外的廣泛關(guān)注。生成式AI與CGI的融合有望為藝術(shù)家提供前所未有的創(chuàng)作機(jī)會,推動視覺媒體的未來發(fā)展。隨著大規(guī)模產(chǎn)業(yè)應(yīng)用的展開,更多算力和資源的不斷投入將持續(xù)提升AI圖像生成能力。成功的商業(yè)模式將反過來促進(jìn)技術(shù)進(jìn)步,正如CGI產(chǎn)業(yè)多年的演進(jìn)歷程一樣。
從late fusion到early fusion的探索
傳統(tǒng)AI,無論是文本生成文本(文生文)還是文本生成圖像(文生圖),通常為每種模態(tài)采用特定的「編碼器」或「解碼器」,將不同模態(tài)分開處理,這種方法被稱為「晚期融合」(late fusion)。然而,這在一定程度上限制了模型的潛力,因?yàn)門ransformer本身具備有效處理跨模態(tài)信息的能力,模塊的分離的處理方式削弱了這種優(yōu)勢。
GPT-4o的發(fā)布改變了這一點(diǎn),作為首個「端到端」模型,它能夠通過單個神經(jīng)網(wǎng)絡(luò)處理所有模態(tài)。5月16日,OpenAI總裁Greg Brockman通過X賬戶發(fā)布了GPT-4o生成的首張公共圖像。這張逼真的圖片展示了一位穿著印有OpenAI標(biāo)志的黑色T恤的人,在黑板上用粉筆寫著“不同模態(tài)之間的轉(zhuǎn)換。假設(shè)我們使用一個大型自回歸Transformer直接建模(文本、像素、聲音)。這樣做的優(yōu)缺點(diǎn)是什么?”。他還在發(fā)布中寫道:“GPT-4o生成的圖像僅憑GPT-4o的圖像生成能力,就有許多可以探索的領(lǐng)域。團(tuán)隊(duì)正在努力將這些能力推向世界。”
而類似的技術(shù)嘗試仍在持續(xù)推進(jìn)。GPT-4o發(fā)布不到一周后,開源模型廠商Meta發(fā)布了34億參數(shù)的「Chameleon」模型,能夠無縫處理文本和圖像,使用10萬億token進(jìn)行訓(xùn)練,性能接近GPT-4V。Chameleon采用統(tǒng)一的Transformer架構(gòu),實(shí)現(xiàn)了文本和圖像的「早期融合」(early fusion),刷新了多模態(tài)視覺問答和圖像標(biāo)注的基準(zhǔn)(SOTA)。盡管該模型的設(shè)計面臨技術(shù)挑戰(zhàn)(事實(shí)上,GPT-4o至今也尚未正式發(fā)布其圖像生成能力,網(wǎng)頁端僅提供非正式版本的體驗(yàn)),但Meta通過架構(gòu)創(chuàng)新和訓(xùn)練技術(shù),優(yōu)化了早期融合多模態(tài)大模型的性能與穩(wěn)定性。與GPT-4o的端到端方法類似,成為了當(dāng)前的重要方向。
8月底,Meta再次發(fā)布了最新研究成果Transfusion模型,整合了Transformer和Diffusion技術(shù),實(shí)現(xiàn)了文本與圖像生成的統(tǒng)一。該模型在混合模態(tài)序列上進(jìn)行訓(xùn)練,結(jié)合了語言建模和圖像擴(kuò)散的優(yōu)勢,大幅提高了模態(tài)之間的整合效率。實(shí)驗(yàn)驗(yàn)證表明,Transfusion在多模態(tài)AI領(lǐng)域表現(xiàn)出色,能夠生成高質(zhì)量的文本和圖像,有望引領(lǐng)多模態(tài)交互式應(yīng)用的發(fā)展。
騰研AGI路線圖圖譜截選
「Chameleon」與Transfusion
在當(dāng)前技術(shù)發(fā)展的浪潮中,不僅所有應(yīng)用都值得被最新的AI技術(shù)重寫一遍,甚至所有相關(guān)的AI技術(shù)本身,也值得通過最新的AI架構(gòu)和算法重新構(gòu)建。這種持續(xù)迭代的過程推動了整個領(lǐng)域的快速進(jìn)步。
讓我們進(jìn)一步展望未來,當(dāng)Transformer架構(gòu)的融合解決了scale up規(guī)模擴(kuò)展的問題,顯著提升了圖像的分辨率與豐富度;當(dāng)「早期融合」(early fusion)和「端到端」架構(gòu)正在努力提升跨模態(tài)信息處理能力,推動大一統(tǒng)的進(jìn)程。OpenAI最新的o1推理模型,是否能夠解決生成中的“邏輯”問題,而不僅僅是相關(guān)性,使圖像生成與理解更加貼合物理規(guī)律?這一點(diǎn)仍然未知。但從目前的發(fā)展情況來看,AI圖像處理革命或即將迎來新一輪突破,且其技術(shù)、市場發(fā)展還遠(yuǎn)遠(yuǎn)沒有達(dá)到上限。
(感謝騰訊研究院曹士圯、袁曉輝在本文撰寫中提供的幫助。)
參考資料:騰訊研究院AGI圖譜數(shù)據(jù)庫、#騰訊研究院AI速遞、#AI每周關(guān)鍵詞Top50
騰訊研究院AGI路線圖
AGI路線圖是騰訊研究院旗下的AI創(chuàng)新研究專項(xiàng),依托對AI創(chuàng)新前沿的關(guān)注、技術(shù)積累與產(chǎn)品實(shí)踐,為探索AGI(通用人工智能)之路提供全方位的研究支持。該專項(xiàng)持續(xù)關(guān)注技術(shù)、場景、數(shù)據(jù)、生態(tài)和安全等多個維度,希望為AGI逐步落地及其產(chǎn)生的行業(yè)和社會影響,提供思想洞察和交流平臺。如果您對這個主題感興趣,歡迎來稿,或與我們交流您的所思所想!