當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能應(yīng)用 > AI圖像革命才剛剛開始

AI圖像革命才剛剛開始
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-09 18:42:17 瀏覽：1869次

導(dǎo)讀：劃重點(diǎn) 01AI圖像處理市場正在快速增長，2024年至2030年的復(fù)合年增長率預(yù)計分別達(dá)到11%、17%和23%。 02Transformer架構(gòu)融合模型正迅速將生成下一個字符的能力擴(kuò)展到生成像素的圖像領(lǐng)域，如Stable Diffusion 3.0和Flux.1。 03由于計算資源、訓(xùn)練數(shù)據(jù)集、模型架...

劃重點(diǎn)

01AI圖像處理市場正在快速增長，2024年至2030年的復(fù)合年增長率預(yù)計分別達(dá)到11%、17%和23%。

02Transformer架構(gòu)融合模型正迅速將生成下一個字符的能力擴(kuò)展到“生成像素”的圖像領(lǐng)域，如Stable Diffusion 3.0和Flux.1。

03由于計算資源、訓(xùn)練數(shù)據(jù)集、模型架構(gòu)以及性能與質(zhì)量平衡等多方面的因素，AI圖像處理在1K分辨率方面取得了突破。

04與此同時，圖像理解方面的挑戰(zhàn)主要體現(xiàn)在多模態(tài)基礎(chǔ)模型的輸入限制上，如GPT-4和GPT-4 Vision版本。

05未來，AI圖像處理技術(shù)有望迎來新一輪突破，推動大一統(tǒng)的進(jìn)程。

以上內(nèi)容由騰訊混元大模型生成，僅供參考

AI圖像革命才剛剛開始

李瑞龍騰訊研究院

騰訊研究院AGI路線圖系列專題研究二

本期AGI路線圖中關(guān)鍵節(jié)點(diǎn)：DiT架構(gòu)、Stable Diffusion 3.0、Flux.1、ControlNet、1024×1024分辨率、醫(yī)學(xué)影像、英偉達(dá)Eagle模型、谷歌Med-Gemini系列模型、GPT-4o端到端、Meta Transfusion模型。

得益于人工智能算法的進(jìn)步和技術(shù)的普及，信息與數(shù)據(jù)處理技術(shù)正在迅速變革。其中一個應(yīng)用領(lǐng)域就是AI圖像處理。

從AI圖像生成、醫(yī)療成像、目標(biāo)檢測和地圖繪制，到實(shí)時人臉檢測，人工智能在圖像處理方面的能力被廣泛應(yīng)用于傳媒、醫(yī)療、健康、安全等多個領(lǐng)域。

AI圖像處理市場正在快速增長。數(shù)據(jù)顯示*，在AI圖像編輯、生成、識別等多個領(lǐng)域，2024年至2030年的復(fù)合年增長率或?qū)⒎謩e達(dá)到11%、17%和23%，并廣泛應(yīng)用于各行各業(yè)。

因此，我們有必要深入了解AI圖像處理的基本原理、應(yīng)用場景和最新技術(shù)發(fā)展，以便在不同的應(yīng)用場景下，評估并把握AI圖像處理的價值與機(jī)會點(diǎn)。

AI圖像處理的精進(jìn)之路Transformer：從生成字符到“生成像素”

事實(shí)上，AIGC和計算機(jī)視覺（CV）技術(shù)已經(jīng)有了相當(dāng)長的發(fā)展歷史，但隨著大語言模型相關(guān)算法和技術(shù)的飛速進(jìn)步，傳統(tǒng)的AI圖像處理技術(shù)在前沿應(yīng)用中的可見度正在逐漸下降，而Transformer融合模型正迅速將生成下一個字符的能力擴(kuò)展到“生成像素”的圖像領(lǐng)域。

以公眾最為熟知的AI圖像生成器為例，Stable Diffusion作為一種經(jīng)典的潛空間擴(kuò)散模型，能夠通過正向添加噪聲和反向去噪還原圖像的方式來控制圖像生成，這一過程中的關(guān)鍵，是讓模型學(xué)會從隨機(jī)噪聲到清晰圖像的轉(zhuǎn)換方法。

自2022年發(fā)布以來，Stable Diffusion在1.0至2.0階段中，這一關(guān)鍵環(huán)節(jié)由核心組件U-Net架構(gòu)主導(dǎo)。U-Net作為編碼器和解碼器，負(fù)責(zé)將圖像壓縮到潛在空間，并在潛在空間中執(zhí)行擴(kuò)散過程，對于生成高質(zhì)量圖像起到了至關(guān)重要的作用。

今年2月份，Stable Diffusion 3.0正式發(fā)布，采用了MMDiT架構(gòu)（Multimodal Diffusion Transformer，MMDiT），替代了原有的U-Net架構(gòu)和骨干網(wǎng)絡(luò)。結(jié)合Transformer強(qiáng)大的序列建模能力和流匹配技術(shù)，圖像的可控性大幅提升。它能夠更好地理解涉及空間關(guān)系、構(gòu)圖元素、動作和風(fēng)格的復(fù)雜提示，并在高分辨率（1024x1024像素）、復(fù)雜區(qū)域（如手和臉）的細(xì)節(jié)處理以及文字拼寫方面，較上一代模型實(shí)現(xiàn)了顛覆性的進(jìn)步。6月中旬，擁有20億參數(shù)的Stable Diffusion 3 Medium模型正式開源。該中等參數(shù)模型能夠在消費(fèi)級PC上運(yùn)行，具有較低的VRAM占用，適合處理小數(shù)據(jù)集和定制化需求，進(jìn)一步刷新了開源生產(chǎn)力。

Transformer架構(gòu)的引入還開啟了AI圖像模型訓(xùn)練的Scaling Law。基于并行注意力的Transformer架構(gòu)，較其它神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，有著將scaling law代入生圖領(lǐng)域的重要潛力。它可以讓圖像模型能夠消化更多的圖像和視頻數(shù)據(jù)，從而進(jìn)一步增強(qiáng)圖像領(lǐng)域的涌現(xiàn)能力。例如，引入Transformer架構(gòu)后，上述最新版本的Stable Diffusion 3.0模型的可選參數(shù)范圍從800M到8B，8B的模型上限相比上一代提升了整整一個數(shù)量級。又例如，8月中旬，一家名為Black Forest Labs的新創(chuàng)公司（由前Stable Diffusion核心作者創(chuàng)立）成功發(fā)布了Flux.1，通過融合架構(gòu)的優(yōu)勢，進(jìn)一步將模型參數(shù)上限刷新至12B（截至發(fā)稿日，F(xiàn)lux模型已優(yōu)化迭代至Flux1.1版本，模型參數(shù)規(guī)模不變）。

當(dāng)前，F(xiàn)lux模型現(xiàn)已成為當(dāng)前開放權(quán)重圖像模型領(lǐng)域的頂流代表。從技術(shù)報告來看，與Stable Diffusion 3.0類似，F(xiàn)lux.1采用MMDiT架構(gòu)，并采用流匹配、旋轉(zhuǎn)位置嵌入和并行注意層等技術(shù)，重新定義了圖像細(xì)節(jié)、提示遵循、風(fēng)格多樣性以及場景復(fù)雜性等方面的最新技術(shù)水平（SOTA）。根據(jù)研究人員的說法，得益于大規(guī)模訓(xùn)練，F(xiàn)lux.1 Pro和Flux.1 Dev在視覺質(zhì)量、提示一致性、尺寸和長寬比的可變性、排版以及輸出多樣性等方面，已經(jīng)超越了Midjourney v6.0、Dall-E3和Stable Diffusion 3 Ultra。從官方發(fā)布的樣張和網(wǎng)友的測試情況來看，F(xiàn)lux.1幾乎達(dá)到了真假難辨的程度，AI圖像生成的Scaling Law奏效了。（迭代版本Flux1.1相關(guān)技術(shù)尚未完全公開，官方稱其運(yùn)算效率與表現(xiàn)更佳，仍在進(jìn)化中） AI圖像革命才剛剛開始

騰研AGI路線圖圖譜截選Stable Diffusion 3與 Flux.1從Prompt提示詞到ControlNet控制

在AI技術(shù)的應(yīng)用過程中，指令遵循性是一個通用且至關(guān)重要的指標(biāo)。圖像生成控制的方法有很多，包括Prompt（提示詞）、LoRA（低秩適配器) 、ControlNet（控制網(wǎng)絡(luò)）等等，還包括ComfyUI等一類用于配置工作流的外部應(yīng)用程序。

Prompt是一個非常深入人心的概念，它是來自用戶的文本描述，指引模型生成特定的圖像，例如，輸入“一個穿紅色裙子的小女孩”將促使模型生成符合該描述的圖像。而通過調(diào)整prompt的內(nèi)容和細(xì)節(jié)，用戶可以進(jìn)一步控制生成圖像的主題、風(fēng)格和細(xì)節(jié)。

LoRA全稱Low-Rank Adaptation（低秩適配器），最早是微軟在大語言模型的訓(xùn)練中發(fā)明并使用的一種低成本的模型微調(diào)技術(shù)。其根本出發(fā)點(diǎn)是為了降低大語言模型finetune的代價和大量Finetune模型加載的代價問題，更輕松的部署在專業(yè)生圖領(lǐng)域，如建筑設(shè)計等。

ControlNet是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，通過添加額外的條件輸入來控制現(xiàn)有模型（如Stable Diffusion）的輸出。它允許用戶在生成過程中引入更多的控制信息，包括姿勢、深度或邊緣檢測等，從而精確地引導(dǎo)生成結(jié)果，線稿、深度圖或語義分割圖等均可以作為輸入條件。

實(shí)際上，ControlNet與LoRA的核心思路相似，都是通過旁路網(wǎng)絡(luò)干預(yù)模型輸出。不同之處在于，LoRA通過低秩壓縮減少模型體積，但限制了其能力上限；而ControlNet則不壓縮模型參數(shù)，而是1比1復(fù)刻，實(shí)現(xiàn)更高的控制精度。

進(jìn)一步展開，我們可以看到，ControlNet已經(jīng)可以提供一系列讓人驚艷的精準(zhǔn)控制能力：

例如，光影控制方面，ControlNet作者在5月發(fā)布了IC-Light（全稱Imposing Consistent Light），用于操控圖像的照明效果。該技術(shù)利用潛在空間一致性，確保在不同光源組合下外觀的一致性，實(shí)現(xiàn)自然的光照變化。用戶只需上傳任意圖片，系統(tǒng)會自動分離主體并選擇光源位置，配合說明，即可為圖像自動添加AI打光效果。。

例如，在輪廓控制方面，7月中旬，ControlNet作者發(fā)布了名為Paints-Undo的項(xiàng)目，靈感來源于繪畫軟件中的「撤銷」功能，模型的輸出過程類似于連續(xù)按下Ctrl+Z。該項(xiàng)目允許用戶通過上傳圖片倒推其創(chuàng)作過程，包括素描、上色等步驟，還能生成展示整個繪畫過程的25秒視頻。高度一致的畫面效果展現(xiàn)了ControlNet卓越的輪廓控制力。

例如，在畫面構(gòu)圖方面，ControlNet架構(gòu)還可以作為中間載體，將用戶簡短的Prompt提示詞進(jìn)行擴(kuò)展，并精確控制圖像生成的各項(xiàng)元素。ControlNet作者的新工具Omost通過LLM AI代理的自動擴(kuò)展功能，能夠根據(jù)簡單的Prompt生成詳細(xì)的圖像構(gòu)圖描述，包括光照、輪廓、對象等全局和局部的具體要求。特定的生成器最終則根據(jù)LLM設(shè)計的藍(lán)圖來創(chuàng)建圖像。

從Prompt提示詞到LoRA再到ControlNet的控制，再結(jié)合工作流程設(shè)計工具（如ComfyUI），當(dāng)前的AI圖像處理模型已經(jīng)為用戶提供了極高的靈活性和控制能力。

AI圖像革命才剛剛開始

騰研AGI路線圖圖譜截選

ControlNet

生成與理解的產(chǎn)業(yè)化現(xiàn)狀1K分辨率的產(chǎn)業(yè)意義：從生成到理解

類比于基礎(chǔ)語言模型的最長上下文，分辨率在AI圖像處理中同樣至關(guān)重要。更高的分辨率使模型能夠捕捉更多信息和細(xì)節(jié)。同樣地，當(dāng)前的AI圖像處理也會受到類似于“最長上下文”的限制，受制于計算資源、訓(xùn)練數(shù)據(jù)集、模型架構(gòu)以及性能與質(zhì)量平衡等多方面的因素。

AI圖像處理，無論是AIGC還是多模態(tài)理解與識別，都已成功突破了1K分辨率的關(guān)鍵門檻。

例如，AI圖像生成模型如Flux.1、Imagen 3、Midjourney v6、Stable Diffusion 3等，均可支持主流的1024×1024原生圖像分辨率（一次生成），并且可以通過超分辨率技術(shù)進(jìn)行2倍甚至更高的像素擴(kuò)展，進(jìn)一步提升圖像細(xì)節(jié)；這對于藝術(shù)創(chuàng)作、廣告、游戲開發(fā)以及影像制作等行業(yè)的輔助圖像生成，可以起到較好的支持。

在圖像理解方面，挑戰(zhàn)則主要體現(xiàn)在多模態(tài)基礎(chǔ)模型的輸入限制上。由于高分辨率圖像處理需要在架構(gòu)和數(shù)據(jù)集等方面進(jìn)行大量適配與再訓(xùn)練，這并非易事。

以GPT-4和GPT-4 Vision版本為例，它們在輸入圖像時采取了嚴(yán)格的限制。根據(jù)官方文件描述：“提前將圖像縮小至小于預(yù)期的最大尺寸可以提高模型的響應(yīng)速度。在低分辨率模式下，建議圖像為512px x 512px。在高分辨率模式下，圖像的短邊應(yīng)小于768px，長邊應(yīng)小于2000px。” 同時，還列出了一系列“局限性”：不適用于醫(yī)學(xué)圖像解讀、處理非拉丁文字效果較差、可能誤解旋轉(zhuǎn)或倒置的圖像、對圖表和不同線條樣式的理解困難、空間定位能力有限等。

對于圖像理解而言，為什么1K分辨率同樣具有重要意義？以醫(yī)學(xué)影像為例，計算機(jī)斷層掃描（CT）的矩陣大小通常為512x512像素；磁共振成像（MRI）的分辨率范圍較廣，但一般在256x256到1024x1024像素之間；超聲成像的分辨率通常約為512x512像素。因此，多模態(tài)基礎(chǔ)模型需要基于或高于這些目標(biāo)分辨率，改善模型以更好地處理醫(yī)學(xué)影像等高精度數(shù)據(jù)。

例如，9月，Mistral發(fā)布了Pixtral 12B多模態(tài)大模型，采用專用視覺編碼器和24GB容量，并結(jié)合GeLU和2D RoPE技術(shù)，優(yōu)化視覺適配能力，使其能夠更好地處理高分辨率圖像（1024x1024像素）。同月，英偉達(dá)推出了Eagle系列模型，能夠處理高達(dá)1024x1024像素分辨率的圖像，顯著提升了視覺信息的處理和理解能力。為了應(yīng)對復(fù)雜的圖像信息，Eagle采用多專家視覺編碼器架構(gòu)，不同編碼器針對特定任務(wù)進(jìn)行專門訓(xùn)練，實(shí)現(xiàn)了更全面的圖像理解。

1K分辨率使生成式AI在圖像理解方面具備了更高的應(yīng)用潛力，尤其在法律、醫(yī)療、電子商務(wù)等行業(yè)中，這種能力有望帶來更廣泛的應(yīng)用。

AI圖像革命才剛剛開始

騰研AGI路線圖圖譜截選

Pixtral 12B 與Eagle

破解商業(yè)化：技術(shù)能力與產(chǎn)業(yè)場景的適配

在當(dāng)前的生成式AI浪潮中，原生技術(shù)能力的展示已經(jīng)能夠吸引大量流量。AI生成的文本、圖像、視頻甚至音樂等內(nèi)容，由于能夠快速觸達(dá)用戶，并具備可視化和娛樂化的特點(diǎn)，獲得了更多市場關(guān)注。然而，這并不一定能夠形成有效的商業(yè)閉環(huán)。

相反，許多知名的生成式AI應(yīng)用程序由于商業(yè)模式的限制，正被大公司收購，或并入更大的應(yīng)用平臺，亦或通過資源整合進(jìn)入特定行業(yè)。

例如，今年年中，Stability AI面臨嚴(yán)重的財務(wù)困境，虧損和債務(wù)不斷累積，不得不尋求新一輪融資以重組公司并緩解財務(wù)壓力。隨后，Stability AI任命《阿凡達(dá)》視覺特效公司前負(fù)責(zé)人Prem Akkaraju為新任CEO，借助其在Weta Digital的豐富技術(shù)和營銷經(jīng)驗(yàn)，推動Stability AI將視頻、圖片、音樂等大模型與先進(jìn)視覺特效技術(shù)相結(jié)合，以尋求財務(wù)狀況的改善。

一個月后，在2023年完成融資估值上億，目前年經(jīng)常性收入3000萬美元，團(tuán)隊(duì)規(guī)模120人的AI圖像生成大廠Leonardo.ai，尋找Canva（一個用于圖形設(shè)計和內(nèi)容創(chuàng)建的在線平臺）的收購，交易價格僅約3億美元，整合其視頻和圖像生成模型。通過這次收購，Canva的主要目標(biāo)是提升其AI技術(shù)儲備，與Adobe展開競爭，加速收入增長并吸引更多企業(yè)客戶。

從中可以看出，AI圖像處理能力雖重要，但原生市場需求仍處于發(fā)育階段。相關(guān)企業(yè)不得不尋求與更高層次的AI圖像編輯和影視制作市場的融合，通過曲線救國的方式，推動商業(yè)化落地。

相比AI圖像生成市場，圖像理解與分析的熱度雖稍低，但實(shí)際上早已更早地進(jìn)入了行業(yè)融合的商業(yè)化模式。

醫(yī)療AI是其中最為矚目的賽道之一，谷歌在多模態(tài)任務(wù)與醫(yī)學(xué)領(lǐng)域投入了大量精力。5月份，谷歌DeepMind發(fā)布了Med-Gemini系列模型，專門針對醫(yī)學(xué)領(lǐng)域的多模態(tài)任務(wù)進(jìn)行優(yōu)化，包括Med-Gemini-2D、Med-Gemini-3D和Med-Gemini-Polygenic。這些模型利用大規(guī)模醫(yī)學(xué)圖像數(shù)據(jù)，在多個醫(yī)學(xué)圖像分析任務(wù)上超越了現(xiàn)有最佳模型，特別是在胸部X射線、CT圖像和基因組數(shù)據(jù)處理方面。測試結(jié)果顯示，生成式AI在多模態(tài)醫(yī)學(xué)AI任務(wù)中表現(xiàn)出色，尤其是在視覺問答和放射學(xué)報告生成領(lǐng)域。

類似的研究在學(xué)術(shù)界也取得了大量進(jìn)展。例如，MIT開發(fā)的Mirai系統(tǒng)可以基于常規(guī)乳房X光檢查預(yù)測乳腺癌風(fēng)險，嘗試提前五年發(fā)現(xiàn)潛在病例。另一個例子是上海交通大學(xué)的3D醫(yī)學(xué)大模型SAT，該模型能夠?qū)?97種人體器官和病灶進(jìn)行3D圖像分割，展現(xiàn)出強(qiáng)大的應(yīng)用潛力。

此外，Geoffrey Hinton（杰弗里辛頓）、LeCun（楊立昆）以及吳恩達(dá)等AI領(lǐng)域的領(lǐng)軍人物也多次公開支持醫(yī)療AI及醫(yī)療影像分析方面的研究。

AI圖像革命才剛剛開始

騰研AGI路線圖圖譜截選

Med-Gemini

技術(shù)到頭了嗎？遠(yuǎn)遠(yuǎn)沒有AI圖像處理的Scaling Law剛剛開始

目前，各大圖像生成模型尚未完全披露其技術(shù)細(xì)節(jié)，但從整體趨勢來看，純Diffusion路線正逐步融合Transformer架構(gòu)。如DiT架構(gòu)（此處指代大的架構(gòu)類型，包含MMDiT架構(gòu)），這也是Sora和 Stable Diffusion 3，以及Flux.1、騰訊混元文生圖（首個中文原生DiT）的同款架構(gòu)和關(guān)鍵技術(shù)，是一種基于Transformer架構(gòu)的擴(kuò)散模型。

正如上述，使用Transformer架構(gòu)，可以擴(kuò)展更多的圖像數(shù)據(jù)處理能力，而這項(xiàng)技術(shù)的Scaling Law才剛剛開始不到半年時間。

回顧以往的各類擴(kuò)散模型，大多數(shù)的參數(shù)量都在1B或更小的規(guī)模。而引入DiT架構(gòu)后，Stable Diffusion 3和Flux.1的參數(shù)量分別達(dá)到了8B和12B。對比一年半前Midjourney V5驚艷全網(wǎng)的“情侶合照”，到如今Flux.1掀起的新一輪風(fēng)暴，AI圖像生成技術(shù)似乎邁上了一個全新的臺階。沃頓商學(xué)院AI方向的副教授Ethan Mollick在看到Flux.1的生成效果后，預(yù)言AI將在18個月內(nèi)完成一次重大進(jìn)化。而事實(shí)上，距離Sora和Stable Diffusion 3大規(guī)模應(yīng)用DiT架構(gòu)，僅過去不到半年。

相比于基礎(chǔ)模型在文本訓(xùn)練數(shù)據(jù)上的豐富性，圖像處理和多模態(tài)領(lǐng)域仍有較大的提升空間。

首先，當(dāng)前的數(shù)據(jù)生成環(huán)境中，視頻和文本數(shù)據(jù)的數(shù)量仍在增長，尤其是視頻數(shù)據(jù)，增速尤為顯著。據(jù)統(tǒng)計，全球每天生成約4.7億個視頻，約相當(dāng)于數(shù)十PB的數(shù)據(jù)。例如，YouTube每天處理約720,000小時的視頻內(nèi)容，總計約4.3PB的數(shù)據(jù)。這些海量圖片和視頻數(shù)據(jù)將為圖像處理和多模態(tài)領(lǐng)域的迭代提供源源不斷的訓(xùn)練素材，推動技術(shù)持續(xù)進(jìn)步。

其次，得益于開源生態(tài)，無論是DiT架構(gòu)還是多模態(tài)基礎(chǔ)模型，如今都處于一個開放且活躍的探索階段。各行各業(yè)可以借助開源模型，針對特定業(yè)務(wù)場景進(jìn)行定制化優(yōu)化，從而探索每個領(lǐng)域的Scaling Law，例如在醫(yī)療影像和傳媒娛樂等不同方向的應(yīng)用潛力。

最后，更多資本和人才的涌入將推動圖像處理進(jìn)入新階段。9月25日，導(dǎo)演詹姆斯卡梅隆宣布加入Stability AI董事會，強(qiáng)調(diào)AI與CGI的結(jié)合將開創(chuàng)全新的敘事方式，引發(fā)了國內(nèi)外的廣泛關(guān)注。生成式AI與CGI的融合有望為藝術(shù)家提供前所未有的創(chuàng)作機(jī)會，推動視覺媒體的未來發(fā)展。隨著大規(guī)模產(chǎn)業(yè)應(yīng)用的展開，更多算力和資源的不斷投入將持續(xù)提升AI圖像生成能力。成功的商業(yè)模式將反過來促進(jìn)技術(shù)進(jìn)步，正如CGI產(chǎn)業(yè)多年的演進(jìn)歷程一樣。

從late fusion到early fusion的探索

傳統(tǒng)AI，無論是文本生成文本（文生文）還是文本生成圖像（文生圖），通常為每種模態(tài)采用特定的「編碼器」或「解碼器」，將不同模態(tài)分開處理，這種方法被稱為「晚期融合」（late fusion）。然而，這在一定程度上限制了模型的潛力，因?yàn)門ransformer本身具備有效處理跨模態(tài)信息的能力，模塊的分離的處理方式削弱了這種優(yōu)勢。

GPT-4o的發(fā)布改變了這一點(diǎn)，作為首個「端到端」模型，它能夠通過單個神經(jīng)網(wǎng)絡(luò)處理所有模態(tài)。5月16日，OpenAI總裁Greg Brockman通過X賬戶發(fā)布了GPT-4o生成的首張公共圖像。這張逼真的圖片展示了一位穿著印有OpenAI標(biāo)志的黑色T恤的人，在黑板上用粉筆寫著“不同模態(tài)之間的轉(zhuǎn)換。假設(shè)我們使用一個大型自回歸Transformer直接建模（文本、像素、聲音）。這樣做的優(yōu)缺點(diǎn)是什么？”。他還在發(fā)布中寫道：“GPT-4o生成的圖像僅憑GPT-4o的圖像生成能力，就有許多可以探索的領(lǐng)域。團(tuán)隊(duì)正在努力將這些能力推向世界。”

而類似的技術(shù)嘗試仍在持續(xù)推進(jìn)。GPT-4o發(fā)布不到一周后，開源模型廠商Meta發(fā)布了34億參數(shù)的「Chameleon」模型，能夠無縫處理文本和圖像，使用10萬億token進(jìn)行訓(xùn)練，性能接近GPT-4V。Chameleon采用統(tǒng)一的Transformer架構(gòu)，實(shí)現(xiàn)了文本和圖像的「早期融合」（early fusion），刷新了多模態(tài)視覺問答和圖像標(biāo)注的基準(zhǔn)（SOTA）。盡管該模型的設(shè)計面臨技術(shù)挑戰(zhàn)（事實(shí)上，GPT-4o至今也尚未正式發(fā)布其圖像生成能力，網(wǎng)頁端僅提供非正式版本的體驗(yàn)），但Meta通過架構(gòu)創(chuàng)新和訓(xùn)練技術(shù)，優(yōu)化了早期融合多模態(tài)大模型的性能與穩(wěn)定性。與GPT-4o的端到端方法類似，成為了當(dāng)前的重要方向。

8月底，Meta再次發(fā)布了最新研究成果Transfusion模型，整合了Transformer和Diffusion技術(shù)，實(shí)現(xiàn)了文本與圖像生成的統(tǒng)一。該模型在混合模態(tài)序列上進(jìn)行訓(xùn)練，結(jié)合了語言建模和圖像擴(kuò)散的優(yōu)勢，大幅提高了模態(tài)之間的整合效率。實(shí)驗(yàn)驗(yàn)證表明，Transfusion在多模態(tài)AI領(lǐng)域表現(xiàn)出色，能夠生成高質(zhì)量的文本和圖像，有望引領(lǐng)多模態(tài)交互式應(yīng)用的發(fā)展。

AI圖像革命才剛剛開始

騰研AGI路線圖圖譜截選

「Chameleon」與Transfusion

在當(dāng)前技術(shù)發(fā)展的浪潮中，不僅所有應(yīng)用都值得被最新的AI技術(shù)重寫一遍，甚至所有相關(guān)的AI技術(shù)本身，也值得通過最新的AI架構(gòu)和算法重新構(gòu)建。這種持續(xù)迭代的過程推動了整個領(lǐng)域的快速進(jìn)步。

讓我們進(jìn)一步展望未來，當(dāng)Transformer架構(gòu)的融合解決了scale up規(guī)模擴(kuò)展的問題，顯著提升了圖像的分辨率與豐富度；當(dāng)「早期融合」（early fusion）和「端到端」架構(gòu)正在努力提升跨模態(tài)信息處理能力，推動大一統(tǒng)的進(jìn)程。OpenAI最新的o1推理模型，是否能夠解決生成中的“邏輯”問題，而不僅僅是相關(guān)性，使圖像生成與理解更加貼合物理規(guī)律？這一點(diǎn)仍然未知。但從目前的發(fā)展情況來看，AI圖像處理革命或即將迎來新一輪突破，且其技術(shù)、市場發(fā)展還遠(yuǎn)遠(yuǎn)沒有達(dá)到上限。

（感謝騰訊研究院曹士圯、袁曉輝在本文撰寫中提供的幫助。）

參考資料：騰訊研究院AGI圖譜數(shù)據(jù)庫、#騰訊研究院AI速遞、#AI每周關(guān)鍵詞Top50

騰訊研究院AGI路線圖

AGI路線圖是騰訊研究院旗下的AI創(chuàng)新研究專項(xiàng)，依托對AI創(chuàng)新前沿的關(guān)注、技術(shù)積累與產(chǎn)品實(shí)踐，為探索AGI（通用人工智能）之路提供全方位的研究支持。該專項(xiàng)持續(xù)關(guān)注技術(shù)、場景、數(shù)據(jù)、生態(tài)和安全等多個維度，希望為AGI逐步落地及其產(chǎn)生的行業(yè)和社會影響，提供思想洞察和交流平臺。如果您對這個主題感興趣，歡迎來稿，或與我們交流您的所思所想！

贊助本站

相關(guān)熱詞： 圖像革命才剛剛開始重點(diǎn) 01AI 圖像處理市場正

上一篇：AI先驅(qū)斬獲諾獎，業(yè)界大佬：物理學(xué)與AI的橋梁已架起

下一篇：上交大發(fā)布首個OpenAI o1復(fù)現(xiàn)項(xiàng)目進(jìn)展報告，滿滿的經(jīng)驗(yàn)洞察

相關(guān)內(nèi)容

“終結(jié)者”會走進(jìn)千家萬戶嗎？人形機(jī)器人量產(chǎn)前夕，有公司把造價打到10萬元內(nèi)

中國工程院院士譚建榮：沒有人形機(jī)器人能像人類的手一樣“靈巧”

研究人員開發(fā)出自學(xué)習(xí)機(jī)器人，可模仿人類清潔洗臉盆

馬斯克稱特斯拉正改進(jìn) Optimus 機(jī)器人的設(shè)計，以便大規(guī)模生產(chǎn)

視聽觸感官協(xié)同配合的具身精細(xì)操縱，人大胡迪團(tuán)隊(duì)探索機(jī)器人模態(tài)時變性挑戰(zhàn)

擎朗智能CEO李通：中國在服務(wù)機(jī)器人領(lǐng)域領(lǐng)先全球

新一代賽博仆人！這款機(jī)器人要幫你把各種家務(wù)活都做了

從靈巧手到人型機(jī)器人，珠海入局具身智能賽道

小鵬鵬行前高管創(chuàng)業(yè)入局 AI 陪伴機(jī)器人，完成千萬元級天使輪融資

“80%的投資人看不懂具身智能”，人形機(jī)器人開始降溫？

人形機(jī)器人新催化

46萬張圖像訓(xùn)練，18種傳感功能！Meta機(jī)器人手可以感知“觸覺”了

為“愛”而生：陪伴機(jī)器人現(xiàn)身中國市場

OpenAI要大搞硬件了？Meta的Orion項(xiàng)目前主管加盟領(lǐng)導(dǎo)機(jī)器人工作

小鵬機(jī)器人原高管入局AI陪伴機(jī)器人：完成千萬元天使輪融資

祥明智能：已規(guī)劃并布局機(jī)器人關(guān)節(jié)電機(jī)等新門類電機(jī)的開發(fā)計劃

“類人步態(tài)”“自然步態(tài)” 機(jī)器人閑庭信步“走”進(jìn)高交會

中信證券：我國有望打開人形機(jī)器人降本空間，助力其商用量產(chǎn)

人形機(jī)器人供應(yīng)鏈熱潮：揭秘7家受資金追捧的核心企業(yè)

重啟機(jī)器人團(tuán)隊(duì)?OpenAI“重燃”機(jī)器人野心

AiLab云推薦

報名參加2025上海國際家具博覽會（時間）

2024（第二十一屆）中國西南（昆明）國際汽車博覽會暨智能網(wǎng)聯(lián)及未來出行汽車博覽會

黑鯊智能手表GS3上架將于4月30日展開首銷

大魚號和企鵝號哪個收益高？企鵝號播放量100收入多少？

戴爾科技以AI PC新主張，引領(lǐng)智能辦公新紀(jì)元

引領(lǐng)前沿，賦能基層，數(shù)坤科技成CCR2023全場“頂流”

好的網(wǎng)絡(luò)為啥是三分建設(shè) 七分運(yùn)維？彩光是怎么做好智能運(yùn)維的？

《2025年科技趨勢研究報告》來了！CB Insights預(yù)測無GPS導(dǎo)航系統(tǒng)、生物計算等技術(shù)或可改變世界

今年上海浦東最大新開購物中心曹路招商花園城開業(yè) 讓社區(qū)客群“家門口”享品質(zhì)消費(fèi)

西部電博會開展倒計時

OpenAI和谷歌同日升級AI搜索功能，AI搜索引擎之戰(zhàn)全面打響

2025第七屆上海國際智能三表(水、電、氣)展覽會

2023“鎏金夜宴”卡慕舞會，以古羅馬為靈感臻獻(xiàn)奢華體驗(yàn)

國產(chǎn)大型貨運(yùn)無人機(jī)扎堆問世，專家：有望助中國航空產(chǎn)業(yè)換道超車

“機(jī)器的教練”：AIGC內(nèi)容審核員的新角色與新職責(zé)

第十五屆夏季達(dá)沃斯論壇開幕，千余名科技領(lǐng)袖共話經(jīng)濟(jì)前沿

AI幫助搭建生物制造“超級工廠”，科學(xué)研究用上AI了

大魚號每天搬運(yùn)10個視頻可以嗎？大魚號怎么做搬運(yùn)？

創(chuàng)新領(lǐng)先，效能躍遷！英飛凌2024汽車創(chuàng)新峰會舉行

璀璨亮相！高正茶油受邀深圳禮品展覽會，領(lǐng)航健康食用油潮流

2024深圳量子信息技術(shù)展覽會(11月14-16日)

自動駕駛進(jìn)入資本市場快車道：文遠(yuǎn)知行正式在納斯達(dá)克上市

AMD：“膽小”的指引，AI落地等于AI下坡？

2024沙特利雅得國際建材展Saudi Build

微星絕影18 AI Studio 2024游戲本開售搭載全新人工智能應(yīng)用

派拓網(wǎng)絡(luò)發(fā)布運(yùn)營技術(shù)安全狀況調(diào)查報告

北京靈奧科技基于亞馬遜云科技打造大模型中間件，助力企業(yè)加速應(yīng)用生成式AI

第32屆深圳禮品展吸引眾多業(yè)內(nèi)人士前來參觀選購

黃仁勛：在人工智能投資方面，歐盟遠(yuǎn)遠(yuǎn)落后于美國和中國

Q1費(fèi)率再優(yōu)化0.8pct！海爾智家數(shù)字化轉(zhuǎn)型成果顯著

2024WAIC熱議大模型與高質(zhì)量數(shù)據(jù)供給，螞蟻集團(tuán)推出大模型密算平臺

深圳！入選北斗規(guī)模應(yīng)用試點(diǎn)城市

阿里云無影推出AI助手“曉穎”：更懂你的AI助手，更高效的工作方式

河南各市局多舉措做好雨雪冰凍天氣郵政快遞業(yè)安全生產(chǎn)工作

神舟十九號瞄準(zhǔn)10月30日04時27分發(fā)射

千卡智算集群火速上線WAIC，國產(chǎn)大模型迎來“芯”突破

2024中國（南京）國際應(yīng)急產(chǎn)業(yè)博覽會

深圳酒店家具及軟裝設(shè)計展：匯聚各方優(yōu)勢，展出海量精品

第二十屆上海國際營養(yǎng)保健品藥食同源產(chǎn)品新零售社區(qū)社群團(tuán)購博覽會

科技與內(nèi)容的雙重升級：三星電視成暑假親子時光的完美拍檔

小吃創(chuàng)業(yè)，從這里起步——想創(chuàng)業(yè)做小吃，看這里！

自媒體現(xiàn)在還有前景嗎？自媒體現(xiàn)在還掙錢嗎？

同框亮相！神舟十九號航天員乘組簡歷來了

聯(lián)蕓科技自研毫米波雷達(dá)芯片，合作森思泰克加速�？刁w系內(nèi)垂直整合

2024第三十二屆中國（廣州）國際名酒展-秋季展（Interwine Guangzhou）

第107屆中國勞動保護(hù)用品交易會

女人做什么行業(yè)最掙錢？揭秘四大高薪行業(yè)

UPS產(chǎn)品再獲年度大獎，維諦技術(shù)（Vertiv）用技術(shù)創(chuàng)新贏得行業(yè)認(rèn)可

醫(yī)美巨頭重資下注新風(fēng)口比爾·蓋茨說AI將使每周工作3天成為可能

拍做飯的短視頻能火嗎？怎么賺錢？

最新資訊

這個機(jī)器人清理美國“后院”，復(fù)制電動車經(jīng)驗(yàn)？

2024澎湃科創(chuàng)先鋒｜閆維新:通用AI與機(jī)器人結(jié)合引領(lǐng)產(chǎn)業(yè)變革

祥明智能：已規(guī)劃并布局機(jī)器人關(guān)節(jié)電機(jī)等新門類電機(jī)的開發(fā)計劃

“中國已經(jīng)做出這樣的東西了？”韓媒關(guān)注：中國研發(fā)出首個人工智能救生機(jī)器人

人形機(jī)器人變身“大廚”煎牛排，OpenAI押注的1X公司展示新技能

為“愛”而生：陪伴機(jī)器人現(xiàn)身中國市場

人形機(jī)器人的“國家隊(duì)模式”：技術(shù)開源、成立俱樂部，讓機(jī)器人跑馬拉松

人形機(jī)器人供應(yīng)鏈熱潮：揭秘7家受資金追捧的核心企業(yè)

擎朗智能CEO李通：中國在服務(wù)機(jī)器人領(lǐng)域領(lǐng)先全球

人形機(jī)器人概念火爆，產(chǎn)業(yè)前景廣闊

本月熱點(diǎn)

國產(chǎn)版達(dá)芬奇手術(shù)機(jī)器人價格跳水，是價格戰(zhàn)要來了嗎？

借勢智元機(jī)器人，富臨精工跨界入局人形機(jī)器人，準(zhǔn)備好了嗎？

實(shí)探全球首個核電燈塔工廠，這里有各式各樣的機(jī)器人 | 碳訪

美團(tuán)再投人形機(jī)器人公司宇樹科技，80億估值能否撐起“中國版Figure AI”？｜鈦媒體AGI

探館數(shù)貿(mào)會：自動售餅機(jī)成深夜食堂新選擇，還能和機(jī)器人“溫暖的抱抱”丨封面天天見

我國新增工業(yè)機(jī)器人裝機(jī)量占全球一半以上，券商：海外拓展尋求新增長點(diǎn)

工業(yè)機(jī)器人開始“長腦子”了

新時達(dá)：目前公司半導(dǎo)體機(jī)器人已有銷售

開普勒：爭做人形機(jī)器人賽道的比亞迪|新質(zhì)生產(chǎn)力看張江

首款具身智能工業(yè)機(jī)器人發(fā)布，機(jī)械臂困境的巧妙破題

熱門排行

 不被“機(jī)器狗之父”看好的人形機(jī)器人，未來要如何發(fā)展？
閱讀量：72838

國產(chǎn)版達(dá)芬奇手術(shù)機(jī)器人價格跳水，是價格戰(zhàn)要來了嗎？
閱讀量：67706

借勢智元機(jī)器人，富臨精工跨界入局人形機(jī)器人，準(zhǔn)備好了嗎？
閱讀量：43605

實(shí)探全球首個核電燈塔工廠，這里有各式各樣的機(jī)器人 | 碳訪
閱讀量：41886

傅盛：我不看好雙足機(jī)器人的商業(yè)化
閱讀量：13266

特斯拉要重返“萬億市值俱樂部”？Wedbush：AI和機(jī)器人技術(shù)是關(guān)鍵！
閱讀量：12166

推薦內(nèi)容

2024年德國漢諾威畜牧業(yè)展覽會

2024山東國際玻璃工業(yè)技術(shù)展覽會

2024年德國漢諾威農(nóng)業(yè)機(jī)械展AGRITECHNICA

2024拉丁美洲（墨西哥）印刷、標(biāo)簽、包裝、紙業(yè)展覽會

BIAS2024第七屆巴林國際航空航天與防務(wù)展

2024年印尼國際食品飲料展 SIAL Interfood 2024

2024肯尼亞廣告標(biāo)識及印刷展覽會

2024第20屆華北（天津）國際美業(yè)博覽會

2024第十一屆中國國際管網(wǎng)展覽會

2024中國（嘉興）國際緊固件產(chǎn)業(yè)博覽會

FDAS2024第20屆新加坡國際消防與應(yīng)急救援展

SSA2024第22屆新加坡國際安防展

WSA2024第十屆新加坡國際勞保展

亞洲無紡布科技博覽會2024(ANTEX Asia 2024)

2024第十一屆中國義烏進(jìn)口商品博覽會

2024年第四屆北京國際工程采購大會暨工程建設(shè)供應(yīng)鏈博覽會(EPC)

2024中國（杭州）國際茶產(chǎn)業(yè)博覽會（華巨臣茶博會）

2024年第24屆伊朗國際電力電工設(shè)備及技術(shù)展

2024第四十一屆中國青島國際面料、輔料、紗線采購交易會（青交會）

2024深圳國際充電樁及換電站展覽會

2024深圳國際鋰電池技術(shù)裝備展覽會

2024深圳國際儲能技術(shù)展覽會

2024中國（深圳）國際氫能與燃料電池技術(shù)展覽會

2024深圳國際智能工廠展覽會

2024深圳國際動力傳動控制技術(shù)展覽會

2024深圳國際自動化及機(jī)器人展覽會

2024第19屆中國（上海）國際鋰電及儲能技術(shù)展覽會、2024亞太國際（上海）新質(zhì)生產(chǎn)力暨智能工廠展

2024第十六屆中國（無錫）國際新能源大會暨展覽會（CREC）

2024中國（南京）國際應(yīng)急產(chǎn)業(yè)博覽會

2024第四屆CNF長三角國際消防產(chǎn)業(yè)博覽會

2024第二十六屆中國國際高新技術(shù)成果交易會

2024 孟加拉國際照明展覽會

2024深圳國際軸承展覽會

2024深圳動力電池展覽會

2024深圳國際AGV小車及智能倉儲技術(shù)設(shè)備展覽會

2024華南醫(yī)藥產(chǎn)業(yè)展覽會

第十一屆北京海外置業(yè)及移民留學(xué)展覽會

2024第二十二屆中國廣州國際汽車展覽會

2024第二十六屆中國國際高新技術(shù)成果交易會（高交會 CHTF）

2024年中國海洋裝備博覽會

2024中國海洋裝備博覽會

2024中國公共安全大會暨城市生命線展覽會

2024中國國際茶文化及紫砂藝術(shù)用品展覽會

2024第七屆北京素食文化節(jié)

2024第八屆中國（北京）國際佛事用品博覽會（北京佛博會）

2024年第八屆中國北京佛事用品博覽會

2024中國工業(yè)論壇新型工業(yè)化實(shí)踐大會暨綠色工業(yè)博覽會

中國工業(yè)論壇新型工業(yè)化實(shí)踐大會

2024中國國際老齡產(chǎn)業(yè)博覽會

2024中國漁業(yè)新質(zhì)生產(chǎn)力展覽會

2024第35屆（廣東）國際大健康產(chǎn)業(yè)博覽會

2024中國莫干山智能網(wǎng)聯(lián)汽車技術(shù)展覽會暨新能源汽車供應(yīng)鏈博覽會

IEOSE 2024北京國際教育留學(xué)展覽會

2024第二十五屆中國制冷、空調(diào)、熱泵、通風(fēng)及冷鏈裝備博覽會

2024第十八屆中國國際文具及辦公用品展覽會/潮流文化生活展（PWC）

第62屆中國高等教育博覽會（2024.重慶）

2024鴻威世界寵物博覽會（GWPF世寵會）十城巡展-南昌站

上海兒童健康展CHWF

2024年第八屆海南國際健康產(chǎn)業(yè)博覽會

2024中國國際生物醫(yī)藥大會暨海南國際藥品保健品展覽會

2024蘇州中國聲谷2024降噪產(chǎn)品及技術(shù)展覽會

AI圖像革命才剛剛開始
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-09 18:42:17 瀏覽：1869次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

AI圖像革命才剛剛開始 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-09 18:42:17 瀏覽：1869次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

AI圖像革命才剛剛開始
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-09 18:42:17 瀏覽：1869次