在過(guò)去一年,AIGC 以星星之火,點(diǎn)燃全球燎原之勢(shì)。如今巨變?nèi)栽谶M(jìn)行,各行各業(yè)積極擁抱技術(shù)變革,帶來(lái)諸多智能應(yīng)用創(chuàng)新。然而開發(fā)者在實(shí)際落地
AIGC 的過(guò)程中,如何做技術(shù)選型?如何將前沿技術(shù)有效地融入現(xiàn)有業(yè)務(wù)流程,兼顧實(shí)用性和用戶體驗(yàn)?如何加快前沿技術(shù)落地,進(jìn)而推動(dòng)產(chǎn)業(yè)升級(jí)?
6
月 15 日, 由騰訊云 TVP 與 CSDN 聯(lián)合主辦的「 AIGC 落地的正確姿勢(shì) Techo TVP 技術(shù)沙龍」活動(dòng)在上海舉辦,本次沙龍匯聚 AI 領(lǐng)域產(chǎn)學(xué)研優(yōu)秀代表、技術(shù)大咖,聚焦 AIGC落地思考與應(yīng)用實(shí)踐,分享最新、最實(shí)用的案例,一同探討如何加快
AI 應(yīng)用的創(chuàng)新步伐。
從科研到實(shí)踐的深度探索
數(shù)智人“嬌嬌”全解析
上海交通大學(xué)電子工程系教授&圖像所副所長(zhǎng)、騰訊云 TVP 宋利
未來(lái)已來(lái),數(shù)字人已滲透到各行各業(yè),成為新一代的生產(chǎn)力和創(chuàng)造力。從科研到實(shí)踐,數(shù)智人“嬌嬌”的誕生,既是技術(shù)的集成展示,也是對(duì)個(gè)性化、互動(dòng)性未來(lái)的創(chuàng)新探索。
上海交通大學(xué)電子工程系教授&圖像所副所長(zhǎng)、騰訊云 TVP 宋利在《科研到落地:“數(shù)智人-嬌嬌”》的演講中,先是回顧近五年來(lái)數(shù)字人技術(shù)的演變歷程,梳理當(dāng)前數(shù)字人技術(shù)的前沿進(jìn)展,如基于語(yǔ)音驅(qū)動(dòng)的運(yùn)動(dòng)穩(wěn)定的數(shù)字人視頻合成,基于顯式、隱式記憶增強(qiáng)的語(yǔ)音驅(qū)動(dòng)數(shù)字人合成,身份匹配對(duì)應(yīng)學(xué)習(xí)的高保真人臉驅(qū)動(dòng),基于解耦潛在運(yùn)動(dòng)表征的高保真數(shù)字人驅(qū)動(dòng)、高保真音頻驅(qū)動(dòng)的歌唱數(shù)字人合成等創(chuàng)新研究。
不僅探索學(xué)術(shù)研究,宋教授還帶領(lǐng)團(tuán)隊(duì)積極進(jìn)行技術(shù)落地,推出數(shù)智人“嬌嬌”項(xiàng)目!皨蓩伞币砸晃簧瞄L(zhǎng)直播的同學(xué)為原型,通過(guò)拍攝綠幕視頻并結(jié)合聲音數(shù)據(jù)進(jìn)行訓(xùn)練而成,“嬌嬌”可以進(jìn)行對(duì)話聊天、口播、歌曲演唱、新聞播報(bào)、健康顧問(wèn)、多語(yǔ)種口譯等工作。“嬌嬌”不僅體現(xiàn)了數(shù)字人在娛樂(lè)、教育等領(lǐng)域的廣泛應(yīng)用潛力,還作為首個(gè)高校虛擬數(shù)字人主播,引發(fā)廣泛關(guān)注。
如今數(shù)字人向更廣泛的商業(yè)和社會(huì)應(yīng)用場(chǎng)景邁進(jìn),與此同時(shí),數(shù)字人行業(yè)存在政策風(fēng)險(xiǎn)和商業(yè)模式不確定性等挑戰(zhàn)。在宋教授看來(lái),盡管
ToC 市場(chǎng)吸引力大,但
ToB 領(lǐng)域因成本效益和應(yīng)用深度,展現(xiàn)出更大的商業(yè)潛力。數(shù)字人處于快速發(fā)展中,不僅在形象創(chuàng)造上不斷進(jìn)步,也在向更復(fù)雜的動(dòng)作、情感交互等方向探索。展望未來(lái),結(jié)合高質(zhì)量的交互能力將是未來(lái)數(shù)字人發(fā)展的重要方向。
騰訊混元大模型賦能AIGC應(yīng)用落地
推進(jìn)產(chǎn)業(yè)智能化升級(jí)
騰訊云大模型產(chǎn)品專家 屈蕾
騰訊混元大模型歷經(jīng)迭代日趨成熟,堅(jiān)持全鏈路自主研發(fā)技術(shù),支持眾多場(chǎng)景的創(chuàng)新應(yīng)用,實(shí)現(xiàn)技術(shù)與應(yīng)用同行,期待更多開發(fā)者與企業(yè)加入,共創(chuàng)大模型應(yīng)用新紀(jì)元。
騰訊云大模型產(chǎn)品專家 屈蕾在《騰訊混元大模型全場(chǎng)景 AIGC 應(yīng)用實(shí)踐》的主題演講中介紹,騰訊混元大模型是騰訊全鏈路自主研發(fā)的通用大語(yǔ)言模型,自
2023 年 9 月上線以來(lái),經(jīng)歷多輪迭代,騰訊混元大模型不斷成長(zhǎng)、性能不斷提升,現(xiàn)已擁有萬(wàn)億級(jí)參數(shù)規(guī)模,從稠密模型架構(gòu)向稀疏化架構(gòu)演進(jìn),孵化不同的模型形態(tài),采用混合專家模型
(MoE) 結(jié)構(gòu),提高訓(xùn)練和推理效率及專業(yè)領(lǐng)域適應(yīng)性,具備強(qiáng)大的中文創(chuàng)作能力。
騰訊混元大模型構(gòu)建三層自主可控的國(guó)產(chǎn)大模型全棧技術(shù)架構(gòu):上層為自研高速網(wǎng)絡(luò)互聯(lián)來(lái)支撐模型訓(xùn)練,預(yù)計(jì)
2024 年將達(dá)到單集群
10 萬(wàn)卡規(guī)模,低端卡也能訓(xùn)練萬(wàn)億參數(shù)大模型;中層為自研
Angel 大模型訓(xùn)練和推理平臺(tái),可高效調(diào)度異構(gòu)卡集群,將萬(wàn)億大模型的推理成本較開源模型下降
70%,并持續(xù)優(yōu)化;底層是采用混合專家模型
(MoE) 結(jié)構(gòu)。
騰訊混元大模型在 SuperClue 和沙利文報(bào)告等第三方測(cè)評(píng)中獲得高度評(píng)價(jià),效果居于國(guó)內(nèi)第一梯隊(duì)。目前混元大模型已接入 600+ 騰訊內(nèi)部業(yè)務(wù),其應(yīng)用場(chǎng)景廣泛,如騰訊文檔 AI 智能助手輔助文案創(chuàng)作、騰訊會(huì)議 AI 小助手自動(dòng)總結(jié)、智能數(shù)字人和游戲 npc 的角色扮演能力增強(qiáng)用戶體驗(yàn)、AI 代碼生成等,實(shí)現(xiàn)技術(shù)與應(yīng)用同行,充分釋放生產(chǎn)力。
此外,騰訊混元大模型在多模態(tài)能力上也持續(xù)迭代升級(jí)。在生圖領(lǐng)域,騰訊混元文生圖基礎(chǔ)架構(gòu)已全面升級(jí)至
Sora 同款的
DiT 架構(gòu),支持中英文雙語(yǔ)輸入及理解,具備多輪繪圖能力,測(cè)評(píng)結(jié)果國(guó)內(nèi)領(lǐng)先;在生視頻領(lǐng)域,騰訊混元支持文生視頻、圖生視頻、圖文生視頻、視頻生視頻等多種視頻生成能力,已經(jīng)支持
16s 視頻生成;在生
3D 層面,騰訊混元已布局文/圖生 3D,單圖僅需 30 秒即可生成 3D 模型。
目前,騰訊混元大模型多模態(tài)能力已通過(guò)騰訊云以 API 形式面向企業(yè)用戶和開發(fā)者開放,在廣告、電商、傳媒、游戲、教育等不同行業(yè)落地應(yīng)用。其中,混元生文提供了萬(wàn)億參數(shù)
hunyuan-pro、千億參數(shù)
hunyuan-standard、百億參數(shù)
hunyuan-lite等多種尺寸的模型服務(wù),期待更多伙伴與開發(fā)者加入,共同探索大模型的邊界與新應(yīng)用場(chǎng)景,攜手推進(jìn)大模型技術(shù)創(chuàng)新發(fā)展。
解讀QQ影像中心AIGC創(chuàng)新與實(shí)踐
釋放AI無(wú)限潛力
QQ專家算法研究員 程培
面對(duì)日新月異的 AIGC 技術(shù)發(fā)展,QQ 構(gòu)建 AIGC 技術(shù)體系,持續(xù)推出系列創(chuàng)新工具和應(yīng)用,賦能用戶個(gè)性化內(nèi)容創(chuàng)造,積極探索 AIGC 的廣泛應(yīng)用潛力與價(jià)值。
QQ 專家算法研究員 程培在《QQ 影像中心 AIGC 的創(chuàng)新和應(yīng)用》的分享中談到,目前 QQ 在基礎(chǔ)層,打造出語(yǔ)言以及圖文大模型、3D 生成大模型;在組件層,擁有圖片/視頻生成技術(shù),3D 數(shù)字資產(chǎn)生成技術(shù);在應(yīng)用層,QQ 相機(jī)、小程序、天天 P 圖、超級(jí) QQ 秀等均已融入 AIGC 技術(shù)。
QQ 影像中心在幾年前開始部署研究 AIGC 技術(shù),目前取得一些進(jìn)展:Diffusion 模型廣受熱議,然而在落地的過(guò)程中,面臨畫面構(gòu)圖不穩(wěn)定、語(yǔ)義質(zhì)量差等效果瓶頸,優(yōu)質(zhì)結(jié)果生成投入成本高等性能瓶頸。早在
2022 年,程培團(tuán)隊(duì)針對(duì)
Diffusion 模型進(jìn)行優(yōu)化,從
0 到 1 搭建“優(yōu)化-選型-生產(chǎn)-上線”流程,持續(xù)進(jìn)行風(fēng)格效果訓(xùn)練積累,積累風(fēng)格超 20 種。最終將優(yōu)化后的技術(shù)應(yīng)用到 QQ 小世界 520 活動(dòng)上,得到用戶的熱烈討論與關(guān)注。QQ 作為國(guó)內(nèi)最早一批上線這類創(chuàng)新 AIGC活動(dòng),例如熱門特效 “異次元的我”,用戶只需上傳一張自己的照片,就能通過(guò) AI 識(shí)別,一鍵生成與自己十分相像的漫畫圖片,當(dāng)時(shí)的傳播率極高。
AI
寫真照最初用戶的使用門檻高,需要用戶上傳多張不同角度的照片,還要在線訓(xùn)練,對(duì)機(jī)器資源消耗較大,且可能影響用戶體驗(yàn)。如何在不進(jìn)行后置微調(diào)的情況下,只給一張人像照,讓
Diffusion 模型具備人臉
ID 的保持、變化、風(fēng)格化等能力,使得模型的生成結(jié)果具備多樣性。對(duì)此,騰訊推出 FaceStudio,通過(guò)先進(jìn)的混合人臉 ID 引導(dǎo)機(jī)制,在不犧牲個(gè)人身份特征的情況下,實(shí)現(xiàn)風(fēng)格化的人物圖像合成。這項(xiàng)技術(shù)成功應(yīng)用在 QQ 頭像定制館、七夕頭像等活動(dòng)。
大多數(shù)擴(kuò)散模型使用 CLIP 作為文本編碼器,這將可能限制它們理解復(fù)雜提示的能力,對(duì)此騰訊推出
ELLA,可將
LLM 與擴(kuò)散模型無(wú)縫結(jié)合,將
LLM 能力注入擴(kuò)散模型,提升現(xiàn)有文生圖模型語(yǔ)義匹配程度,還可輕松集成社區(qū)模型和工具,兼容社區(qū)生態(tài)。并進(jìn)一步研發(fā)
EMMA 框架,解決角色一致性生成問(wèn)題,使同一人物在不同場(chǎng)景中保持一致,實(shí)現(xiàn)連貫的視覺敘事。
在視頻生成上,實(shí)現(xiàn)穩(wěn)定且風(fēng)格強(qiáng)烈的視頻內(nèi)容生成,展現(xiàn)在多人及單人場(chǎng)景中的良好應(yīng)用效果,目前團(tuán)隊(duì)將相關(guān)算法落地在
QQ 短視頻開發(fā)者開放平臺(tái)。在
3D 生成上,打造超
Q 服飾紋理生成系統(tǒng),落地超
Q 秀業(yè)務(wù),給用戶帶來(lái)嶄新體驗(yàn)。
開發(fā)者如何擁抱AI 2.0時(shí)代?
易編橙網(wǎng)絡(luò)科技 CTO、「程序員 : 職場(chǎng)效能必修寶典」作者 田杰
開發(fā)者積極擁抱 AI 2.0時(shí)代,通過(guò)在 AIGC 工具層與應(yīng)用層創(chuàng)新,在細(xì)分領(lǐng)域創(chuàng)造價(jià)值,無(wú)需畏懼被技術(shù)替代,致力成為利用 AI 提升業(yè)務(wù)與個(gè)人競(jìng)爭(zhēng)力的先行者。
易編橙網(wǎng)絡(luò)科技 CTO、「程序員 : 職場(chǎng)效能必修寶典」作者 田杰在《開發(fā)者如何擁抱AI 2.0 時(shí)代》中指出,隨著 AIGC 的興起,普通開發(fā)者面臨被技術(shù)替代的焦慮,但同時(shí)存在轉(zhuǎn)型與機(jī)遇。田杰通過(guò)分析最新行業(yè)動(dòng)態(tài)、市場(chǎng)數(shù)據(jù)等,幫助開發(fā)者理清思路,鼓勵(lì)開發(fā)者把握
AIGC 新機(jī)遇,通過(guò)持續(xù)學(xué)習(xí)和創(chuàng)新,成為
AIGC 的弄潮兒。
田杰鼓勵(lì)開發(fā)者不應(yīng)局限于傳統(tǒng)編程語(yǔ)言的學(xué)習(xí),更應(yīng)關(guān)注如何結(jié)合 AI 技術(shù)提升個(gè)人競(jìng)爭(zhēng)力,利用智能體為用戶提供更高效、個(gè)性化的服務(wù)。他表示,“所有的 App 應(yīng)用都值得用 AI 重新做一遍,這就是應(yīng)用級(jí)開發(fā)者的機(jī)會(huì)”。盡管大型科技公司正積極布局大模型市場(chǎng),但對(duì)于小型企業(yè)和個(gè)人開發(fā)者而言,專注于細(xì)分領(lǐng)域、創(chuàng)新業(yè)務(wù)模式和應(yīng)用場(chǎng)景,利用好信息差和快速反應(yīng)能力,如高考志愿填報(bào)助手等,通過(guò)快速響應(yīng)市場(chǎng)需求和提供定制化解決方案, 實(shí)現(xiàn)技術(shù)與市場(chǎng)的有效對(duì)接。
結(jié)語(yǔ)
隨著 AI 技術(shù)飛速發(fā)展,AIGC 正從概念走向廣泛的應(yīng)用實(shí)踐,為各行各業(yè)帶來(lái)前所未有的創(chuàng)新變革。在本次「
AIGC 落地的正確姿勢(shì)
Techo TVP 技術(shù)沙龍」,五位技術(shù)大咖從多角度分享前沿、多元的
AIGC 親身實(shí)踐,為開發(fā)者帶來(lái)諸多啟發(fā)。在各位嘉賓的精彩分享下,本次活動(dòng)圓滿落幕。
未來(lái),騰訊云 TVP 將繼續(xù)攜手更多專家大咖,為開發(fā)者朋友分享更多干貨技術(shù)和前沿洞察、落地實(shí)踐,獻(xiàn)上一場(chǎng)場(chǎng)精彩有料、有趣、有用的技術(shù)盛宴。