展會(huì)信息港展會(huì)大全

騰訊混元大模型批量上新:10秒生成AI圖像,超過180個(gè)騰訊業(yè)務(wù)接入 | 最前線
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-11-02 13:59:41   瀏覽:4781次  

導(dǎo)讀:揭開大模型混元的面紗兩個(gè)月后,10月26日,騰訊混元迎來第一次批量上新,并且對(duì)外開放。 首先,通過測(cè)試申請(qǐng)的用戶,都能夠在混元上畫畫了從生成圖像的準(zhǔn)確度、美觀度而言,如今混元搭載的靈感模塊,已經(jīng)能生成相當(dāng)合理、逼真的圖像。 文生圖是AIGC領(lǐng)域的核...

揭開大模型“混元”的面紗兩個(gè)月后,10月26日,騰訊混元迎來第一次“批量上新”,并且對(duì)外開放。

首先,通過測(cè)試申請(qǐng)的用戶,都能夠在“混元”上畫畫了從生成圖像的準(zhǔn)確度、美觀度而言,如今混元搭載的“靈感”模塊,已經(jīng)能生成相當(dāng)合理、逼真的圖像。

文生圖是AIGC領(lǐng)域的核心技術(shù)之一,也是體現(xiàn)通用大模型能力的試金石,對(duì)模型算法、訓(xùn)練平臺(tái)、算力設(shè)施都有較高的要求。在用戶側(cè),這又是一個(gè)和廣大用戶聯(lián)系緊密的應(yīng)用入口。

智能涌現(xiàn)嘗試用簡(jiǎn)單的指令讓混元畫圖,生成速度基本在10秒左右,效果可以說風(fēng)格各異,細(xì)節(jié)比此前更為豐富。

來源:混元助手

如果指令更復(fù)雜一點(diǎn)呢?

手部細(xì)節(jié)是可以說是文生圖的一個(gè)難點(diǎn)。但在輸入彈奏古箏的指令后,如圖所見,手部細(xì)節(jié)可以說比較逼真,沒有出現(xiàn)多指、扭曲等問題。

來源:混元助手

文生圖能力升級(jí):不僅要美,更重要的是“對(duì)”

這兩個(gè)月,混元在文生圖領(lǐng)域的技術(shù)研發(fā)目標(biāo),用一句話可以總結(jié):“AI圖像不僅要美,更重要是的是‘對(duì)’。”騰訊混元大模型文生圖技術(shù)負(fù)責(zé)人蘆清林表示。

首先要把用戶的指令理解對(duì)。在大模型的指令上,混元如今對(duì)中文里的意象理解也有所進(jìn)步,采用了中英文雙語細(xì)粒度的模型,同時(shí)建模中英文進(jìn)行雙語理解。比如,輸入“輕舟已過萬重山,水墨畫風(fēng)格”,就可以得到下面的圖片:

來源:混元

能畫得更“對(duì)”,也來源于騰訊在訓(xùn)練過程中的一些算法創(chuàng)新。

“在人像上的生成合理性上,我們把人物區(qū)分成肢體和手的數(shù)據(jù),以及人體的骨架信息都加入到訓(xùn)練中,而手指頭生成的局部情況也用了多種形式控制,這樣畸形率會(huì)比較低。”騰訊混元大模型文生圖技術(shù)負(fù)責(zé)人蘆清林表示。

而畫面細(xì)節(jié)的提升,來自多種因素的總和,比如人物衣服褶皺、色彩層粗等等混元用多模型融合的方式,來對(duì)其進(jìn)行提高。

以前,文生圖產(chǎn)品用的常規(guī)擴(kuò)散模型是基于CNN等技術(shù)架構(gòu),特點(diǎn)是比較局部,對(duì)整體的結(jié)構(gòu)和刻畫能力沒有那么強(qiáng)。但現(xiàn)在,混元是基于擴(kuò)散模型和Transformer架構(gòu)相結(jié)合,可以刻畫更多細(xì)節(jié),而且對(duì)空間位置的定位能力也有加強(qiáng)。

“目前在人像的優(yōu)化上,比如頭發(fā)、皺紋,我們的效果提升了30%,在場(chǎng)景模型,比如草木、波紋,效果提升25%。”蘆清林估算。

超過180個(gè)騰訊業(yè)務(wù)接入,為廣告提效顯著

除了千億參數(shù)的主模型,騰訊混元此次也釋出了7B、13B等中小模型,主要面向垂直業(yè)務(wù)。

騰訊機(jī)器學(xué)習(xí)平臺(tái)負(fù)責(zé)人康戰(zhàn)輝表示,目前千億級(jí)別的混元模型訓(xùn)練,涉及了超過了2.5T的數(shù)據(jù)。而最近一個(gè)多月,混元大模型能力提升比較大的在代碼能力以及數(shù)據(jù)推理,效果較此前有20%的提升。并且,對(duì)話上下文窗口,也從原來的4K,中小模型可以長至16K。

而第三季度,可以說是國內(nèi)大模型領(lǐng)域的關(guān)鍵節(jié)點(diǎn)包括百度、訊飛在內(nèi)的各家廠商都不約而同地匯報(bào)對(duì)標(biāo)GPT-3.5的進(jìn)展。

在這個(gè)層面,騰訊表示,如今混元的千億級(jí)主模型,中文效果整體超過GPT3.5,而7B/13B中小模型實(shí)測(cè)效果整體優(yōu)于國內(nèi)外開源模型,如LLaMA2等。

康戰(zhàn)輝尤其指出了壓縮比這一參數(shù)同等效果下,混元僅需較少的tokens,訓(xùn)練效率更高。如今,基于,基于探真技術(shù),混元大模型的幻覺率也下降了30%-50%。

而基于這些模型,大模型接入業(yè)務(wù)的形式既有API接入,也有基于混元進(jìn)行精調(diào)后再部署。

在9月剛發(fā)布時(shí),騰訊只有約60個(gè)業(yè)務(wù)接入,但兩個(gè)月之后,這個(gè)數(shù)字變成了180個(gè)。

騰訊內(nèi)部各種類型的業(yè)務(wù),可以看作大模型落地的切面。

騰訊機(jī)器學(xué)習(xí)平臺(tái)負(fù)責(zé)人康戰(zhàn)輝表示,其中60多個(gè)業(yè)務(wù)是基于混元做精調(diào),比如騰訊會(huì)議、騰訊文檔、企業(yè)微信、騰訊廣告等。

而能落地的功能也越來也多。比如最近,QQ瀏覽器就基于騰訊混元推出了“PDF閱讀助手”,具備智能摘要、智能問答和多輪提問等功能。

可以看出,大模型落地已經(jīng)到了一個(gè)新階段。業(yè)內(nèi)對(duì)大模型落地的討論,也已經(jīng)從參數(shù)量,進(jìn)一步到更具體的模型選型用大模型還是小模型?如何更切實(shí)地降低模型應(yīng)用成本?

康戰(zhàn)輝介紹,當(dāng)前騰訊內(nèi)部業(yè)務(wù)的應(yīng)用很多還是以效果為主。但每個(gè)業(yè)務(wù)都會(huì)根據(jù)自己的實(shí)際情況和場(chǎng)景,來選擇合適模型。“比如廣告肯定要兼顧成本,這是很復(fù)雜、務(wù)實(shí)的選擇。”

目前,已有來自零售、教育、金融、醫(yī)療、傳媒、交通、政務(wù)等多個(gè)行業(yè)的客戶,通過騰訊云調(diào)用騰訊混元大模型API,應(yīng)用領(lǐng)域涉及智能問答、內(nèi)容創(chuàng)作、數(shù)據(jù)分析、代碼助手等多個(gè)場(chǎng)景。這些業(yè)務(wù)里,既有使用千億模型,也有采用小模型,或者混合模型模式。

其中,騰訊廣告既是騰訊的核心業(yè)務(wù)之一,在大模型應(yīng)用上也是走在前列的業(yè)務(wù)。

最早,騰訊就在廣告場(chǎng)景進(jìn)行AI自動(dòng)生成圖像的探索,如今騰訊混元的文生圖在人像真實(shí)感、場(chǎng)景真實(shí)感上有比較明顯的優(yōu)勢(shì)。

“對(duì)包括傳統(tǒng)廣告的素材、創(chuàng)意生成、廣告鏈路推薦等等,如今我們也能用混元來進(jìn)行生成。”康戰(zhàn)輝說。

而通過實(shí)測(cè)數(shù)據(jù)不斷迭代,相較Midjourney等文生圖的標(biāo)桿模型,混元對(duì)廣告業(yè)務(wù)的提升已經(jīng)有明顯優(yōu)勢(shì)。“經(jīng)過幾個(gè)月的攻堅(jiān),我們比MJ在廣告場(chǎng)景的應(yīng)用明顯好一些,評(píng)測(cè)的goodcase率要比MJ高10個(gè)點(diǎn)左右,廣告主測(cè)評(píng)采納率混元比MJ高48%。”康戰(zhàn)輝透露。

另外,混元代碼、數(shù)學(xué)能力大幅提升后,當(dāng)前也已經(jīng)能在軟件研發(fā)、學(xué)習(xí)等環(huán)節(jié)提供更多幫助。當(dāng)前,騰訊混元代碼處理水平提升超過20%,代碼處理效果在實(shí)測(cè)中高于ChatGPT 6.34%,在HumanEval公開測(cè)試集指標(biāo)上超過Starcoder、Codellama等業(yè)界頭部開源代碼大模型。

只需輸入簡(jiǎn)單的指令如“幫我用前端語言實(shí)現(xiàn)一個(gè)貪吃蛇”,騰訊混元便能自動(dòng)生成可運(yùn)行的代碼,快速制作出一個(gè)貪吃蛇小游戲。

來源:騰訊

此外,騰訊混元還支持Python、C++、Java、Javascript等多種語言的指令生成,比如輸入“用Python畫紅色的心形線”,騰訊混元也會(huì)提供代碼庫選擇、安裝命令、繪制代碼等具體操作步驟的指引。

目前,騰訊內(nèi)部已經(jīng)有多個(gè)開發(fā)平臺(tái)接入了騰訊混元大模型,工程師們可以使用騰訊混元來進(jìn)行代碼生成、代碼補(bǔ)全、代碼漏洞檢測(cè)和修復(fù)、表格數(shù)據(jù)處理、數(shù)據(jù)庫查詢等工作。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港