展會(huì)信息港展會(huì)大全

不用GPU也能訓(xùn)練大模型?這家AI初創(chuàng)企業(yè)首推非Attention機(jī)制大模型
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-01-30 19:14:40   瀏覽:2747次  

導(dǎo)讀:《科創(chuàng)板日?qǐng)?bào)》1月30日訊(記者 張洋洋) 在Transformer占大模型架構(gòu)主流的背景下,國(guó)內(nèi)一家AI初創(chuàng)企業(yè)正在試圖撼動(dòng)前者的主導(dǎo)地位。 近期, 巖山科技旗下的AI初創(chuàng)公司巖芯數(shù)智發(fā)布了國(guó)內(nèi)首個(gè)非Attention機(jī)制的大模型Yan,這是業(yè)內(nèi)少有的非Transformer架構(gòu)大...

《科創(chuàng)板日?qǐng)?bào)》1月30日訊(記者 張洋洋)在Transformer占大模型架構(gòu)主流的背景下,國(guó)內(nèi)一家AI初創(chuàng)企業(yè)正在試圖撼動(dòng)前者的主導(dǎo)地位。

近期,巖山科技旗下的AI初創(chuàng)公司巖芯數(shù)智發(fā)布了國(guó)內(nèi)首個(gè)非Attention機(jī)制的大模型Yan,這是業(yè)內(nèi)少有的非Transformer架構(gòu)大模型。

Transformer是一種基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)架構(gòu),也是當(dāng)今自然語(yǔ)言處理領(lǐng)域的主流模型架構(gòu),它可以處理序列數(shù)據(jù),提高翻譯、識(shí)別等任務(wù)的效果。

目前,主流的大模型系列有三個(gè):OpenAI的GPT系列、Meta的LLaMa系列、Google的PaLM系列。國(guó)內(nèi)的大模型基本都延續(xù)了這三個(gè)系列,或是它們的一個(gè)子版本演變而來(lái)。

而上述三個(gè)系列都是基于Transformer架構(gòu)衍生而來(lái),成為大模型的支柱。

巖芯數(shù)智CEO劉凡平在接受《科創(chuàng)板日?qǐng)?bào)》采訪時(shí)表示,Yan是一個(gè)通用大語(yǔ)言模型,采用的是公司自研的“Yan架構(gòu)”,擁有相較于同等參數(shù)Transformer的7倍訓(xùn)練效率、5倍推理吞吐、3倍記憶能力,同時(shí)支持CPU無(wú)損運(yùn)行、低幻覺(jué)表達(dá)、100%支持私有化應(yīng)用。

之所以要另辟蹊徑,劉凡平稱(chēng),主要是標(biāo)準(zhǔn)的Transformer架構(gòu)模型,算力消耗,訓(xùn)練成本太高,交付成本也高,成本難以覆蓋客戶的付費(fèi),不少中小型企業(yè)望而卻步,“這種情況下,如果一直做下去,我們做一單虧一單”。

面臨算力耗費(fèi)高、數(shù)據(jù)需求大等問(wèn)題,因此巖芯數(shù)智從技術(shù)上放棄了Transformer架構(gòu)和Attention機(jī)制。

對(duì)于Yan模型的落地周期和成本,劉凡平告訴記者,一個(gè)是縮短和客戶的溝通時(shí)間、減少客戶的理解成本,一般需求階段夠會(huì)在1-2個(gè)月,通過(guò)Yan架構(gòu),1個(gè)月以內(nèi)已經(jīng)可以出為客戶私有化模型;另一方面,項(xiàng)目成本會(huì)降低,例如300萬(wàn)合同的項(xiàng)目可以降低到260萬(wàn)左右,但是利潤(rùn)不一定是下降了。

就業(yè)內(nèi)共識(shí)而言,大模型競(jìng)賽已經(jīng)從“卷參數(shù)”的時(shí)代過(guò)渡到了“卷應(yīng)用”的階段,行業(yè)對(duì)于通用大模型的需求亟待解決,故而許多大模型會(huì)通過(guò)剪枝、壓縮等主流技術(shù)手段來(lái)實(shí)現(xiàn)在設(shè)備上的運(yùn)行。

巖芯數(shù)智董事長(zhǎng)陳代千在接受《科創(chuàng)板日?qǐng)?bào)》采訪時(shí)表示,之后會(huì)做到訓(xùn)推一體,希望Yan能夠在CPU甚至在手機(jī)芯片上都能做訓(xùn)練,做推理,能在端側(cè)設(shè)備上做一些私有化的部署。

劉凡平還透露,巖芯數(shù)智第四代大模型Y2.0已經(jīng)在路上,這是一個(gè)全模態(tài)的大模型架構(gòu),目標(biāo)是要全面打通感知、認(rèn)知、決策與行動(dòng),構(gòu)建通用人工智能的智能循環(huán),期望未來(lái)能做一個(gè)通用人工智能操作系統(tǒng)。

(科創(chuàng)板日?qǐng)?bào)記者 張洋洋)

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港