日本免费自拍视频网站,日本人妻与黑人视频播放,jk制服女高中生自慰网站

不用GPU也能訓(xùn)練大模型？這家AI初創(chuàng)企業(yè)首推非Attention機(jī)制大模型

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-01-30 19:14:40 瀏覽：2747次

導(dǎo)讀：《科創(chuàng)板日?qǐng)?bào)》1月30日訊（記者張洋洋）在Transformer占大模型架構(gòu)主流的背景下，國(guó)內(nèi)一家AI初創(chuàng)企業(yè)正在試圖撼動(dòng)前者的主導(dǎo)地位。近期，巖山科技旗下的AI初創(chuàng)公司巖芯數(shù)智發(fā)布了國(guó)內(nèi)首個(gè)非Attention機(jī)制的大模型Yan，這是業(yè)內(nèi)少有的非Transformer架構(gòu)大...

《科創(chuàng)板日?qǐng)?bào)》1月30日訊（記者張洋洋）在Transformer占大模型架構(gòu)主流的背景下，國(guó)內(nèi)一家AI初創(chuàng)企業(yè)正在試圖撼動(dòng)前者的主導(dǎo)地位。

近期，巖山科技旗下的AI初創(chuàng)公司巖芯數(shù)智發(fā)布了國(guó)內(nèi)首個(gè)非Attention機(jī)制的大模型Yan，這是業(yè)內(nèi)少有的非Transformer架構(gòu)大模型。

Transformer是一種基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)架構(gòu)，也是當(dāng)今自然語(yǔ)言處理領(lǐng)域的主流模型架構(gòu)，它可以處理序列數(shù)據(jù)，提高翻譯、識(shí)別等任務(wù)的效果。

目前，主流的大模型系列有三個(gè)：OpenAI的GPT系列、Meta的LLaMa系列、Google的PaLM系列。國(guó)內(nèi)的大模型基本都延續(xù)了這三個(gè)系列，或是它們的一個(gè)子版本演變而來(lái)。

而上述三個(gè)系列都是基于Transformer架構(gòu)衍生而來(lái)，成為大模型的支柱。

巖芯數(shù)智CEO劉凡平在接受《科創(chuàng)板日?qǐng)?bào)》采訪時(shí)表示，Yan是一個(gè)通用大語(yǔ)言模型，采用的是公司自研的“Yan架構(gòu)”，擁有相較于同等參數(shù)Transformer的7倍訓(xùn)練效率、5倍推理吞吐、3倍記憶能力，同時(shí)支持CPU無(wú)損運(yùn)行、低幻覺(jué)表達(dá)、100%支持私有化應(yīng)用。

之所以要另辟蹊徑，劉凡平稱(chēng)，主要是標(biāo)準(zhǔn)的Transformer架構(gòu)模型，算力消耗，訓(xùn)練成本太高，交付成本也高，成本難以覆蓋客戶的付費(fèi)，不少中小型企業(yè)望而卻步，“這種情況下，如果一直做下去，我們做一單虧一單”。

面臨算力耗費(fèi)高、數(shù)據(jù)需求大等問(wèn)題，因此巖芯數(shù)智從技術(shù)上放棄了Transformer架構(gòu)和Attention機(jī)制。

對(duì)于Yan模型的落地周期和成本，劉凡平告訴記者，一個(gè)是縮短和客戶的溝通時(shí)間、減少客戶的理解成本，一般需求階段夠會(huì)在1-2個(gè)月，通過(guò)Yan架構(gòu)，1個(gè)月以內(nèi)已經(jīng)可以出為客戶私有化模型；另一方面，項(xiàng)目成本會(huì)降低，例如300萬(wàn)合同的項(xiàng)目可以降低到260萬(wàn)左右，但是利潤(rùn)不一定是下降了。

就業(yè)內(nèi)共識(shí)而言，大模型競(jìng)賽已經(jīng)從“卷參數(shù)”的時(shí)代過(guò)渡到了“卷應(yīng)用”的階段，行業(yè)對(duì)于通用大模型的需求亟待解決，故而許多大模型會(huì)通過(guò)剪枝、壓縮等主流技術(shù)手段來(lái)實(shí)現(xiàn)在設(shè)備上的運(yùn)行。

巖芯數(shù)智董事長(zhǎng)陳代千在接受《科創(chuàng)板日?qǐng)?bào)》采訪時(shí)表示，之后會(huì)做到訓(xùn)推一體，希望Yan能夠在CPU甚至在手機(jī)芯片上都能做訓(xùn)練，做推理，能在端側(cè)設(shè)備上做一些私有化的部署。

劉凡平還透露，巖芯數(shù)智第四代大模型Y2.0已經(jīng)在路上，這是一個(gè)全模態(tài)的大模型架構(gòu)，目標(biāo)是要全面打通感知、認(rèn)知、決策與行動(dòng)，構(gòu)建通用人工智能的智能循環(huán)，期望未來(lái)能做一個(gè)通用人工智能操作系統(tǒng)。

（科創(chuàng)板日?qǐng)?bào)記者張洋洋）

不用GPU也能訓(xùn)練大模型？這家AI初創(chuàng)企業(yè)首推非Attention機(jī)制大模型
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-01-30 19:14:40 瀏覽：2747次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

不用GPU也能訓(xùn)練大模型？這家AI初創(chuàng)企業(yè)首推非Attention機(jī)制大模型 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-01-30 19:14:40 瀏覽：2747次