展會信息港展會大全

研究人員推出 xLSTM 神經(jīng)網(wǎng)絡架構(gòu),可同時處理所有 Token
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-05-13 14:53:30   瀏覽:2108次  

導讀:IT之家 5 月 13 日消息,研究人員 Sepp Hochreiter 和 Jrgen Schmidhuber 在 1997 年共同提出了長短期記憶(Long short-term memory,LSTM)神經(jīng)網(wǎng)絡結(jié)構(gòu),可用來解決循環(huán)神經(jīng)網(wǎng)絡(RNN)長期記憶能力不足的問題。 而最近 Sepp Hochreiter 在arXiv上發(fā)布論文...

IT之家 5 月 13 日消息,研究人員 Sepp Hochreiter 和 Jürgen Schmidhuber 在 1997 年共同提出了長短期記憶(Long short-term memory,LSTM)神經(jīng)網(wǎng)絡結(jié)構(gòu),可用來解決循環(huán)神經(jīng)網(wǎng)絡(RNN)長期記憶能力不足的問題。

而最近 Sepp Hochreiter 在arXiv上發(fā)布論文,提出了一種名為 xLSTM(Extended LSTM)的新架構(gòu),號稱可以解決 LSTM 長期以來“只能按照時序處理信息”的“最大痛點”,從而“迎戰(zhàn)”目前廣受歡迎的 Transformer 架構(gòu)。

IT之家從論文中獲悉,Sepp Hochreiter 在新的 xLSTM 架構(gòu)中采用了指數(shù)型門控循環(huán)網(wǎng)絡,同時為神經(jīng)網(wǎng)絡結(jié)構(gòu)引入了“sLSTM”和“mLSTM”兩項記憶規(guī)則,從而允許相關神經(jīng)網(wǎng)絡結(jié)構(gòu)能夠有效地利用RAM,實現(xiàn)類 Transformer“可同時對所有 Token 進行處理”的并行化操作。

團隊使用了 150 億個 Token 訓練基于 xLSTM 及 Transformer 架構(gòu)的兩款模型進行測試,在評估后發(fā)現(xiàn) xLSTM 表現(xiàn)最好,尤其在“語言能力”方面最為突出,據(jù)此研究人員認為 xLSTM 未來有望能夠與 Transformer 進行“一戰(zhàn)”。

贊助本站

人工智能實驗室
相關內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港