展會信息港展會大全

阿里云PAI發(fā)布DeepRec Extension,打造穩(wěn)定高效的分布式訓(xùn)練,并宣布開源!
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-05-23 14:54:05   瀏覽:8673次  

導(dǎo)讀:近日, 阿里云人工智能平臺PAI正式發(fā)布自研的 DeepRec Extension (即DeepRec 擴(kuò)展), 旨在以更低成本,更高效率進(jìn)行稀疏模型的分布式訓(xùn)練。 DeepRec Extension 在 DeepRec 訓(xùn)練推理框架之上,圍繞大規(guī)模稀疏模型分布式訓(xùn)練,創(chuàng)新性地從訓(xùn)練任務(wù)的視角提出...

近日,阿里云人工智能平臺PAI正式發(fā)布自研的DeepRec Extension(即DeepRec 擴(kuò)展),旨在以更低成本,更高效率進(jìn)行稀疏模型的分布式訓(xùn)練。DeepRec Extension 在 DeepRec 訓(xùn)練推理框架之上,圍繞大規(guī)模稀疏模型分布式訓(xùn)練,創(chuàng)新性地從訓(xùn)練任務(wù)的視角提出了自動彈性訓(xùn)練和分布式容錯功能,進(jìn)一步提升稀疏模型訓(xùn)練的整體效率,助力 DeepRec 引擎在稀疏場景中發(fā)揮更大的優(yōu)勢。

DeepRec Extension 有效地解決了企業(yè)級場景大規(guī)模稀疏模型訓(xùn)練中的難點(diǎn)。隨著業(yè)務(wù)發(fā)展,模型尺寸增長到百GB / TB 量級,分布式訓(xùn)練往往會遇到分布式建模接口復(fù)雜、資源預(yù)估困難且無法彈性、分布式容錯機(jī)制過于簡單和分布式環(huán)境復(fù)雜等問題,阻礙大尺寸模型高效、穩(wěn)定地完成訓(xùn)練。DeepRec Extension 提供易用、高效、高性價比的框架,使得模型能夠便捷地在分布式環(huán)境中運(yùn)行,切實解決上述問題。

DeepRec Extension 設(shè)計思路及整體架構(gòu)

DeepRec Extension 推出分布式訓(xùn)練資源預(yù)估、自動彈性訓(xùn)練、資源/計算圖監(jiān)控、自動備份容錯等功能,有效降低了大規(guī)模稀疏模型訓(xùn)練的技術(shù)門檻和成本,同時提升了分布式訓(xùn)練的效率和穩(wěn)定性。DeepRec Extension 簡化分布式訓(xùn)練的工作流程,保障用戶聚焦于模型的構(gòu)建階段,更加專注于模型本身的創(chuàng)新與優(yōu)化,無需關(guān)注繁瑣的底層架構(gòu)配置。在性能提升方面,資源預(yù)估以及自動彈性訓(xùn)練為用戶節(jié)約 20% ~ 60% 資源,在穩(wěn)定性方面,PS 發(fā)生異常后,模型 E2E 訓(xùn)練吞吐提升 10%。

一直以來,大規(guī)模稀疏模型分布式訓(xùn)練是備受關(guān)注的話題,阿里云人工智能平臺PAI正式將DeepRec Extension 開源,與AI開發(fā)者共同打造更快更好的分布式訓(xùn)練框架,全面助力AI大模型發(fā)展!

開源地址:https://github.com/DeepRec-AI/extension

贊助本站

人工智能實驗室

相關(guān)熱詞: 阿里 PAI 發(fā)布 DeepRec Extension 打造

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港