當(dāng)前位置：人工智能實(shí)驗(yàn)室> 機(jī)器學(xué)習(xí) > 百度在產(chǎn)業(yè)級(jí)深度學(xué)習(xí)框架和平臺(tái)建設(shè)的實(shí)踐與思考

百度在產(chǎn)業(yè)級(jí)深度學(xué)習(xí)框架和平臺(tái)建設(shè)的實(shí)踐與思考
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2023-09-27 09:46:58 瀏覽：76773次

導(dǎo)讀：作為人工智能的核心基礎(chǔ)技術(shù)，深度學(xué)習(xí)具有很強(qiáng)的通用性，推動(dòng)人工智能進(jìn)入工業(yè)大生產(chǎn)階段。作為中國(guó)首個(gè)自主研發(fā)、開(kāi)源開(kāi)放的產(chǎn)業(yè)級(jí)深度學(xué)習(xí)框架和平臺(tái)，截至2023年8月，飛槳匯聚了800萬(wàn)開(kāi)發(fā)者，服務(wù)22萬(wàn)家企事業(yè)單位。產(chǎn)業(yè)級(jí)深度學(xué)習(xí)框架和平臺(tái)該如何建設(shè)...

作為人工智能的核心基礎(chǔ)技術(shù)，深度學(xué)習(xí)具有很強(qiáng)的通用性，推動(dòng)人工智能進(jìn)入工業(yè)大生產(chǎn)階段。作為中國(guó)首個(gè)自主研發(fā)、開(kāi)源開(kāi)放的產(chǎn)業(yè)級(jí)深度學(xué)習(xí)框架和平臺(tái)，截至2023年8月，飛槳匯聚了800萬(wàn)開(kāi)發(fā)者，服務(wù)22萬(wàn)家企事業(yè)單位。產(chǎn)業(yè)級(jí)深度學(xué)習(xí)框架和平臺(tái)該如何建設(shè)？百度飛槳團(tuán)隊(duì)帶來(lái)了他們的實(shí)踐和思考。

作者 | 胡曉光，于佃海，馬艷軍

出品 | 《新程序員》編輯部

以深度學(xué)習(xí)框架為核心的深度學(xué)習(xí)平臺(tái)是人工智能時(shí)代技術(shù)研發(fā)必不可少的基礎(chǔ)軟件，可類(lèi)比智能時(shí)代的操作系統(tǒng)。深度學(xué)習(xí)框架向下通過(guò)基礎(chǔ)操作的抽象以隔離不同芯片的差異，向上通過(guò)提供簡(jiǎn)單易用的接口以支持深度學(xué)習(xí)模型的開(kāi)發(fā)、訓(xùn)練和部署，可極大地加速深度學(xué)習(xí)技術(shù)的創(chuàng)新與應(yīng)用。

作為人工智能重大共性關(guān)鍵技術(shù)，國(guó)家“十四五”規(guī)劃綱要將深度學(xué)習(xí)框架列入前沿領(lǐng)域“新一代人工智能”的重點(diǎn)科技攻關(guān)任務(wù)。放眼全球，人工智能領(lǐng)域知名研究機(jī)構(gòu)和相關(guān)高科技公司也都對(duì)深度學(xué)習(xí)框架給予了極大關(guān)注。谷歌公司推出的 TensorFlow 和 Meta 公司(原 Facebook)推出了 PyTorch (現(xiàn)已轉(zhuǎn)入 Linux 基金會(huì))是其中代表性產(chǎn)品。

2016 年，百度開(kāi)源了深度學(xué)習(xí)框架 PaddlePaddle，并于 2019 年發(fā)布中文名“飛槳”。時(shí)間回到 2012 年，深度學(xué)習(xí)技術(shù)潛力初露端倪，百度就開(kāi)始在語(yǔ)音識(shí)別、語(yǔ)義表示和 OCR 文字識(shí)別等領(lǐng)域切入展開(kāi)深度學(xué)習(xí)技術(shù)研發(fā)和應(yīng)用，其深度學(xué)習(xí)框架研發(fā)始于 2013 年。百度在深度學(xué)習(xí)領(lǐng)域領(lǐng)先布局，驅(qū)動(dòng)力在于它看到了共性技術(shù)需求以深層神經(jīng)網(wǎng)絡(luò)為主體的深度學(xué)習(xí)技術(shù)，在編程和計(jì)算上可以很好地進(jìn)行通用技術(shù)抽象，使建設(shè)一個(gè)通用開(kāi)發(fā)框架具備可行性。

接下來(lái)將從深度學(xué)習(xí)框架和平臺(tái)核心的技術(shù)、生態(tài)建設(shè)、平臺(tái)建設(shè)的三個(gè)關(guān)鍵點(diǎn)，以及趨勢(shì)和展望四個(gè)部分，詳盡介紹百度是如何進(jìn)行深度學(xué)習(xí)底層框架架構(gòu)和建設(shè)的。

深度學(xué)習(xí)框架和平臺(tái)核心技術(shù)

深度學(xué)習(xí)平臺(tái)適配對(duì)接底層硬件，為各類(lèi)深度學(xué)習(xí)模型的開(kāi)發(fā)、訓(xùn)練和推理部署提供全流程支撐，通用性是深度學(xué)習(xí)平臺(tái)的基礎(chǔ)要求。從面向算法研究和一般開(kāi)發(fā)來(lái)講，需要有很好的靈活性。從面向產(chǎn)業(yè)應(yīng)用來(lái)講，高性能非常關(guān)鍵，同時(shí)需要考慮實(shí)際應(yīng)用的各種復(fù)雜環(huán)境、嚴(yán)苛要求，并進(jìn)一步降低門(mén)檻。以下重點(diǎn)介紹產(chǎn)業(yè)級(jí)深度學(xué)習(xí)平臺(tái)所需的四個(gè)方面的核心技術(shù)，并結(jié)合國(guó)內(nèi)外主流平臺(tái)剖析其中的挑戰(zhàn)和業(yè)界實(shí)踐。

動(dòng)靜統(tǒng)一的開(kāi)發(fā)范式

如何對(duì)深度學(xué)習(xí)計(jì)算進(jìn)行抽象表達(dá)，并提供對(duì)應(yīng)的編程開(kāi)發(fā)模式和運(yùn)行機(jī)制，是深度學(xué)習(xí)框架的關(guān)鍵且基礎(chǔ)的功能。這也被表述為深度學(xué)習(xí)框架的開(kāi)發(fā)范式，會(huì)同時(shí)影響開(kāi)發(fā)體驗(yàn)和執(zhí)行效率。

根據(jù)神經(jīng)網(wǎng)絡(luò)計(jì)算圖創(chuàng)建方式和執(zhí)行機(jī)制的不同，深度學(xué)習(xí)框架開(kāi)發(fā)范式有兩大類(lèi)。一類(lèi)是以 TensorFlow 1.0 版本為代表的靜態(tài)圖開(kāi)發(fā)范式，需要把神經(jīng)網(wǎng)絡(luò)模型提前定義為完整的計(jì)算圖，用不同批次的數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)，計(jì)算圖會(huì)被反復(fù)執(zhí)行，但不再發(fā)生變化。另一類(lèi)是以 PyTorch 為代表的動(dòng)態(tài)圖開(kāi)發(fā)范式，用不同批次的數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)，計(jì)算圖被即時(shí)創(chuàng)建和執(zhí)行，每個(gè)批次數(shù)據(jù)所使用的計(jì)算圖可以動(dòng)態(tài)變化。

動(dòng)態(tài)圖模式具有更友好的開(kāi)發(fā)調(diào)試的編程體驗(yàn)，已經(jīng)成為業(yè)內(nèi)默認(rèn)的主流開(kāi)發(fā)范式。但也存在一些局限性，如由于缺乏靜態(tài)全圖表示導(dǎo)致難以序列化保存模型，從而難以脫離訓(xùn)練環(huán)境部署，并且難以進(jìn)行全局性能優(yōu)化等，而這些在靜態(tài)圖模式下是非常容易實(shí)現(xiàn)的。因此，理想的方式是兼顧動(dòng)態(tài)圖和靜態(tài)圖的優(yōu)勢(shì)。

百度團(tuán)隊(duì)于 2019 年提出了“動(dòng)靜統(tǒng)一”的方案并沿著這一技術(shù)路線(xiàn)進(jìn)行研發(fā)。“動(dòng)靜統(tǒng)一”體現(xiàn)為以下幾方面：動(dòng)態(tài)圖和靜態(tài)圖統(tǒng)一的開(kāi)發(fā)接口設(shè)計(jì)、底層算子實(shí)現(xiàn)和高階自動(dòng)微分能力、動(dòng)態(tài)圖到靜態(tài)圖執(zhí)行模式的低成本轉(zhuǎn)換、動(dòng)轉(zhuǎn)靜訓(xùn)練加速，以及靜態(tài)圖模式的靈活部署。這一方案兼顧了動(dòng)態(tài)圖的靈活性和靜態(tài)圖的高效性。

然而，如何支持靈活的 Python 語(yǔ)法是動(dòng)轉(zhuǎn)靜的一大挑戰(zhàn)。由于缺少靜態(tài)圖的執(zhí)行模式，PyTorch 的 TorchScript 的轉(zhuǎn)換技術(shù)，需要將 Python 代碼轉(zhuǎn)換為自定義的 IR 表示，由于它所支持的 Python 語(yǔ)法低于 40%，許多模型無(wú)法轉(zhuǎn)換部署。而得益于完整的動(dòng)態(tài)圖和靜態(tài)圖實(shí)現(xiàn)，飛槳的動(dòng)轉(zhuǎn)靜技術(shù)自動(dòng)將動(dòng)態(tài)圖的 Python 代碼轉(zhuǎn)換為靜態(tài)圖的 Python 代碼，然后由 Python 解釋器執(zhí)行并生成靜態(tài)圖，可支持 90% 以上的 Python 語(yǔ)法，新模型的動(dòng)轉(zhuǎn)靜直接成功率達(dá) 92%。

AI for Science 場(chǎng)景的高階微分方程求解需求，對(duì)應(yīng)著框架的高階微分能力，對(duì)動(dòng)靜統(tǒng)一提出了進(jìn)一步的挑戰(zhàn)。國(guó)內(nèi)外主流框架均在這一能力上進(jìn)行了布局和探索。以飛槳為例，通過(guò)基礎(chǔ)算子體系定義的算子拆分規(guī)則將復(fù)雜算子拆分成基礎(chǔ)算子，通過(guò)基礎(chǔ)算子的變換規(guī)則，進(jìn)行前向自動(dòng)微分和反向自動(dòng)微分兩種程序變換，實(shí)現(xiàn)高效計(jì)算高階導(dǎo)數(shù)，具備通用性和可擴(kuò)展性。拆分后的基礎(chǔ)算子組成的靜態(tài)計(jì)算圖，通過(guò)神經(jīng)網(wǎng)絡(luò)編譯器技術(shù)，實(shí)現(xiàn) Pass 優(yōu)化、算子融合和自動(dòng)代碼生成。以流體力學(xué)領(lǐng)域常用的 Laplace 方程求解任務(wù)為例，基于神經(jīng)網(wǎng)絡(luò)編譯器優(yōu)化技術(shù)性能可提升 3 倍。

超大規(guī)模訓(xùn)練技術(shù)

深度學(xué)習(xí)的效果通常隨著訓(xùn)練數(shù)據(jù)規(guī)模和模型參數(shù)規(guī)模的增加而提升。在實(shí)際產(chǎn)業(yè)應(yīng)用中，大數(shù)據(jù)+大模型如何高效訓(xùn)練，是深度學(xué)習(xí)框架需要考量的重要問(wèn)題。而預(yù)訓(xùn)練大模型的興起，使得訓(xùn)練的挑戰(zhàn)進(jìn)一步加大。比如 2020 年發(fā)布的 GPT-3 模型參數(shù)量就已高達(dá) 1,750 億，單機(jī)已經(jīng)無(wú)法訓(xùn)練。

大規(guī)模訓(xùn)練能力已經(jīng)成為產(chǎn)業(yè)級(jí)深度學(xué)習(xí)平臺(tái)競(jìng)相發(fā)力的關(guān)鍵方向，而這一能力的建設(shè)和成熟非常依賴(lài)真實(shí)的產(chǎn)業(yè)環(huán)境應(yīng)用打磨。以飛槳為例，已具備完備可靠的分布式訓(xùn)練能力，建設(shè)了端到端自適應(yīng)分布式訓(xùn)練架構(gòu)，以及通用異構(gòu)參數(shù)服務(wù)器和超大規(guī)模圖學(xué)習(xí)訓(xùn)練等特色技術(shù)。

端到端自適應(yīng)分布式訓(xùn)練架構(gòu)

在深度學(xué)習(xí)模型參數(shù)規(guī)模日益增大的同時(shí)，模型特性和硬件環(huán)境也復(fù)雜多樣，這使得大規(guī)模訓(xùn)練的技術(shù)實(shí)現(xiàn)和性能效果的遷移成本很高。飛槳統(tǒng)籌考慮硬件和算法，提出了端到端自適應(yīng)分布式訓(xùn)練架構(gòu)(見(jiàn)圖1)。該架構(gòu)可以針對(duì)不同的深度學(xué)習(xí)算法抽象成統(tǒng)一的計(jì)算視圖，自動(dòng)感知硬件環(huán)境并抽象成統(tǒng)一的異構(gòu)資源視圖。采用代價(jià)模型對(duì)兩者進(jìn)行聯(lián)合建模，自動(dòng)選擇最優(yōu)的模型切分和硬件組合方案，構(gòu)建流水線(xiàn)進(jìn)行異步高效執(zhí)行。

圖1端到端自適應(yīng)分布式訓(xùn)練架構(gòu)

通用異構(gòu)參數(shù)服務(wù)器技術(shù)

有一類(lèi)特殊的深度學(xué)習(xí)大規(guī)模訓(xùn)練任務(wù)，廣泛應(yīng)用于互聯(lián)網(wǎng)領(lǐng)域的搜索、推薦等場(chǎng)景，不但數(shù)據(jù)量大，特征維度極高且稀疏。這類(lèi)任務(wù)的分布式訓(xùn)練一般采用參數(shù)服務(wù)器技術(shù)來(lái)解決超大規(guī)模稀疏參數(shù)的分布式存儲(chǔ)和更新問(wèn)題。但如果想對(duì)千億、萬(wàn)億規(guī)模參數(shù)的模型實(shí)現(xiàn)高效支持，需要在參數(shù)服務(wù)器架構(gòu)設(shè)計(jì)和計(jì)算通信策略上全面創(chuàng)新突破。

為此，飛槳在支持萬(wàn)億規(guī)模的 CPU 參數(shù)服務(wù)器和 GPU 參數(shù)服務(wù)器的基礎(chǔ)上，于 2020 年推出支持 AI 硬件混布調(diào)度的異構(gòu)參數(shù)服務(wù)。由不同類(lèi)型的計(jì)算單元負(fù)責(zé)不同性質(zhì)的任務(wù)單元，可以綜合利用不用硬件的優(yōu)勢(shì)，使整體計(jì)算成本降至最低�？紤]到擴(kuò)展性問(wèn)題，進(jìn)一步將其中的基礎(chǔ)模塊通用化，提升二次開(kāi)發(fā)體驗(yàn)，便于產(chǎn)業(yè)應(yīng)用中廣泛定制開(kāi)發(fā)。以新增支持昆侖芯 XPU 的參數(shù)服務(wù)器為例，在復(fù)用通用模塊的基礎(chǔ)上，只需增加三個(gè)硬件相關(guān)的定制模塊，就能使開(kāi)發(fā)量從原來(lái)的萬(wàn)行減少至千行。

超大規(guī)模圖學(xué)習(xí)訓(xùn)練技術(shù)

除傳統(tǒng)深度學(xué)習(xí)任務(wù)之外，大規(guī)模圖學(xué)習(xí)正日益受到更多關(guān)注。現(xiàn)實(shí)世界中很多實(shí)體及關(guān)系可以通過(guò)節(jié)點(diǎn)和邊構(gòu)成的圖來(lái)描述，如網(wǎng)頁(yè)和網(wǎng)頁(yè)鏈接組成的網(wǎng)絡(luò)、路口和道路組成的交通路網(wǎng)等。由數(shù)百億節(jié)點(diǎn)和數(shù)百億邊構(gòu)成的龐大圖，對(duì)算法和算力都提出了巨大挑戰(zhàn)。結(jié)合圖學(xué)習(xí)特性和計(jì)算硬件特點(diǎn)而推出的基于 GPU 的超大規(guī)模圖學(xué)習(xí)訓(xùn)練技術(shù) PGLBox，通過(guò)顯存、內(nèi)存、 SSD 三級(jí)存儲(chǔ)技術(shù)和訓(xùn)練框架的性能優(yōu)化技術(shù)，單機(jī)可支持百億節(jié)點(diǎn)、數(shù)百億邊的圖采樣和訓(xùn)練，并可通過(guò)多機(jī)擴(kuò)展支持更大規(guī)模。

多端多平臺(tái)高性能推理引擎

推理部署是 AI 模型產(chǎn)業(yè)應(yīng)用的關(guān)鍵環(huán)節(jié)，被視為 AI 落地的最后一公里，面臨“部署場(chǎng)景多、芯片種類(lèi)多、性能要求高”三方面的挑戰(zhàn)。部署場(chǎng)景涉及服務(wù)器端、邊緣端、移動(dòng)端和網(wǎng)頁(yè)前端，部署環(huán)境和性能要求差異巨大。芯片種類(lèi)方面，既有X86/ARM不同架構(gòu)的CPU芯片和通用的GPU芯片，也包括大量的AI專(zhuān)用XPU芯片和 FPGA芯片。性能方面，因?yàn)橥评碇苯用嫦驊?yīng)用，對(duì)服務(wù)響應(yīng)時(shí)間、吞吐、功耗等都有很高的要求，因此建設(shè)一整套完整的推理部署工具鏈至關(guān)重要。以下以飛槳的訓(xùn)推一體化工具鏈為例(見(jiàn)圖2) ，分析如何解決推理部署的系列難題。

圖2 飛槳訓(xùn)推一體化工具鏈

針對(duì)部署場(chǎng)景多的問(wèn)題，我們提供原生推理庫(kù)及服務(wù)化部署框架、輕量化推理引擎、前端推理引擎，旨在全面解決云、邊、端不同場(chǎng)景的部署問(wèn)題。為了進(jìn)一步提升推理速度，我們通過(guò)模型壓縮工具PaddleSlim支持量化、稀疏化、知識(shí)蒸餾和結(jié)構(gòu)搜索等模型壓縮策略，并提供自動(dòng)化壓縮功能。通過(guò)解耦訓(xùn)練代碼、離線(xiàn)量化超參搜索、算法自動(dòng)組合和硬件感知，實(shí)現(xiàn)一鍵模型自動(dòng)壓縮，大大降低了模型壓縮的使用門(mén)檻。

針對(duì)芯片種類(lèi)多的問(wèn)題，我們?cè)O(shè)計(jì)了統(tǒng)一硬件接入方案 NNAdapter 和訓(xùn)推一體基礎(chǔ)架構(gòu)，可支持一次訓(xùn)練、隨處部署，滿(mǎn)足基于廣泛推理硬件的部署需求。NNAdapter 支持將不同硬件的特性差異統(tǒng)一到一套標(biāo)準(zhǔn)化開(kāi)發(fā) API 上，可以實(shí)現(xiàn)將模型部署到已適配飛槳的所有推理硬件上。此外，支持完善的模型轉(zhuǎn)換工具X2Paddle 和 Paddle2ONNX，以兼容生態(tài)中不同后端和不同平臺(tái)的模型表示。

針對(duì)性能要求高的問(wèn)題，分別從硬件特性、算子融合、圖優(yōu)化、低精度和執(zhí)行調(diào)度等五個(gè)角度對(duì)不同場(chǎng)景進(jìn)行全面優(yōu)化。對(duì)于文心千億大模型服務(wù)器端推理，得益于算子多層融合、模型并行、流水線(xiàn)并行、大模型量化和稀疏化壓縮等多種策略。在智能手機(jī)移動(dòng)端 ARM CPU 推理場(chǎng)景上，通過(guò) Cortex-A 系列處理器的硬件特性?xún)?yōu)化、計(jì)算圖優(yōu)化和模型全量化等多種技術(shù)，滿(mǎn)足多樣化的應(yīng)用場(chǎng)景對(duì)性能的苛刻要求。

由于推理部署所涉及的工具較多，用一個(gè)統(tǒng)一工具解決以上問(wèn)題可進(jìn)一步提升開(kāi)發(fā)效率。FastDeploy AI 部署工具，通過(guò)一站式工具可進(jìn)一步簡(jiǎn)化整個(gè)推理部署過(guò)程，加速 AI 應(yīng)用落地。

產(chǎn)業(yè)級(jí)模型庫(kù)

雖然產(chǎn)業(yè)級(jí)深度學(xué)習(xí)平臺(tái)提供了從開(kāi)發(fā)訓(xùn)練到推理部署全流程的能力支持，但我們同時(shí)注意到，在實(shí)際的 AI 產(chǎn)業(yè)應(yīng)用中，很多用戶(hù)往往基于已有模型復(fù)用或二次開(kāi)發(fā)。伴隨技術(shù)的快速發(fā)展，學(xué)術(shù)界涌現(xiàn)了大量的算法，但開(kāi)發(fā)者依然面臨匹配場(chǎng)景需求的模型難找、模型精度和速度難平衡、推理部署應(yīng)用難等共性挑戰(zhàn)�；诖�，飛槳研制了產(chǎn)業(yè)級(jí)模型庫(kù)。

目前，模型庫(kù)支持算法總數(shù)超過(guò) 600 個(gè)。包含覆蓋自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、語(yǔ)音、推薦、時(shí)序建模、科學(xué)計(jì)算、生物計(jì)算、量子計(jì)算等領(lǐng)域。以計(jì)算機(jī)視覺(jué)為例，針對(duì)圖像分類(lèi)、檢測(cè)、分割、字符識(shí)別等不同任務(wù)，發(fā)布PaddleClas、PaddleDetection、PaddleSeg、PaddleOCR 等端到端開(kāi)發(fā)套件。其中，特別包含 42 個(gè)深度優(yōu)化、精度與性能平衡的 PP 系列模型，以及文心系列大模型。

深度學(xué)習(xí)框架和平臺(tái)生態(tài)的建設(shè)

深度學(xué)習(xí)平臺(tái)下接芯片，上承應(yīng)用，在人工智能技術(shù)體系中處于貫通上下的腰部核心位置。也正因如此，深度學(xué)習(xí)平臺(tái)必須在生態(tài)建設(shè)過(guò)程中持續(xù)迭代演進(jìn)，與上下游協(xié)同構(gòu)建完整的人工智能生態(tài)體系。生態(tài)建設(shè)的成效很大程度上依賴(lài)深度學(xué)習(xí)框架和平臺(tái)的核心技術(shù)和功能體驗(yàn)。同時(shí)，生態(tài)建設(shè)本身也能加速框架和平臺(tái)功能體驗(yàn)的優(yōu)化和核心技術(shù)的創(chuàng)新。因此，準(zhǔn)確把握二者關(guān)系，選擇合適的時(shí)機(jī)和運(yùn)營(yíng)方式來(lái)建設(shè)生態(tài)至關(guān)重要。

首先，深度學(xué)習(xí)平臺(tái)需要廣泛地跟硬件芯片適配和融合優(yōu)化，作為基礎(chǔ)設(shè)施共同支撐廣泛的AI應(yīng)用，因此構(gòu)建基礎(chǔ)軟硬件生態(tài)是首要。企業(yè)作為人工智能應(yīng)用的主體，在整個(gè)生態(tài)體系中發(fā)揮著重要作用。深度學(xué)習(xí)平臺(tái)要成為企業(yè)智能化升級(jí)中的共享底座，才能更高效推動(dòng)人工智能更廣泛的應(yīng)用落地。產(chǎn)業(yè)智能化升級(jí)需要大量新技術(shù)的AI人才，亟須企業(yè)與高校合作開(kāi)展產(chǎn)教融合的人才培養(yǎng)。因此，圍繞高校等建設(shè)的教育生態(tài)也至關(guān)重要。同時(shí)，深度學(xué)習(xí)平臺(tái)的發(fā)展離不開(kāi)開(kāi)源社區(qū)所搭建的環(huán)境，在與社區(qū)共創(chuàng)、共享中才能加速發(fā)展。

結(jié)語(yǔ)：趨勢(shì)和展望

當(dāng)下，人工智能呈現(xiàn)出顯著的融合創(chuàng)新和降低門(mén)檻的特點(diǎn)。知識(shí)與深度學(xué)習(xí)的融合、跨模態(tài)融合、軟硬一體融合、 AI+X 融合將會(huì)更加深入，深度學(xué)習(xí)平臺(tái)將為人工智能的融合創(chuàng)新提供基礎(chǔ)支撐。同時(shí)，生成式AI和大語(yǔ)言模型技術(shù)的快速發(fā)展，人工智能的應(yīng)用門(mén)檻再度降低，將極大加速人工智能的產(chǎn)業(yè)落地，助力實(shí)體經(jīng)濟(jì)的發(fā)展，深度學(xué)習(xí)平臺(tái)+大模型將在其中發(fā)揮關(guān)鍵作用。

隨著大模型和 AI for Science 等技術(shù)的發(fā)展，人工智能的潛力會(huì)更大釋放。通過(guò)持續(xù)技術(shù)創(chuàng)新突破和產(chǎn)品能力提升，建設(shè)更加繁榮的 AI 生態(tài)，產(chǎn)業(yè)級(jí)深度學(xué)習(xí)平臺(tái)和大模型協(xié)同優(yōu)化，將更好地支撐人工智能技術(shù)創(chuàng)新與應(yīng)用，推動(dòng)產(chǎn)業(yè)加速實(shí)現(xiàn)智能化升級(jí)，讓 AI 惠及千行百業(yè)。

作者簡(jiǎn)介

馬艷軍，百度AI技術(shù)生態(tài)總經(jīng)理，總體負(fù)責(zé)深度學(xué)習(xí)平臺(tái)飛槳(PaddlePaddle)的產(chǎn)品和技術(shù)研發(fā)及生態(tài)建設(shè),主要研究方向包括自然語(yǔ)言處理、深度學(xué)習(xí)等，相關(guān)成果在百度產(chǎn)品中廣泛應(yīng)用。在ACL等權(quán)威會(huì)議、期刊發(fā)表論文 20余篇 , 多次擔(dān)任頂級(jí)國(guó)際會(huì)議的Area Chair等 ,并曾獲 2015年度國(guó)家科技進(jìn)步二等獎(jiǎng)。2018年被評(píng)為“北京青年榜樣時(shí)代楷模”。

胡曉光，百度深度學(xué)習(xí)技術(shù)平臺(tái)部杰出研發(fā)架構(gòu)師，有10多年的深度學(xué)習(xí)算法和框架工程研發(fā)實(shí)踐經(jīng)驗(yàn)。現(xiàn)負(fù)責(zé)飛槳核心框架的技術(shù)研發(fā)，設(shè)計(jì)了飛槳框架2.0全新的API 體系，形成了飛槳API動(dòng)靜統(tǒng)一、高低融合的特色；牽頭研制飛槳產(chǎn)業(yè)級(jí)開(kāi)源模型庫(kù)，并實(shí)現(xiàn)大規(guī)模產(chǎn)業(yè)應(yīng)用；研發(fā)飛槳高階自動(dòng)微分機(jī)制，并結(jié)合編譯器和分布式訓(xùn)練技術(shù)更高效地支持科學(xué)研究和產(chǎn)業(yè)應(yīng)用。

于佃海，百度飛槳深度學(xué)習(xí)平臺(tái)總架構(gòu)師, 百度集團(tuán)機(jī)器學(xué)習(xí)平臺(tái)TOC主席，中國(guó)計(jì)算機(jī)學(xué)會(huì) (CCF)高級(jí)會(huì)員。構(gòu)建了百度首個(gè)大規(guī)模分布式機(jī)器學(xué)習(xí)訓(xùn)練系統(tǒng) ,最早將機(jī)器學(xué)習(xí)技術(shù)引入百度搜索排序，建設(shè)了百度最早的機(jī)器學(xué)習(xí)基礎(chǔ)算法庫(kù)和實(shí)驗(yàn)平臺(tái)。曾獲中國(guó)電子學(xué)會(huì)科技進(jìn)步一等獎(jiǎng)、北京市科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)、 CCF杰出工程師獎(jiǎng)。

本文節(jié)選自《新程序員006：人工智能新十年》，特邀數(shù)十位 AI 產(chǎn)業(yè)界資深技術(shù)專(zhuān)家，梳理 AI 技術(shù)領(lǐng)域的前沿觀點(diǎn)、理論研究、實(shí)踐案例，以及技術(shù)選型等內(nèi)容，通過(guò)人物訪談、理論思考以及案例解讀等多媒體內(nèi)容形式呈現(xiàn)，讓你快人一步擁抱智能新紀(jì)元。