當(dāng)前位置：人工智能實(shí)驗(yàn)室> 企業(yè)新聞 > 【2023云棲】陳守元：阿里云開源大數(shù)據(jù)產(chǎn)品年度發(fā)布

【2023云棲】陳守元：阿里云開源大數(shù)據(jù)產(chǎn)品年度發(fā)布
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-11-21 10:58:10 瀏覽：7095次

導(dǎo)讀：本文根據(jù) 2023 云棲大會(huì)演講實(shí)錄整理而成，演講信息如下：演講人：陳守元 | 阿里云計(jì)算平臺(tái)事業(yè)部開源大數(shù)據(jù)產(chǎn)品總監(jiān) 演講主題：阿里云開源大數(shù)據(jù)產(chǎn)品年度發(fā)布隨著云計(jì)算的不斷發(fā)展，未來數(shù)據(jù)處理和應(yīng)用的趨勢(shì)將圍繞Cloud Native、Severless和Data+AI展...

本文根據(jù) 2023 云棲大會(huì)演講實(shí)錄整理而成，演講信息如下：

演講人：陳守元 | 阿里云計(jì)算平臺(tái)事業(yè)部開源大數(shù)據(jù)產(chǎn)品總監(jiān)

演講主題：阿里云開源大數(shù)據(jù)產(chǎn)品年度發(fā)布

隨著云計(jì)算的不斷發(fā)展，未來數(shù)據(jù)處理和應(yīng)用的趨勢(shì)將圍繞Cloud Native、Severless和Data+AI展開。其中，云原生架構(gòu)已成為主流趨勢(shì)，因?yàn)樗梢蕴岣邤?shù)據(jù)處理和應(yīng)用程序的可伸縮性和靈活性，支持大規(guī)模部署和更快的響應(yīng)時(shí)間。同時(shí)，Serverless作為一種新型計(jì)算模式，可以提高處理效率、降低運(yùn)營(yíng)成本并減少資源浪費(fèi)，其獨(dú)特的特點(diǎn)使得其成為處理大規(guī)模數(shù)據(jù)的理想選擇。此外，Data與AI融合正在快速發(fā)展，不斷提高智能化和自動(dòng)化程度，同時(shí)需要高質(zhì)量的數(shù)據(jù)來支撐算法的準(zhǔn)確性和有效性。

EMR：面向下一代湖倉(cāng)和全面Serverless化

下面進(jìn)入產(chǎn)品發(fā)布環(huán)節(jié)，我們將圍繞上面三個(gè)點(diǎn)做哪些事情、有哪些發(fā)布更好地服務(wù)用戶上云來講述我們產(chǎn)品的重點(diǎn)發(fā)布。

首先，我們來看EMR。EMR 是一個(gè)云原生開源大數(shù)據(jù)平臺(tái)系統(tǒng)。對(duì)于 EMR 而言，線下IDC 大量基于開源 Hadoop生態(tài)構(gòu)建的線下用戶搬站上云第一站就會(huì)選擇EMR，因?yàn)楦脑齑鷥r(jià)特別地小，幾乎可以無縫平遷上云。這對(duì)用戶來說是具有巨大的人力資本和機(jī)器資本的節(jié)剩我們將阿里云EMR 定位為用戶搬站上云的第一站。

今年我們的產(chǎn)品矩陣做了升級(jí)，我們希望在云上基于更多樣化的 IaaS 提供多樣化的 EMR 產(chǎn)品形態(tài)。EMR 通用版，核心解決的用戶問題就是幫助用戶的大數(shù)據(jù)系統(tǒng)平遷上云，這也是和用戶線下部署兼容度最高的方案。第二個(gè)是 EMR 容器版，即 EMR ACK 版。現(xiàn)在 IT 基礎(chǔ)設(shè)施的云原生容器化基本上都深入人心，我們大量客戶在云上基于 IT 系統(tǒng)的構(gòu)建都會(huì)選擇容器化的平臺(tái)，例如阿里云的 ACK。用戶自然而然會(huì)聯(lián)想到如何把Data 和 AI 的 workload 遷移到IT 基礎(chǔ)設(shè)施的同一個(gè)集群里，完成Data&AI 的負(fù)載與 IT 設(shè)施負(fù)載混用，EMR 容器版，或者說 EMR onACK 就是幫用戶解決這類問題的產(chǎn)品。

最后也是我們今天想強(qiáng)調(diào)的重點(diǎn)就是 EMR Serverless 版。對(duì)于 EMR Serverless 子產(chǎn)品線而言，內(nèi)部有些feature 或者功能在之前云棲中已做了發(fā)布。今天對(duì)于 EMR Serverless 產(chǎn)品線是一個(gè)更加完整的矩陣呈現(xiàn)，今天會(huì)重點(diǎn)講一下 Serverless Spark、Serverless StrarRocks 兩大主流 EMR 計(jì)算引擎的 Serverless 化，今天也是我們正式對(duì)外提出一個(gè)完整的 EMR Serverless化的產(chǎn)品線矩陣。

EMR Serverless 版是 EMR 產(chǎn)品線形態(tài)中誕生最晚、發(fā)布最新的一代產(chǎn)品和技術(shù)，其實(shí) EMR 圍繞 Serverless 的布局在一年前、兩年前都在緊鑼密鼓地進(jìn)行。前面 OSS-HDFS、Serverless HDFS 這一塊其實(shí)在去年、前年已有發(fā)布，但是今年我們做了更多的嘗試努力，我們希望把 EMR 上面主流的大數(shù)據(jù)計(jì)算引擎、存儲(chǔ)引擎、開發(fā)平臺(tái)、元數(shù)據(jù)管理全都 Serverless 化，只有這樣方才能夠更好地滿足云原生用戶更好地利用大數(shù)據(jù)。Serverless Spark，更好地解決了湖倉(cāng)場(chǎng)景下 Data ETL 的處理能力，Serverless StrarRocks 更好地解決了湖倉(cāng)場(chǎng)景下 Data analytic 能力，Serverless HDFS 更好解決了湖倉(cāng)場(chǎng)景下數(shù)據(jù)存儲(chǔ)能力，最后 EMR Stutio 幫助用戶線下可以平遷體驗(yàn)上云，讓用戶能夠更好使用云上大數(shù)據(jù)基礎(chǔ)設(shè)施，同時(shí)還能免運(yùn)維。所以EMR 今年從計(jì)算，到存儲(chǔ)，到開發(fā)環(huán)境幾乎全部實(shí)現(xiàn)了 EMR 主力引擎和平臺(tái)都能夠做到 Serverless 化，我們希望能夠把整個(gè)大數(shù)據(jù)開發(fā)運(yùn)維閉環(huán)，從而進(jìn)一步幫助云原生上的開發(fā)者更好地把大數(shù)據(jù)用起來。

下面仍然回到 EMR 主力場(chǎng)景， EMR通用版，圍繞湖倉(cāng)場(chǎng)景做了大量更新。EMR 主力場(chǎng)景仍然圍繞著湖倉(cāng)處理，圍繞在湖倉(cāng)計(jì)算、存儲(chǔ)、運(yùn)維、開發(fā)做了大量的更新。在計(jì)算層面，我們核心還是降本提效，IaaS 層適配了新的倚天 CPU，PaaS 層做了 Native Spark RunTime，這些都是從 IaaS 層和 PaaS 層更好地幫助用戶降本提效。存儲(chǔ)部分，Serverless HDFS (同時(shí)也稱之為 OSS-HDFS)很早已有發(fā)布，但是在這一年希望讓Serverless HDFS 和本地 HDFS 在使用層面給用戶體驗(yàn)完全一致，包括在文件性能、數(shù)據(jù)訪問、源數(shù)據(jù)獲取等方案做到幾乎完全一致。為上述目標(biāo)，我們因此做了大量有關(guān)系統(tǒng)性能優(yōu)化以及系統(tǒng)安全性優(yōu)化。我們的 Open 文件性能的提升、DU 訪問源數(shù)據(jù)的提升，這些都是今年的成果。

EMR 運(yùn)維，這主要體現(xiàn)在兩個(gè)方面。在云上來說 EMR 能結(jié)合到云原生上面給用戶創(chuàng)造比較大的平臺(tái)價(jià)值就在于彈性，今年我們做到大量的彈性優(yōu)化。我們大量客戶給我們反饋說 EMR 的平臺(tái)彈性越來越穩(wěn)定；另外一個(gè)運(yùn)維重點(diǎn)，即 EMR Doctor，我們希望通過 AI 的方式、自動(dòng)化、智能化的運(yùn)維平臺(tái)方式幫助用戶去解決開源大數(shù)據(jù)運(yùn)維的問題。從社區(qū)開源大數(shù)據(jù)用戶反饋來看，開源大數(shù)據(jù)使用最大的、最痛的點(diǎn)就是系統(tǒng)運(yùn)維。如何長(zhǎng)期有效地保證我們的業(yè)務(wù)在云上健康地運(yùn)行，這是很多用戶上云和云下使用開源大數(shù)據(jù)非常大的痛點(diǎn)，EMR Doctor 就是解決這個(gè)問題。EMR 開發(fā)，即 EMR Studio，我們希望云原生 Serverless 化托管了我們的開發(fā)平臺(tái)、調(diào)度平臺(tái)，幫助用戶從線下的體驗(yàn)完全平遷到云上的一套體驗(yàn)。以上均是 EMR 圍繞湖倉(cāng)場(chǎng)景的重大更新。

最后仍然回到 EMR For AI，我們每個(gè)產(chǎn)品都在擁抱積極的變化，這里分為三部分：EMR DataScience、EMR Doctor、EMR+DataWorks 的 Code Pilot。EMR DataScience 是在 EMR 的容器版里面，我們提供了一個(gè)新的集群叫 EMR DataScience，里面內(nèi)置了不少 AI 最流行的組件，包括 Pytorch、TF。我們希望用戶在一個(gè)平臺(tái)上既能夠處理大數(shù)據(jù)，同時(shí)還能夠云原生地處理 AI 的工具，這是 EMR DataScience 幫助用戶做的相關(guān)工作。EMR Doctor，這個(gè)工作前面提到希望用 AI 化、智能化的方式幫助用戶實(shí)現(xiàn) AIOps，能夠用自動(dòng)化的手段定位問題、診斷問題、及早發(fā)現(xiàn)問題。EMR+Dataworks，今年DataWorks重磅的發(fā)布就是 code pilot 的發(fā)布，但是那上面作為一個(gè)平臺(tái)實(shí)際上底下也對(duì)接了 EMR 等等，正好實(shí)際上 code pilot 也是平臺(tái)引擎無關(guān)的Feature，可以生成 EMR 里面的 HIVE 代碼，用戶就可以用 DataWorks 上面開發(fā)平臺(tái)能夠通過自然語言生成 MaxCompute 的 SQL，能夠操作業(yè)務(wù)，這樣能夠極大地減少用戶開發(fā)代碼的成本，這在 DataWorks 對(duì)外提供公測(cè)的時(shí)候歡迎去試用一下。

Flink Streaming Lakehouse：新一代的流式湖倉(cāng)新方案

下面我們看一下 Flink Streaming Lakehouse。Lakehouse 這個(gè)概念其實(shí)在前幾年很火，原因就是對(duì)于一個(gè) Lakehouse 的系統(tǒng)來說，既兼具了 Data Warehouse 的嚴(yán)謹(jǐn)，包括ACID、版本的管理、數(shù)據(jù)格式的校驗(yàn)等等；同時(shí)它還有 Data Lake 的靈活性，能夠放很多大量非結(jié)構(gòu)化的文本，包括圖片、視頻、音頻、圖像等等。而 Lakehouse 同時(shí)能夠承載結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)，這對(duì)用戶來說是非常好的 AI 和大數(shù)據(jù)融合的底層存儲(chǔ)方案。但是我們看 Lakehouse 的過程中發(fā)現(xiàn) Lakehouse 在時(shí)效性方面有非常大的問題，F(xiàn)link 核心使命和價(jià)值就在幫助我們的客戶解決大數(shù)據(jù)實(shí)時(shí)化轉(zhuǎn)型和升級(jí)。所以Flink 社區(qū)和我們一起發(fā)布了 Streaming Lakehouse 方案。

回到Streaming Lakehouse 我主要從產(chǎn)品方向講三個(gè)場(chǎng)景要點(diǎn)。前面已經(jīng)提到Lakehouse 在 AI 時(shí)代下 Lakehouse 的方案會(huì)越來越重要，因?yàn)樗饶艽鎯?chǔ)結(jié)構(gòu)化的數(shù)據(jù)又能存儲(chǔ)非階段的數(shù)據(jù)，這個(gè)是大數(shù)據(jù)和 AI 一體化存儲(chǔ)的重要承載點(diǎn)。但是 Lakehouse 在實(shí)踐的過程中仍然遇到時(shí)效性的問題，整個(gè) Lakehouse 的 Data Pipeline 串聯(lián)起來可能達(dá)到小時(shí)級(jí)別的延遲，從最開始的數(shù)據(jù)進(jìn)入到數(shù)據(jù)價(jià)值的發(fā)揮，比如 BI、AI，能夠看到整個(gè)數(shù)據(jù)鏈路到小時(shí)級(jí)別，這其實(shí)對(duì)于用戶來說要構(gòu)建一個(gè)實(shí)時(shí)湖倉(cāng)面臨很大的延遲。所以 Flink 希望一起幫助用戶做到 Lakehouse 的實(shí)時(shí)化，通過流式、實(shí)時(shí)幫助用戶做很大的提升。

最后是 Unified，其實(shí) Flink 社區(qū)在前幾年一直主打 Unified Batch & Streaming。我們希望在計(jì)算層面做到融合，就是流批一體。我們?cè)陂_源社區(qū)推廣流批一體的方案時(shí)，發(fā)現(xiàn)如果用戶只是計(jì)算層面的融合對(duì)于用戶只能解決一半的問題。還有一半問題在于存儲(chǔ)，存儲(chǔ)仍然是兩套的存儲(chǔ)方案，兩套存儲(chǔ)和兩套數(shù)據(jù)因此會(huì)導(dǎo)致的離線和實(shí)時(shí)的數(shù)據(jù)不一致性對(duì)于用戶來說是非常大的問題，所以 Flink 團(tuán)隊(duì)和社區(qū)一起構(gòu)建了 Paimon。Paimon 基于底層的分布式文件系統(tǒng)，比如說 OSS 會(huì)構(gòu)建一個(gè) Unified 的 storage，既可以做流，也可以做批，我們稱之為批流一體的存儲(chǔ)。所以 Flink+Paimon 構(gòu)成 Lakehouse 的方案，既具備 Unified 的 process，也可以具備 Unified 的 Storage，這一層合并在一起能夠真正完整地幫助用戶實(shí)現(xiàn)流批一體的解決方案。這是我們 Streaming Lakehouse 的價(jià)值點(diǎn)，最終我們希望幫助用戶在 Data+AI 時(shí)代下提供實(shí)時(shí)化、流式化和 Serverless 化的湖倉(cāng)方案。

回到 Flink 主線，我們一直以來的使命就是希望幫助用戶做到大數(shù)據(jù)的升級(jí)和轉(zhuǎn)型，所以追求實(shí)時(shí)場(chǎng)景下的性價(jià)比一直是 Flink 團(tuán)隊(duì)一直以來努力的方向。追求實(shí)時(shí)化的性價(jià)比今年有兩個(gè)重要的點(diǎn)，一個(gè)是Flink全面擁抱了倚天，結(jié)合到倚天整個(gè)實(shí)時(shí)計(jì)算 Flink 綜合的性價(jià)比有 50%的提升，這是Flink 團(tuán)隊(duì)結(jié)合IaaS 層面做了大量?jī)?yōu)化。同時(shí)在 PaaS 層 Flink 企業(yè)級(jí)內(nèi)核我們?nèi)匀辉谧龃罅績(jī)?yōu)化，這其中包括算子的優(yōu)化，以及未來我們會(huì)公布 native runtime 的優(yōu)化。這部分優(yōu)化相比于開源Flink引擎，我們實(shí)時(shí)計(jì)算 Flink 版會(huì)有兩倍的提升，特別是在吞吐部分可以解決很多用戶高吞吐量或者大流量的實(shí)時(shí)計(jì)算場(chǎng)景。

Elasticsearch:Serverless 和 Search for Data & AI

接下來講一下 Elasticsearch，這也是開源大數(shù)據(jù)很重要的組成部分。說到 Elasticsearch 可能大家更多仍然停留在比較早期 for data 的 search，就是全文的檢索，類似于搜索引擎要做全文的檢索。但今天我想告訴大家這個(gè)思想需要刷新一下，Elasticsearch 不僅是 for data 的 search，也是 for AI 的 search。我今天給大家重點(diǎn)會(huì)講一下 ES 如何從 Data 轉(zhuǎn)變成 Data+AI 的 search 系統(tǒng)。

第一個(gè)是我們的 Elasticsearch 的版本發(fā)布。坦白地說，當(dāng)前產(chǎn)品形態(tài)，即 ES on PaaS 的獨(dú)立集群版本已經(jīng)非常好地滿足我們中國(guó)公有云和專有云客戶很多的市場(chǎng)需求，不少中大型公司都非常認(rèn)可阿里云的 ES產(chǎn)品形態(tài)，產(chǎn)品客戶受眾無論在基數(shù)以及未來增長(zhǎng)都很不錯(cuò)。但實(shí)際上隨著最近這一兩年客戶在降本提效上提上了日程之后，發(fā)現(xiàn)有一批非常大的潛在客戶以及中長(zhǎng)尾的客戶其實(shí)仍然對(duì)云上的獨(dú)立集群版本所帶來的成本仍然認(rèn)為是比較大的上云入門門檻。他們非常希望以低門檻甚至零門檻的方式開啟云上的 ES，這就是我們 ES Serverless 要做的初衷，我們希望以一個(gè)零門檻的方式能夠幫助用戶開啟云上 Elasticsearch 的使用。

同時(shí) Elasticsearch Serverless 也是我們國(guó)內(nèi)首家支持通用場(chǎng)景的 ES 版本。去年我們也發(fā)布了一個(gè) Elasticsearch Serverless版本，但更多解決日志 ELK 場(chǎng)景的需求。但是該版本在數(shù)據(jù)一致性上會(huì)存在問題，所以今年我們進(jìn)行大量的產(chǎn)品技術(shù)架構(gòu)重構(gòu)。本次 ES Serverless 的發(fā)布是一個(gè)面向通用場(chǎng)景的升級(jí)發(fā)布，這里面不僅支持包括日志場(chǎng)景，還支持訂單、金融等等場(chǎng)景，這里面的數(shù)據(jù)一致性都可以得到很好的保障。這是我們今年發(fā)布相比于去年發(fā)布升級(jí)很不一樣的點(diǎn)。針對(duì) ES Serverless 可以真正按量付費(fèi)、秒級(jí)彈性、簡(jiǎn)單運(yùn)維，同時(shí)可以完全兼容開源的 ES，這是很多其他的廠商不一定能做到的。

下面重點(diǎn)強(qiáng)調(diào) ES for AI 和 Data 的部分，標(biāo)志著 ES 真正從 Data 面向 Data&AI 的搜索引擎。云棲會(huì)場(chǎng)外面有很大的廣告欄，主打的是 ESRE 的發(fā)布，這是 ES 公司重大的發(fā)布。發(fā)布的核心簡(jiǎn)單跟大家說一下，就是支持 AI 相關(guān)檢索，包括向量檢索，包括多路并規(guī)的查詢優(yōu)化，這些東西都是在 ES 內(nèi)核重點(diǎn)打的點(diǎn)，幫助用戶做 AI 檢索。阿里云ES 圍繞著 ES 最新的 AI 能力進(jìn)行了大量方案集成，就是右邊的增強(qiáng)方案。我們跟達(dá)摩院 AI 方案做聯(lián)合，和 PAIEAS 方案聯(lián)合，甚至?xí)蜕鐓^(qū)一起做更多的聯(lián)合方案，這些方案能夠幫助我們的用戶更好地在云上用上阿里云、達(dá)摩院 AI 的技術(shù)，和社區(qū)的 ES 更好地結(jié)合起來。所以我們希望通過 ES8.9 這個(gè)版本能夠幫助用戶構(gòu)建下一代面向 Data+AI 的檢索系統(tǒng)。

圍繞 ES 自研能力的升級(jí)，阿里云 ES 是和 ES 公司一起合作，也是基于開源的 ES 做更多的優(yōu)化孵化，其實(shí)是完全基于開源，也是完全兼容開源的，我們做了大量的增強(qiáng)。而這里面做了三個(gè)升級(jí)，包括場(chǎng)景的升級(jí)，也就是日志場(chǎng)景向通用場(chǎng)景的升級(jí)和改造。去年 ES 更多是做日志場(chǎng)景、ELK 場(chǎng)景，今年的 ES Serverless 面向通用場(chǎng)景進(jìn)行完全開放。另外就是有關(guān)搜索內(nèi)核引擎的優(yōu)化，包括讀寫分離、存算分離，這些更好地解決集群穩(wěn)定性問題、成本流控問題、資源彈性的問題。最后我們?cè)谫?gòu)買鏈路和相關(guān)控制臺(tái)上做了比較大的體驗(yàn)升級(jí)，我們非常推薦大家去用一用阿里云 ES Serverless 版本，感受一下完全 Serverless 化的 ES。

Milvus：AI時(shí)代的搜索引擎

今天最后一個(gè)，也是今年完全新的產(chǎn)品。前面全部是我們現(xiàn)有的功能、現(xiàn)有產(chǎn)品線的疊加，Milvus 這部分是我們今年要發(fā)布的 AI 時(shí)代新的搜索引擎。目前，在向量檢索部分Milvus幾乎是全球最火、最亮眼的技術(shù)。我們會(huì)在12月份開啟向量檢索 Milvus 版本對(duì)外測(cè)試，相比于開源的 Milvus 來說會(huì)做相應(yīng)產(chǎn)品企業(yè)級(jí)的增強(qiáng)。同時(shí)在兼容開源的 Milvus 之上，我們還會(huì)去結(jié)合達(dá)摩院的技術(shù)能夠提供更好的企業(yè)級(jí)向量檢索能力。同時(shí)在云上肯定會(huì)做大量的產(chǎn)品聯(lián)合工作，包括和我們的存儲(chǔ)上有大量非結(jié)構(gòu)化的數(shù)據(jù)可供用戶檢索查詢。同時(shí)我們會(huì)跟 PAI 平臺(tái)、達(dá)摩院 AI 模型做更多的深度集成，做 AI 向量檢索能力、做大模型向量支撐，這些方案未來都會(huì)在我們的產(chǎn)品之上構(gòu)建。所以我們最終是希望能夠幫助云上使用 Milvus 的用戶更快、更方便、更低門檻構(gòu)建 AI 時(shí)代下的搜索系統(tǒng)。

回顧一下我們講了大數(shù)據(jù)的三個(gè)趨勢(shì)。Cloud Native，整個(gè) IT 投資都在往云上加速轉(zhuǎn)型。Serverless 化，我們認(rèn)為未來的 PaaS 平臺(tái)最終全部都會(huì)歸到 Serverless 化，所有 AI 產(chǎn)品、大數(shù)據(jù)產(chǎn)品和其他 PaaS 產(chǎn)品都會(huì)歸到 Serverless 化。最后是 Data+AI，未來 AI 和大數(shù)據(jù)會(huì)做徹底的融合打通，這也是我們整個(gè)開源大數(shù)據(jù)一直以來在積極圍繞這三個(gè)點(diǎn)做布局。

最后希望大家多多關(guān)注阿里云，關(guān)注阿里云的開源大數(shù)據(jù)，謝謝大家！