當(dāng)前位置：人工智能實(shí)驗(yàn)室> 企業(yè)新聞 > 【云棲2023】王峰：開源大數(shù)據(jù)平臺(tái)3.0技術(shù)解讀

【云棲2023】王峰：開源大數(shù)據(jù)平臺(tái)3.0技術(shù)解讀
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-11-13 11:20:20 瀏覽：8799次

導(dǎo)讀：本文根據(jù)2023云棲大會(huì)演講實(shí)錄整理而成，演講信息如下：演講人：王峰 | 阿里云研究員，阿里云計(jì)算平臺(tái)事業(yè)部開源大數(shù)據(jù)平臺(tái)負(fù)責(zé)人演講主題：開源大數(shù)據(jù)平臺(tái)3.0技術(shù)解讀實(shí)時(shí)化與Serverless是開源大數(shù)據(jù)3.0時(shí)代的必然選擇阿里云開源大數(shù)據(jù)平臺(tái)孵化于阿里...

本文根據(jù)2023云棲大會(huì)演講實(shí)錄整理而成，演講信息如下：

演講人：王峰 | 阿里云研究員，阿里云計(jì)算平臺(tái)事業(yè)部開源大數(shù)據(jù)平臺(tái)負(fù)責(zé)人

演講主題：開源大數(shù)據(jù)平臺(tái)3.0技術(shù)解讀

實(shí)時(shí)化與Serverless是開源大數(shù)據(jù)3.0時(shí)代的必然選擇

阿里云開源大數(shù)據(jù)平臺(tái)孵化于阿里巴巴集團(tuán)內(nèi)部業(yè)務(wù)。早在2009年，我們就開始采用開源 Hadoop 技術(shù)體系來服務(wù)阿里內(nèi)部快速發(fā)展的電商業(yè)務(wù)。在阿里巴巴內(nèi)部這套 Hadoop 技術(shù)體系，當(dāng)時(shí)叫云梯一，當(dāng)發(fā)展成熟后，開始上云。我們?cè)诎⒗镌粕贤瞥隽说谝豢铋_源大數(shù)據(jù)產(chǎn)品 E-MapReduce，簡(jiǎn)稱 EMR 。我們把這個(gè)定義為開源大數(shù)據(jù)平臺(tái)的第一階段，也就是1.0的時(shí)代，從此刻開始，真正跨入云原生時(shí)代。

隨著大數(shù)據(jù)技術(shù)的演進(jìn)，大數(shù)據(jù)處理從離線技術(shù)架構(gòu)向?qū)崟r(shí)化演進(jìn)，我們開始引入了Apache Flink 流計(jì)算技術(shù)。阿里巴巴對(duì) Apache Flink 社區(qū)進(jìn)行了非常大的資源投入，逐漸成為最大的用戶和社區(qū)推動(dòng)者。到現(xiàn)在，Apache Flink 發(fā)展成為了全球范圍內(nèi)流計(jì)算、實(shí)時(shí)計(jì)算的標(biāo)準(zhǔn)。同時(shí)，我們?cè)诎⒗镌粕弦餐瞥隽藢?shí)時(shí)計(jì)算Flink版的實(shí)時(shí)計(jì)算云產(chǎn)品服務(wù)。

EMR 也在不斷地技術(shù)演進(jìn)，從傳統(tǒng)的 Hadoop 數(shù)倉架構(gòu)升級(jí)到圍繞以數(shù)據(jù)湖為核心的云原生數(shù)據(jù)湖的技術(shù)架構(gòu)，因此我們把實(shí)時(shí)化和數(shù)據(jù)湖這兩個(gè)技術(shù)演進(jìn)的趨勢(shì)，稱為開源大數(shù)據(jù)平臺(tái)2.0階段。

從今年開始，我們?cè)谒伎枷乱欢伍_源大數(shù)據(jù)平臺(tái)如何發(fā)展演進(jìn)，我們做了以下幾個(gè)3.0架構(gòu)的技術(shù)探索，以此更好地服務(wù)我們的客戶。

首先，我們嘗試把實(shí)時(shí)化的技術(shù)分析和數(shù)據(jù)湖的架構(gòu)進(jìn)行融合，我們推出了新一代的Streaming Lakehouse 架構(gòu)，也就是實(shí)時(shí)化的數(shù)倉分析架構(gòu)。

第二，隨著 serverless 的架構(gòu)落地不斷深入，我們開始考慮什么才是云原生架構(gòu)終態(tài)。今年我們將開源大數(shù)據(jù)平臺(tái)所有核心的計(jì)算、存儲(chǔ)組件實(shí)現(xiàn)了 serverless 化。

第三，現(xiàn)在已經(jīng)全面進(jìn)入AI爆發(fā)的階段，各行各業(yè)都開始使用AI的技術(shù)進(jìn)行自我的革新。我們開始考慮AI的融合，希望把新的AI技術(shù)引入大數(shù)據(jù)平臺(tái)體系中，實(shí)現(xiàn)大數(shù)據(jù)AI一體化的能力，幫助平臺(tái)智能化運(yùn)維和數(shù)據(jù)管理。

從今年開始，我們采用了新的數(shù)據(jù)分析架構(gòu)、完全云原生的架構(gòu)，并深度結(jié)合AI結(jié)合，開啟3.0的新架構(gòu)。接下來我將選擇幾個(gè)3.0平臺(tái)中最核心的技術(shù)架構(gòu)特點(diǎn)給大家做分享：我們做了哪些事情，取得哪些成果，以及未來會(huì)如何發(fā)展。

新一代的流式湖倉

首先介紹一下，新一代的數(shù)據(jù)分析架構(gòu)——流式湖倉。我相信絕大部分用戶意識(shí)到傳統(tǒng) Hadoop Hive 數(shù)倉架構(gòu)的局限性以及技術(shù)發(fā)展的趨勢(shì)，都開始將傳統(tǒng)的Hadoop技術(shù)向著新一代的湖倉分析 Lakehouse 架構(gòu)進(jìn)行演進(jìn)。

顯而易見，升級(jí)到新的 Lakehouse 數(shù)據(jù)分析架構(gòu)以后有很多的優(yōu)勢(shì)。比如，新Lakehouse 架構(gòu)是徹底的存算分離，有更好的擴(kuò)展性、靈活性。同時(shí)，新的數(shù)據(jù)湖格式也帶來了更好的實(shí)時(shí)支持以及查詢性能的提升等。Lakehouse 架構(gòu)帶來的收益明顯。

但是 Lakehouse 架構(gòu)是不是已經(jīng)完美無缺？我覺得還沒有到這個(gè)地步�，F(xiàn)在我們看到Lakehouse 架構(gòu)在實(shí)時(shí)化方向還有進(jìn)一步發(fā)展的空間，這也是眾多開源用戶在使用 Lakehouse 架構(gòu)時(shí)候遇到的痛點(diǎn)：當(dāng)數(shù)據(jù)都遷移到 Lakehouse 這個(gè)架構(gòu)上，如何去更加實(shí)時(shí)化地加速數(shù)據(jù)處理管道，如何像傳統(tǒng)數(shù)倉一樣去實(shí)時(shí)分析 Lakehouse 中的數(shù)據(jù)。

現(xiàn)在的湖倉，做不到完全的實(shí)時(shí)化甚至準(zhǔn)實(shí)時(shí)化的效果。究其原因，就是數(shù)據(jù)湖的存儲(chǔ)格式限制了實(shí)時(shí)化的發(fā)展。大家可以看到現(xiàn)在數(shù)據(jù)湖存儲(chǔ)格式主要是 Iceberg、Delta、Hudi 三劍客來構(gòu)建的，不同的用戶和廠商會(huì)選擇不同的數(shù)據(jù)庫格式。但是Iceberg 和 Delta 是面向批處理而設(shè)計(jì)的數(shù)據(jù)湖格式，與批處理的計(jì)算引擎配合更多一些，在 Lakehouse 上實(shí)現(xiàn)批處理，甚至可能是比較大力度的微批處理，通過merge來更新。這個(gè)架構(gòu)無法徹底實(shí)現(xiàn)實(shí)時(shí)化，或者在實(shí)時(shí)化的力度上也做不到特別細(xì)粒度，比如分鐘級(jí)的粒度甚至十分鐘級(jí)的粒度都是非常困難的。

Hudi 的初衷是為了解決這個(gè)問題，實(shí)現(xiàn)實(shí)時(shí)化的數(shù)據(jù)湖格式，提升實(shí)時(shí)更新，加速數(shù)據(jù)湖的時(shí)效性。但是，目前從架構(gòu)設(shè)計(jì)和工程實(shí)現(xiàn)效果來看，并沒有達(dá)到預(yù)期，很多客戶在使用 Hudi 過程中也踩了很多坑，無論是系統(tǒng)穩(wěn)定性還是系統(tǒng)的運(yùn)維復(fù)雜度上都面臨非常大的挑戰(zhàn)。

其實(shí)我們可以看到，究其根源還是在湖倉架構(gòu)上沒有一款面向數(shù)據(jù)實(shí)時(shí)更新或者實(shí)時(shí)分析而設(shè)計(jì)的數(shù)據(jù)湖格式。去年我們?cè)?Flink 社區(qū)進(jìn)行了技術(shù)探索，在 Flink 社區(qū)里啟動(dòng)了一個(gè)新的子項(xiàng)目叫Flink Table Store，其目的是嘗試看PMF（市場(chǎng)的接受程度）。通過Flink Table Store，發(fā)現(xiàn)設(shè)計(jì)一款真正面向?qū)崟r(shí)更新的數(shù)據(jù)湖格式還是非常有必要的，尤其是跟 Flink 這種實(shí)時(shí)流式計(jì)算引擎配合，完全能在數(shù)據(jù)湖 Lakehouse 架構(gòu)上，實(shí)現(xiàn)實(shí)時(shí)化數(shù)據(jù)鏈路。

為了讓這個(gè)項(xiàng)目有更好的發(fā)展，我們今年決定把這個(gè)項(xiàng)目從Flink社區(qū)中獨(dú)立出來，作為一個(gè)獨(dú)立的 Apache 基金會(huì)項(xiàng)目去孵化，使其有一個(gè)更大的發(fā)展空間，命名為Apache Paimon。

Paimon是真正為實(shí)時(shí)更新而設(shè)計(jì)的數(shù)據(jù)湖格式，并且是完全開放的，不僅支持 Flink，也會(huì)支持 Spark、Presto、Channel、StrarRocks 等主流計(jì)算引擎。

而且由于設(shè)計(jì)時(shí)天生就是為了實(shí)時(shí)，所以性能和穩(wěn)定性都是非常好，在我們典型的應(yīng)用場(chǎng)景下，與開源 Hudi 方案相比，阿里云流式湖倉方案 Upsert 性能提升超過4倍，Scan 性能提升超過10倍。

因此，基于 Flink 和 Paimon，我們推出新一代的流式湖倉的數(shù)據(jù)分析技術(shù)，從整個(gè)數(shù)據(jù)的實(shí)時(shí)入湖到湖上實(shí)時(shí)ETL數(shù)據(jù)更新，采用一整套統(tǒng)一的SQL在Lakehouse來進(jìn)行全鏈路的實(shí)時(shí)數(shù)據(jù)處理。由于Paimon的開放性，我們完全也可以在這個(gè)架構(gòu)中引入大家用得比較多的 Spark、Presto、StrarRocks 這些開源分析引擎，也包括阿里云自研引擎MaxCompute、Hologres 都可以和 Paimon 數(shù)據(jù)進(jìn)行無縫對(duì)接，實(shí)現(xiàn)完全開放的湖倉體系，從而整個(gè)鏈路實(shí)現(xiàn)完整的生態(tài)，不僅能夠?qū)崿F(xiàn)數(shù)據(jù)全鏈路的實(shí)時(shí)流動(dòng)，也能實(shí)現(xiàn)數(shù)據(jù)全鏈路的實(shí)時(shí)分析。這是整個(gè)3.0中數(shù)據(jù)分析架構(gòu)中的演進(jìn)趨勢(shì)，推動(dòng)湖倉的實(shí)時(shí)化。

全面 Serverless 化

第二個(gè)，想介紹一下產(chǎn)品架構(gòu)，我們的產(chǎn)品和云原生結(jié)合也邁出了重要一步，希望開源大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)全面的 serverless 化。其實(shí) serverless 這個(gè)技術(shù)已經(jīng)探索了有好幾年，兩年前就推出了開源大數(shù)據(jù)平臺(tái)的第一款 serverless 產(chǎn)品—— serverless Flink，在阿里云上有非常多的客戶使用。

通過serverless Flink得到很多客戶的正向反饋，大家都希望使用開箱即用的開源產(chǎn)品。因此今年我們又推出了四款 serverless 開源大數(shù)據(jù)產(chǎn)品，兩款計(jì)算、兩款存儲(chǔ)。計(jì)算型選擇了用戶呼聲最高的 Spark 和 StarRocks，這兩款引擎推出了 EMR Serverless StrarRocks 和即將發(fā)布的 EMR Serverless Spark 兩款計(jì)算型 serverless 產(chǎn)品。

同時(shí)在存儲(chǔ)方面，我們也推出了兩款 serverless 產(chǎn)品，第一款是和 OSS 對(duì)象存儲(chǔ)團(tuán)隊(duì)聯(lián)合合作推出的 OSS-HDFS ，全托管的 serverless HDFS 產(chǎn)品。還有一款是數(shù)據(jù)湖管理構(gòu)建產(chǎn)品中推出了完全兼容HMS協(xié)議的全托管的 serverless 源數(shù)據(jù)管理的服務(wù)。我們通過這幾款產(chǎn)品的組合可以實(shí)現(xiàn)幾乎所有大數(shù)據(jù)場(chǎng)景的處理和分析。

為什么一年之內(nèi)快連續(xù)推出四款 serverless 大數(shù)據(jù)產(chǎn)品，完全得益于我們?cè)诩夹g(shù)上做的沉淀。把所有對(duì) serverless 的需求沉淀為大數(shù)據(jù) serverless 平臺(tái)底座，這個(gè)平臺(tái)底座可以屏蔽掉阿里云各種異構(gòu)硬件和資源池，提供一套完整的多租系統(tǒng)的管理，包括網(wǎng)絡(luò)隔離、資源隔離等，使得我們可以快速孵化出新的 serverless 大數(shù)據(jù)產(chǎn)品。

Serverless Flink

第一款產(chǎn)品就是 serverless Flink，它可以連通阿里云上下游的存儲(chǔ)，不管是數(shù)據(jù)庫、數(shù)據(jù)湖，還是數(shù)據(jù)倉庫、消息隊(duì)列，只要是阿里云上主流的存儲(chǔ)數(shù)據(jù)源都可以一鍵打通，提供一站式的 SQL 開發(fā)平臺(tái)，包括智能化的運(yùn)維管理服務(wù)，實(shí)現(xiàn)開箱即用的效果。同時(shí)我們?cè)?serverless Flink 產(chǎn)品中對(duì) Flink 的核心引擎做了大量的優(yōu)化，并且在阿里巴巴內(nèi)部大量使用，相對(duì)于開源 Flink 引擎有兩到三倍的性能提升，所以使用serverless Flink產(chǎn)品不僅是方便提升開發(fā)效率，在運(yùn)行效率上也會(huì)大幅節(jié)省成本。

今年上半年新推出來另外一個(gè)新的 serverless 數(shù)據(jù)產(chǎn)品就是 serverless StarRocks，主要是解決實(shí)時(shí)交互式分析 OLAP 場(chǎng)景用戶的需求，現(xiàn)在 OLAP 或者實(shí)時(shí)分析也是熱點(diǎn)。我們?cè)u(píng)估下來目前在開源界內(nèi)最主流的或者最優(yōu)秀的 OLAP 引擎是 StarRocks，所以我們選擇了 StarRocks 在 EMR 上開通了第一款 serverless OLAP 產(chǎn)品，因?yàn)镾tarRocks 是一個(gè)完全向量化的 C++引擎，所以性能非常優(yōu)秀，支持?jǐn)?shù)萬的并發(fā)。

Serverless StarRocks

同時(shí)在最新版本的 StarRocks 中其實(shí)也支持存算分離的架構(gòu)，結(jié)合整個(gè)產(chǎn)品的云原生能力推出了 Virtual Warehouse 的功能可以兼顧彈性和用戶業(yè)務(wù)之間的隔離性。有了這個(gè)存算分離之后，可以將 StarRocks 和數(shù)據(jù)湖進(jìn)行打通。流式湖倉會(huì)在湖上沉淀出非常多實(shí)時(shí)更新的數(shù)據(jù)，這個(gè)時(shí)候利用 serverless StarRocks 就可以去查詢湖上的實(shí)時(shí)更新數(shù)據(jù)，即時(shí)查詢得到一個(gè)很好的湖倉一體的效果，稱之為大湖小倉的布局。

Serverless Spark

今年還有一款重磅級(jí)產(chǎn)品的 serverless 產(chǎn)品就是 serverless Spark。相信 Spark 在開源大數(shù)據(jù)體系中用得最多的計(jì)算引擎，也是現(xiàn)在 EMR 中看到最重要的一款計(jì)算引擎。

最近幾年，我們不斷聽到用戶的呼聲，希望有一款真正全托管免運(yùn)維 serverless 的Spark 產(chǎn)品，能夠幫助客戶減輕運(yùn)維的負(fù)擔(dān)，提升開發(fā)的效率，甚至提升運(yùn)行的效率。因此今年在全面 serverless 化的目標(biāo)下投入了非常大的資源，做出了 serverless Spark 產(chǎn)品，很快將進(jìn)行公測(cè)和商業(yè)化。

Serverless Spark 產(chǎn)品其實(shí)是集成了前面兩款 Flink 和 StarRocks Serverless 產(chǎn)品的優(yōu)勢(shì)，一站式開發(fā)和智能化運(yùn)維都可以實(shí)現(xiàn)開箱即用，按量付費(fèi)完全彈性，包括和數(shù)據(jù)湖的打通等等。此外我們?cè)赟erverless Spark里面還內(nèi)置了基于 Celeborn 做的一個(gè)Serverless 數(shù)據(jù)服務(wù)，這樣就可以免除對(duì)本地盤的依賴，完全實(shí)現(xiàn)整個(gè)數(shù)據(jù)計(jì)算的Serverless 化。

Serverless HDFS（OSS-HDFS）

剛才講了幾款 serverless 計(jì)算的產(chǎn)品，接下來還有一款產(chǎn)品是非常重要，就是存儲(chǔ)的serverless 產(chǎn)品。我們叫 serverless HDFS，官方產(chǎn)品名字是 OSS-HDFS，這是和 OSS 團(tuán)隊(duì)一起共建出來的產(chǎn)品形態(tài)。

大家都知道 HDFS 已經(jīng)在大數(shù)據(jù)業(yè)界被大家認(rèn)為是一款事實(shí)標(biāo)準(zhǔn)的文件系統(tǒng)協(xié)議，隨著越來越多用戶把數(shù)據(jù)搬到數(shù)據(jù)湖上，同時(shí)希望繼續(xù)使用HDFS協(xié)議來訪問數(shù)據(jù)湖上的數(shù)據(jù)，這樣計(jì)算都是兼容的。

因此，我們把 OSS 的數(shù)據(jù)也可以包裝成一個(gè)看上去像無限大的云 HDFS，這樣就可以滿足很多用戶的需求。所以今年聯(lián)合 OSS 團(tuán)隊(duì)發(fā)布了 OSS-HDFS 的 serverless 文件系統(tǒng)，完全兼容 HDFS 。有了這個(gè)后，很多用戶就不必自己去維護(hù)本地HDFS集群，免除了運(yùn)維的復(fù)雜度，而且完全按量付費(fèi)，有非常好的彈性，結(jié)合我們計(jì)算的原倉數(shù)據(jù)可以做智能的數(shù)據(jù)分析、冷熱數(shù)據(jù)分層，幫助用戶更好地降本增效。

剛才也講了 serverless 是開源大數(shù)據(jù)3.0中在云原生架構(gòu)上的進(jìn)展，未來在 serverless端上會(huì)繼續(xù)推出更多的產(chǎn)品。

更智能的開源大數(shù)據(jù)

當(dāng)前 AI 全面爆發(fā)，阿里云開源大數(shù)據(jù)平臺(tái)也將 AI 技術(shù)引入大數(shù)據(jù)平臺(tái)體系中，幫助我們做智能化平臺(tái)運(yùn)維或者數(shù)據(jù)管理等。今年，我們升級(jí)了智能化運(yùn)維工具 EMR Doctor、Flink Advisor，并已廣泛應(yīng)用于客戶和阿里云內(nèi)部平臺(tái)運(yùn)維，平均集群?jiǎn)栴}識(shí)別時(shí)間減少30%，集群資源有效利用率提升75%。

大家知道在 EMR 產(chǎn)品中運(yùn)維是非常有挑戰(zhàn)性的事情，因?yàn)?EMR 上有非常多的組件，Hadoop、Hive、Kafka、Spark、Flink、Presto 等，一旦系統(tǒng)出現(xiàn)問題怎么快速地定位問題，是一個(gè)非常讓用戶頭疼的事情。甚至有時(shí)候即使沒有出現(xiàn)問題，用戶也希望對(duì)整個(gè)集群的資源利用率、存儲(chǔ)效率進(jìn)行提升。

之前完全都是靠人肉經(jīng)驗(yàn)的去沉淀。前些年，我們也投入了很多的工程師幫助客戶人肉解決這些問題，但近些年我們都把這些經(jīng)驗(yàn)和知識(shí)沉淀成AI中的知識(shí)庫、規(guī)則庫，再結(jié)合一些傳統(tǒng)機(jī)器學(xué)習(xí)算法和數(shù)據(jù)分析的方法，進(jìn)行智能化定位問題，給用戶建議，讓用戶優(yōu)化集群，解決問題。

此外。在Flink產(chǎn)品中也做了大量的實(shí)踐，推出了智能診斷的服務(wù) Flink Advisor�？梢栽陂_發(fā)運(yùn)維的全生命周期中幫助用戶定位，你的任務(wù)為什么出錯(cuò)了，出錯(cuò)在哪里，怎么修正、改進(jìn)。即使在你的任務(wù)沒有問題的時(shí)候也依然對(duì)你的任務(wù)做健康檢測(cè)，判斷潛在可能出現(xiàn)的風(fēng)險(xiǎn)，類似于健康分這種能力，幫助用戶防范于未然，給用戶一些智能化的提議，讓用戶去優(yōu)化任務(wù)。其實(shí)這背后都是采用了大數(shù)據(jù)AI相結(jié)合的分析技術(shù)做到的。

最后提到AI，我覺得有一個(gè)詞首先進(jìn)入開發(fā)者的視線，就是向量檢索。在AI時(shí)代，所有非結(jié)構(gòu)化的數(shù)據(jù)都可以用向量來表示，關(guān)于向量檢索的技術(shù)也如雨后春筍般層出不窮。目前業(yè)界各種開源向量檢索技術(shù)，經(jīng)過我們?cè)u(píng)估后認(rèn)為 Milvus 這個(gè)技術(shù)是目前最流行的，也是用戶需求量最大的向量檢索技術(shù)，因此開源大數(shù)據(jù)平臺(tái)也將推出全托管 serverless 向量檢索服務(wù)，基于開源的Milvus生態(tài)、阿里云的PAI機(jī)器學(xué)習(xí)平臺(tái)和各種大模型組成完整的大數(shù)據(jù)AI一體化的技術(shù)解決方案去服務(wù)在AI場(chǎng)景下對(duì)向量檢索有需求的客戶。

以上就是關(guān)于開源大數(shù)據(jù)平臺(tái)3.0的核心技術(shù)架構(gòu)以及技術(shù)發(fā)展趨勢(shì)的分享。我們希望這些新技術(shù)能夠在產(chǎn)品中落地，服務(wù)客戶，得到客戶的反饋。謝謝大家的聆聽。