展會(huì)信息港展會(huì)大全

Hadoop 已死,AI 吞噬世界!
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-02-03 19:28:58   瀏覽:14959次  

導(dǎo)讀:【CSDN 編者按】你用上 GPT-4 了嗎? 在數(shù)據(jù)領(lǐng)域,AI 正逐步重塑數(shù)據(jù)處理和分析的各個(gè)環(huán)節(jié),從 ETL、數(shù)據(jù)治理到數(shù)據(jù)分析和消費(fèi)方式均會(huì)發(fā)生根本性變化。Kyligence 聯(lián)合創(chuàng)始人 CEO,Apache 頂級(jí)開(kāi)源項(xiàng)目 Apache Kylin 的創(chuàng)建者韓卿(Luke.han)將用這篇文章來(lái)...

【CSDN 編者按】你用上 GPT-4 了嗎?

在數(shù)據(jù)領(lǐng)域,AI 正逐步重塑數(shù)據(jù)處理和分析的各個(gè)環(huán)節(jié),從 ETL、數(shù)據(jù)治理到數(shù)據(jù)分析和消費(fèi)方式均會(huì)發(fā)生根本性變化。Kyligence 聯(lián)合創(chuàng)始人 & CEO,Apache 頂級(jí)開(kāi)源項(xiàng)目 Apache Kylin 的創(chuàng)建者韓卿(Luke.han)將用這篇文章來(lái)分享他在 AI 沖擊開(kāi)源領(lǐng)域之后引發(fā)的深度思考,其中涵蓋了開(kāi)源項(xiàng)目的商業(yè)化路徑、技術(shù)變遷對(duì)行業(yè)格局的影響、AI 對(duì)數(shù)據(jù)分析和業(yè)務(wù)決策范式的革新等多個(gè)層面,反映出大數(shù)據(jù)與分析行業(yè)正在經(jīng)歷一場(chǎng)深刻的變革,呼喚從業(yè)者積極應(yīng)對(duì)和創(chuàng)新。

作者 | 韓卿(Luke.han)

責(zé)編 | 王啟壟唐小引

出品 | CSDN(ID:CSDNnews)

Apache Kylin 畢業(yè)于 2015 年,Kyligence 公司成立于 2016 年,在過(guò)去幾年,我們?cè)诩夹g(shù)上不斷迭代和更新,以適應(yīng)新的技術(shù)趨勢(shì),積累了不少實(shí)踐和總結(jié)。

在新年之際,我想借此機(jī)會(huì),和大家分享更多我們的一些思考,介紹我們對(duì)相關(guān)趨勢(shì)的觀察和思考,以及對(duì)未來(lái)的一些認(rèn)知。希望大家一起,為這個(gè)行業(yè)的變革帶來(lái)貢獻(xiàn)。

開(kāi)源賺不了大錢(qián)!

Open source can't make big money

這是我很不愿意提及的話題,但事實(shí)如此。

從商業(yè)角度看,開(kāi)源不是商業(yè)模式,只是市場(chǎng)手段。而在商業(yè)上,如果沒(méi)有有效的商業(yè)化手段,開(kāi)源的用戶是不會(huì)轉(zhuǎn)換成為付費(fèi)用戶,從行業(yè)中很多朋友們的實(shí)踐中可以深刻地感受到。

很多人對(duì)我們的認(rèn)知不夠深刻,覺(jué)得我們是讓用戶先用開(kāi)源 Kylin,然后轉(zhuǎn)換到商業(yè)版本,這個(gè)誤解很多年了。Apache Kylin 在我們離開(kāi) eBay 的時(shí)候,已經(jīng)完成了幾項(xiàng)重要的社區(qū)工作:

畢業(yè)成為 ASF 頂級(jí)項(xiàng)目,建立了品牌和知名度

被幾大互聯(lián)網(wǎng)廠商大規(guī)模使用,包括百度、網(wǎng)易、頭條、美團(tuán)等,磨煉了技術(shù)成熟度

作為中國(guó)第一個(gè) ASF 頂級(jí)開(kāi)源項(xiàng)目,構(gòu)建了社區(qū)和影響力

因此,在我們創(chuàng)立 Kyligence 公司的時(shí)候,即全面開(kāi)啟商業(yè)化,幾乎所有的客戶都是直接談的企業(yè)版,并且在一開(kāi)始就走商業(yè)化合作,這也是這么多頭部客戶持續(xù)合作多年的原因。今天我們積累了這么多企業(yè)級(jí)客戶,只有極個(gè)別是使用了 Apache Kylin 之后轉(zhuǎn)換為商業(yè)版的,尤其是銀行等金融客戶,一開(kāi)始就對(duì)企業(yè)級(jí)特性、安全、資源管理以及服務(wù)等提出了苛刻的需求,而這些也是企業(yè)版的設(shè)計(jì)目標(biāo)。客戶要的從來(lái)不僅僅只是技術(shù),而是技術(shù)背后的產(chǎn)品設(shè)計(jì)、服務(wù)保障以及持續(xù)的創(chuàng)新能力。

商業(yè)是商業(yè),我們所有人必須要深刻理解客戶為什么付錢(qián),為什么愿意付我們這么多錢(qián)。底層技術(shù)突破很難,但往往在產(chǎn)品上,真正賺錢(qián)的不是最高深的技術(shù),我們只需要提升一些用戶體驗(yàn),改變一些工藝流程,只要能夠幫助用戶節(jié)省人力、成本,提升效率,客戶都是愿意付費(fèi)的每個(gè)技術(shù)點(diǎn),都要設(shè)計(jì)價(jià)值主張給到客戶,而不只是聲稱技術(shù)很厲害,必須得到客戶的認(rèn)可。這需要我們更多地深入客戶現(xiàn)場(chǎng),更多去理解客戶的實(shí)際需求、痛點(diǎn)、癢點(diǎn)。

當(dāng)然,我們并不否認(rèn)開(kāi)源的價(jià)值。我們自己也是從開(kāi)源技術(shù)、社區(qū)等獲益匪淺,因此我們也將持續(xù)在各個(gè)開(kāi)源項(xiàng)目中持續(xù)投入、參與和繼續(xù)主導(dǎo)。

Hadoop 已死

Hadoop is dead

Hadoop 作為大數(shù)據(jù)的代表,曾經(jīng)風(fēng)光無(wú)限,有著巨大的市場(chǎng)機(jī)會(huì)。可惜在 2021 年隨著 MapR 的出售和 Cloudera 的私有化逐漸沒(méi)落。這里面夾雜著太多的原因,但從我的視角,主要來(lái)自于社區(qū)的分裂和商業(yè)策略上的保守。

2017 年,Doug Cutting(Hadoop 之父)在Hadoop 十周年之際暢想未來(lái)十年的 Hadoop 生態(tài)將會(huì)如何。而不到 5 年,行業(yè)已經(jīng)幾乎很少再談?wù)?Hadoop 的相關(guān)技術(shù)有也只是小修改,沒(méi)有驚艷的項(xiàng)目出現(xiàn)了。

在創(chuàng)業(yè)的前五年,我們很幸運(yùn)跟著大數(shù)據(jù)、數(shù)據(jù)湖的擴(kuò)張而擴(kuò)張,那時(shí)候各家銀行都在將基于 MPP 數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用遷移到基于 Hadoop 的大數(shù)據(jù)平臺(tái)。但隨著 Hadoop 廠商的沒(méi)落,我們也明顯能感覺(jué)到市場(chǎng)的快速變化,同時(shí)隨著云計(jì)算的興起,云數(shù)據(jù)倉(cāng)庫(kù)、云數(shù)據(jù)湖又非常快速的在市場(chǎng)上出現(xiàn),“數(shù)據(jù)倉(cāng)庫(kù)”的技術(shù)流派逐漸分裂。而國(guó)內(nèi)的情況更加糟糕,滋生了各種定制的 Hadoop、魔改的私有云,使得這個(gè)市場(chǎng)非常復(fù)雜,卻又很難賺到超額利潤(rùn)。

2021 年,某銀行客戶領(lǐng)導(dǎo)聯(lián)系我們?nèi)ブv課,直接坦承“Hadoop 已經(jīng)結(jié)束了”,讓我們?nèi)ズ退麄兊募軜?gòu)團(tuán)隊(duì)探討 Hadoop 之后的大數(shù)據(jù)平臺(tái)應(yīng)該如何走向,以及現(xiàn)有的架構(gòu)、應(yīng)用等如何遷移等。當(dāng)時(shí)我們就非常敏感地意識(shí)到,必須更快地迭代和轉(zhuǎn)型。

過(guò)去的兩年多來(lái),我們可以真切地感受到,以 Hadoop 為主的平臺(tái)正在放緩建設(shè),一部分重新回到了 MPP(以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ),大數(shù)據(jù)/數(shù)據(jù)湖支撐部分業(yè)務(wù)),一部分走向了云原生架構(gòu)(以數(shù)據(jù)湖為基礎(chǔ),走向湖倉(cāng)一體)。我預(yù)測(cè),未來(lái)這種復(fù)雜的混部架構(gòu)應(yīng)該會(huì)持續(xù)存在至少 5 年以上。

BI 即將進(jìn)化

BI will be evolved

現(xiàn)代的 BI 工具,幾乎都是可視化工具,而之所以需要這么強(qiáng)的可視化,是因?yàn)槿祟悷o(wú)法直接理解數(shù)據(jù),給人 0 和 1 是無(wú)法直接解讀和理解的。而圖形可以幫助人類快速理解,某個(gè)指標(biāo)是漲了還是跌了,某個(gè)因子比另外一個(gè)要影響更大,哪個(gè)結(jié)果指標(biāo)是由哪幾個(gè)過(guò)程指標(biāo)分解等等。優(yōu)秀的可視化能力,是幫助分析師高效完成分析、總結(jié)和探索的的利器。

但今天,當(dāng) AI 可以直接讀取和分析數(shù)據(jù)的時(shí)候,就不需要前置一個(gè)可視化工具了。直接給 AI 數(shù)據(jù) 0 和 1,即可讓 AI 快速給出分析結(jié)論:是漲了跌了?背后是為什么?什么因子影響的?影響有多大?還有什么原因……AI 產(chǎn)生的效率提升,是十倍到百倍以上的。相當(dāng)于 AI 把以前分析師需要做的大部分工作都做了,人類只需要進(jìn)行選擇、判斷和稍微修正就行。這是 AI 時(shí)代對(duì)數(shù)據(jù)和分析行業(yè)帶來(lái)巨大變化的第一點(diǎn)。

自動(dòng)化行業(yè)有一個(gè)非常好的比喻:不要讓機(jī)器人打算盤(pán)。都已經(jīng)有 AI 了,人類可以問(wèn) AI 要結(jié)果和建議,而不是依然讓 AI 去做低效的工作。

圖片來(lái)源:ChatGPT-4

我們今天的產(chǎn)品已經(jīng)做到了這些能力,我們可以更進(jìn)一步,去改變這個(gè)行業(yè)。為用戶提供一個(gè)動(dòng)態(tài)的、聰明的、高效的決策助理/Copilot,而不僅僅只是一個(gè)數(shù)據(jù)呈現(xiàn)工具。

從性能轉(zhuǎn)移到績(jī)效

Performance is not the key

Performance will be the new key

我們?cè)?OLAP 的場(chǎng)景中,經(jīng)常碰到的挑戰(zhàn)就是 Performance/性能

雖然性能是我們的強(qiáng)項(xiàng),但往往我們花費(fèi)了無(wú)數(shù)的心血,可能只是為了幫助客戶的某條 SQL 提速了幾秒鐘,或者只是讓他們?cè)邳c(diǎn)開(kāi)儀表盤(pán)的時(shí)候少等待幾秒。

在技術(shù) PK 中,Performance也是最常見(jiàn)的、競(jìng)爭(zhēng)性最強(qiáng)的一個(gè)點(diǎn)。性能良好的系統(tǒng)/OLAP,當(dāng)然是非常好的,但當(dāng)大家都到了秒級(jí)的時(shí)候,其實(shí)已經(jīng)沒(méi)什么可比的。而往往改變一個(gè)數(shù)據(jù)結(jié)構(gòu),或者一個(gè)數(shù)據(jù) Pipeline,就能夠以數(shù)量級(jí)的方式提升性能。

那為什么需要這么好的性能?在 AI 時(shí)代,性能依然重要嗎?我們認(rèn)為,之所以需要 OLAP 或者數(shù)據(jù)倉(cāng)庫(kù)端有極好的性能,是因?yàn)榇罅康臄?shù)據(jù)分析工作,依賴于有限的幾個(gè)分析師或業(yè)務(wù)用戶,而這個(gè)人群的業(yè)務(wù)壓力非常大,且往往數(shù)據(jù)出來(lái)后,依然有著非常繁重的任務(wù),比如對(duì)比數(shù)據(jù)、查閱歷史、分析原因、重跑各種可能性等等,并要形成報(bào)告和決策、行動(dòng)建議。所以一個(gè)非常好用的工具確實(shí)是必不可少的。

但在 AI 時(shí)代,這里的大量工作其實(shí)可以委托給 AI 完成,甚至可以讓 AI 提前完成,尤其是固有的、常用分析套路。AI 可以快速給出大致的總結(jié),這已經(jīng)能夠大大節(jié)省人力。AI 甚至可以讓各種系統(tǒng)自動(dòng)化連接起來(lái)。

今天我們用 Kyligence Zen 出一個(gè)周報(bào)或者做一次歸因,只要十秒左右即可,而且自帶了總結(jié),這比傳統(tǒng)的那套流程:出結(jié)果、查資料、寫(xiě)報(bào)告……已經(jīng)有了質(zhì)的提升。性能,尤其是查詢性能,在這個(gè)場(chǎng)景下其實(shí)已經(jīng)沒(méi)那么嚴(yán)苛了。反而,并發(fā)性成了下一個(gè)挑戰(zhàn),因?yàn)闀?huì)有越來(lái)越多的人來(lái)使用系統(tǒng)。而并發(fā),正好也是我們的強(qiáng)項(xiàng)。

而最近,更多的客戶已經(jīng)將關(guān)注點(diǎn),從性能轉(zhuǎn)移到了Performance 的另外一個(gè)含義:績(jī)效。

指標(biāo)平臺(tái),本質(zhì)上是一個(gè) KPI 平臺(tái),而 KPI 則是 Key Performance Indicator 的縮寫(xiě)。當(dāng)我們將關(guān)注點(diǎn)從性能轉(zhuǎn)移到績(jī)效的時(shí)候,突然發(fā)現(xiàn),這才是客戶真正要的產(chǎn)品:儀表盤(pán)或者報(bào)表從來(lái)不是客戶要得最終結(jié)果,他們要得是基于數(shù)據(jù)的管理能力。幾乎每一個(gè)有用的指標(biāo)/Metric,都展示了某個(gè)業(yè)務(wù)或者管理的結(jié)果,而一個(gè)公司之所以需要指標(biāo),就是為了更好地觀測(cè)相關(guān)業(yè)務(wù)的進(jìn)展、健康狀態(tài)以及及時(shí)采取措施來(lái)修正組織行為,從而確保公司的整體或者部分績(jī)效能夠按照設(shè)定的目標(biāo)行進(jìn)。

我們要跳出技術(shù)思維,在Performance/績(jī)效上打出差異化和壁壘,提升技術(shù)投入的 ROI,并快速占據(jù)市常

AI 吞噬世界

AI is eating the world

圖片來(lái)自網(wǎng)絡(luò)

AI 正在吞噬軟件,這是 NVIDIA 黃仁勛在2017年的一篇采訪中提到的,到今天,應(yīng)該沒(méi)有人再懷疑這個(gè)論斷。現(xiàn)在的問(wèn)題是,AI 將如何改變不同領(lǐng)域的軟件,在我們自己的行業(yè),就是 AI 將如何改變數(shù)據(jù)與分析市常

圖片來(lái)自網(wǎng)絡(luò)

在數(shù)倉(cāng)領(lǐng)域,上面這種圖已經(jīng)用了超過(guò) 30 年了:“數(shù)據(jù)源”“ETL”“數(shù)據(jù)倉(cāng)庫(kù)”“OLAP/數(shù)據(jù)集市”“BI/Reporting”頂多再加上“元數(shù)據(jù)”和“分析預(yù)測(cè)”。無(wú)論 ELT 還是 ETL、數(shù)據(jù)湖還是數(shù)據(jù)倉(cāng)庫(kù)、本地部署還是云端部署,其中所有的假設(shè),都是數(shù)據(jù)需要經(jīng)過(guò)漫長(zhǎng)的工程,從原始數(shù)據(jù)萃集后,整理成星型或雪花模型,從而提供給上層 BI 等使用。作為使用者的最終用戶,往往是最后才被賦能,從而導(dǎo)致大量的數(shù)據(jù)其實(shí)今天依然沒(méi)有被充分利用起來(lái)

Generative AI(生成式 AI)的出現(xiàn),使得數(shù)據(jù)的工藝流程出現(xiàn)了巨大的變革,數(shù)據(jù)的加工方式發(fā)生了革命性的變化。首先,各種復(fù)雜的重復(fù)性的勞動(dòng),尤其是數(shù)據(jù)的 Pipeline,都將由 AI Agent 來(lái)處理。小到行列轉(zhuǎn)換,大到數(shù)據(jù)治理,未來(lái)應(yīng)該有很多的 AI Agent 來(lái)處理這些工作,人類只需要用提示詞設(shè)計(jì)合理的流程就好。這從 ChatGPT 自帶的 Advanced Data Analysis 和眾多使用 OpenAI’s Code Interpreter 的數(shù)據(jù)分析工具都可以看到,甚至 GPTs 可以通過(guò)幾個(gè)簡(jiǎn)單的提示詞就可以完成很多數(shù)據(jù)梳理、分析的工作。

當(dāng)時(shí)我在一個(gè)內(nèi)部的文檔中就寫(xiě)到:

其次,人和機(jī)器的交互進(jìn)化到了最自然的方式,數(shù)據(jù)的消費(fèi)方式發(fā)生了革命性的變化。只要會(huì)說(shuō)話,就能用數(shù)據(jù),是這一次 AI 帶來(lái)的巨大變革。這使得原來(lái)只有領(lǐng)導(dǎo)、分析師、專業(yè)用戶等才能使用的“數(shù)據(jù)和分析能力”,一下子平民化到了每個(gè)人,即使文化水平有限的用戶,也能被充分賦能。這將大大改變現(xiàn)在的數(shù)據(jù)架構(gòu)、處理模式和消費(fèi)方式等。

大部分公司現(xiàn)在能夠有效使用數(shù)據(jù)的員工不超過(guò) 10 ~ 15%,而這次 AI 革命,能夠讓其余 85 ~ 90% 的人直接消費(fèi)數(shù)據(jù)或者數(shù)據(jù)產(chǎn)品,可以預(yù)見(jiàn),現(xiàn)有的數(shù)據(jù)架構(gòu)是無(wú)法滿足的。這里的變革才剛開(kāi)始,我們的實(shí)踐走在行業(yè)最前沿,最近收到很多的市場(chǎng)反饋,都說(shuō)我們的產(chǎn)品做的非常務(wù)實(shí)和好用,甚至某頭部股份制銀行和我談是不是給他們提供個(gè)產(chǎn)品咨詢教他們?cè)趺醋霎a(chǎn)品這說(shuō)明我們的設(shè)計(jì)、體驗(yàn)和功能,獲得了最終用戶的認(rèn)可,正在影響行業(yè)的發(fā)展。

當(dāng)每個(gè)人都能、都需要消費(fèi)數(shù)據(jù)的時(shí)候,傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)或者數(shù)據(jù)湖的架構(gòu)是否還適用,數(shù)據(jù)的存儲(chǔ)方式將發(fā)生什么樣的變革?這是一個(gè)開(kāi)放問(wèn)題,目前我還沒(méi)有具體的答案,但可以預(yù)見(jiàn),AI 的場(chǎng)景,必然會(huì)要求系統(tǒng)處理更多的數(shù)據(jù),更靈活地訪問(wèn)數(shù)據(jù)和更高效地服務(wù)更多人。從今天的大部分 MPP 和大數(shù)據(jù)的架構(gòu)上看,在這幾個(gè)方面應(yīng)該都會(huì)很快面臨巨大的挑戰(zhàn),當(dāng)比現(xiàn)在訪問(wèn)量大十倍、百倍甚至萬(wàn)倍的時(shí)候,今天任何數(shù)據(jù)系統(tǒng)要在成本可控的情況下完成都非常困難,這里期待我們未來(lái)和客戶一起共同研究和探索,一起突破這里的極限。

AI 能帶來(lái)的,將遠(yuǎn)比這些更多。AI 將帶來(lái)數(shù)據(jù)和分析的深層次革命。機(jī)器將代替人類完成更多的工作,尤其是重復(fù)的、可被自動(dòng)化的。過(guò)去數(shù)據(jù)系統(tǒng)完成數(shù)據(jù)的加工和指標(biāo)的統(tǒng)計(jì)后,后續(xù)需要大量的人工去分析影響相關(guān)指標(biāo)變化的影響要素,探索根因,并根據(jù)經(jīng)驗(yàn)提供相關(guān)的決策建議。

簡(jiǎn)單的實(shí)踐就能看到巨大的變化,這里面的潛力無(wú)限。希望所有人都能發(fā)揮想象力,更多地讓 AI 來(lái)改變數(shù)據(jù)和分析,甚至是整個(gè)企業(yè)的經(jīng)營(yíng)和管理。

贊助本站

人工智能實(shí)驗(yàn)室

相關(guān)熱詞: Hadoop 已死 吞噬 世界

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港