展會信息港展會大全

一家380億美元的數(shù)據(jù)巨頭,要掀起企業(yè)“AI化”革命
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-07-02 14:15:31   瀏覽:6919次  

導(dǎo)讀:作者 | 宛辰、Li Yuan 編輯 | 靖宇 當(dāng)?shù)貢r間 6 月 28 日,美國知名數(shù)據(jù)平臺 Databricks 舉辦了自己的年度大會數(shù)據(jù)與人工智能峰會。會上,Databricks 公布了 LakehouseIQ、Lakehouse AI、Databricks Marketplace 、 Lakehouse Apps 等一系列重要新品。 無論是...

作者 | 宛辰、Li Yuan

編輯 | 靖宇

當(dāng)?shù)貢r間 6 月 28 日,美國知名數(shù)據(jù)平臺 Databricks 舉辦了自己的年度大會數(shù)據(jù)與人工智能峰會。會上,Databricks 公布了 LakehouseIQ、Lakehouse AI、Databricks Marketplace 、 Lakehouse Apps 等一系列重要新品。

無論是從峰會的名稱,還是新產(chǎn)品的命名,都能看出這家知名數(shù)據(jù)平臺,正在趁著大語言模型的東風(fēng),加速向 AI 轉(zhuǎn)變的腳步。

Databricks 公司 CEO Ali Ghodsi 所說的數(shù)據(jù)和 AI 普惠化|Databricks

「Databricks 要實(shí)現(xiàn)的是『數(shù)據(jù)普惠』和 AI 普惠,前者讓數(shù)據(jù)通向每一個雇員,后者讓 AI 進(jìn)入每一個產(chǎn)品!笵atabricks 公司 CEO Ali Ghodsi 在臺上說出了團(tuán)隊(duì)的使命。

就在大會開始之前,Databricks 剛剛宣布以 13 億美元收購 AI 領(lǐng)域的新生力量 MosaicML,創(chuàng)下了當(dāng)前 AI 領(lǐng)域收購紀(jì)錄,可見公司在 AI 轉(zhuǎn)型上的力度和決心。

正在前方參會的 PingCAP 創(chuàng)始人兼 CEO 劉奇告訴極客公園,Databricks 平臺剛剛上線 AI 的企業(yè)級應(yīng)用,就已經(jīng)有超過 1500 家公司在上面進(jìn)行模型訓(xùn)練,「數(shù)字超出預(yù)期」。同時,他認(rèn)為 Databricks 由于之前在數(shù)據(jù)+ AI 方面的積累,讓公司能在 AI 大火之際,迅速在之前平臺基礎(chǔ)上加入新產(chǎn)品,就能快速給出和大模型相關(guān)的服務(wù)。

「最關(guān)鍵的就是速度!箘⑵嬲f道,在大模型時代,如何用更快的速度讓大模型和現(xiàn)有產(chǎn)品整合,解決用戶的痛點(diǎn),可能是當(dāng)下所有數(shù)據(jù)公司最大的挑戰(zhàn),同時也是最大的機(jī)會。

Talking points

通過交互界面的升級,不是數(shù)據(jù)分析師的普通人,也可以直接使用自然語言查詢和分析數(shù)據(jù)。企業(yè)將大模型部署到云端數(shù)據(jù)庫將越來越容易,直接使用成品大模型工具分析數(shù)據(jù),也將變得更加簡單。隨著AI的進(jìn)展,數(shù)據(jù)的價值還將越來越高,數(shù)據(jù)潛力將被進(jìn)一步釋放。

01

數(shù)據(jù)庫迎來自然語言交互

在會上,Databricks 推出了全新的「神器」LakehouseIQ。LakehouseIQ 承載著 Databricks 近期最大的發(fā)力方向之一數(shù)據(jù)分析普惠化,即不掌握 Python 和 SQL 的普通人也能輕輕松松接入公司數(shù)據(jù),用自然語言就能進(jìn)行數(shù)據(jù)分析。

為達(dá)到這個目的,LakehouseIQ 被設(shè)計(jì)為一個功能合集,既可以被普通終端用戶使用,也可以被開發(fā)者使用,針對不同的用戶設(shè)計(jì)了不同的功能。

LakehouseIQ 產(chǎn)品圖|Databricks

對于開發(fā)者方面,發(fā)布了 LakehouseIQ in Notebooks,這項(xiàng)功能中,LakehouseIQ 可以利用大語言模型幫助開發(fā)人員完成、生成和解釋代碼,以及進(jìn)行代碼修復(fù)、調(diào)試和報告生成。

而對于普通的非程序員群體,Databricks 則提供了可以直接用自然語言交互的界面,背后由大語言模型驅(qū)動,可以直接用自然語言來搜索和查詢數(shù)據(jù)。同時,該功能與 Unity Catalog 集成,讓公司可以對數(shù)據(jù)的搜索和查詢進(jìn)行訪問權(quán)限控制,只返回提問者被授權(quán)查看的數(shù)據(jù)。

自大模型推出以來,用自然語言對數(shù)據(jù)進(jìn)行查詢和分析,其實(shí)一直是一個數(shù)據(jù)分析方向的熱點(diǎn),許多公司在此方向都有所布局。包括 Databricks 的老對手 Snowflake,剛剛宣布的 Document AI 功能也是主打這個方向。

LakehouseIQ 自然語言查詢界面|Databricks

不過 Databricks 宣稱,LakehouseIQ 做到了更好的功能。它提到,通用大語言模型在理解特定客戶數(shù)據(jù)、內(nèi)部術(shù)語和使用模式方面擁有局限性。而 Databricks 的技術(shù),能夠利用客戶自己的模式(schema)、文檔、查詢、受歡迎程度、線程、筆記本和商業(yè)智能儀表盤來獲取智能,回答更多查詢。

Databricks 的功能與 Snowflake 的功能還有一個差別,Snowflake 平臺的 Document AI 功能,僅限于對文檔中的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行查詢,而 LakehouseIQ 適用于結(jié)構(gòu)化的 Lakehouse 數(shù)據(jù)和代碼。

02

從機(jī)器學(xué)習(xí)到 AI

Databricks 與 Snowflake 在發(fā)布會上的相似之處還不局限于此。

此次發(fā)布會中,Databricks 發(fā)布了 Databricks Marketplace 和 Lakehouse AI,這與 Snowflake 這兩天大會的重點(diǎn)也完全吻合,二者都主打?qū)⒋笳Z言模型部署到數(shù)據(jù)庫環(huán)境中。

在 Databricks 的設(shè)想中,Databricks 未來既可以協(xié)助客戶部署大模型,也提供成品的大模型工具。

Databricks 過去就有 Databricks Machine Learning 的品牌,在此次發(fā)布會上,Databricks 對其進(jìn)行品牌全面的重新定位,升級為 Lakehouse AI,主打協(xié)助客戶部署大模型。

Databricks 上線了 Databricks Marketplace。在 Databricks Marketplace 中,用戶可以接入經(jīng)過篩選的開源大語言模型集合,包括 MPT-7B、Falcon-7B 和 Stable Diffusion,還可以發(fā)現(xiàn)和獲取數(shù)據(jù)集、數(shù)據(jù)資產(chǎn)。Lakehouse AI 還包括一些大語言模型操作能力(LLMOps)。

Lakehouse AI 架構(gòu)圖|Databricks

Snowflake 也在對此進(jìn)行積極部署,其相似功能由 Nvidia NeMo、Nvidia AI Enterprise、Dataiku 和 John Snow Labs 提供(與英偉達(dá)的合作正是 Snowflake 大會的重點(diǎn)之一,見極客公園的報道)。

在協(xié)助客戶部署大模型方向,Snowflake 與 Databricks 顯現(xiàn)出了分歧。Snowflake 選擇積極地與合作伙伴進(jìn)行合作,而 Databricks 則試圖將該功能作為其核心平臺的本地特性添加進(jìn)去。

而在提供成品工具方面,Databricks 宣布 Databricks Marketplace 未來還將可以提供 Lakehouse Apps。Lakehouse Apps 將直接在客戶的 Databricks 實(shí)例上運(yùn)行,它們可以與客戶的數(shù)據(jù)集成,使用和擴(kuò)展 Databricks 服務(wù),并使用戶能夠通過單點(diǎn)登錄體驗(yàn)進(jìn)行互動。數(shù)據(jù)永遠(yuǎn)不需要離開客戶的實(shí)例,沒有數(shù)據(jù)移動和安全/訪問問題。

這點(diǎn)則與 Snowflake 公司的產(chǎn)品從命名到功能上都直接撞車。Snowflake 公司與之相似的 Snowflake Marketplace 和 Snowflake Native App 已經(jīng)上線,是其發(fā)布會的重點(diǎn)之一。彭博社就在 Snowflake 的大會上宣布了一個由彭博社提供的 Data License Plus (DL+) APP,允許客戶在云端用幾分鐘時間就能配置一個隨時可用的環(huán)境,內(nèi)部設(shè)有完全建模的彭博訂閱數(shù)據(jù)和來自多供應(yīng)商的 ESG 內(nèi)容。

03

數(shù)據(jù)平臺迎來新變革

開幕式主旨演講上,Databricks 公布了一個數(shù)字:過去 30 天,已經(jīng)在 Databricks 平臺上訓(xùn)練 Transformer 模型的客戶超過 1500 家。

在談及這個令人印象深刻的數(shù)字時,PingCAP 劉奇認(rèn)為,這說明企業(yè)應(yīng)用 AI 的速度比預(yù)期的要快得多,「應(yīng)用模型不一定要去訓(xùn)練模型,所以如果訓(xùn)練的都有 1500 家,那應(yīng)用的肯定要比這個(數(shù)字)大的多得多!

另一方面,這也表明 Databricks 在 AI 這個領(lǐng)域的布局相對完整。「它現(xiàn)在不僅僅是一個 Data Warehouse(數(shù)據(jù)倉庫),一個 Datalake(數(shù)據(jù)湖),F(xiàn)在它還提供:AI 的 training(訓(xùn)練)、AI 的 serving(服務(wù)),模型的管理等一整套!

Ali Ghodsi 以計(jì)算和互聯(lián)網(wǎng)的革命,類比大模型之于機(jī)器學(xué)習(xí)的變革|Databricks

也就是說,底層模型可以通過 Databricks 的平臺去訓(xùn)練,「最底層的模型改改參數(shù)就能訓(xùn)練」。在這個模型之上所需要的 AI 服務(wù),Databricks 也布局了相應(yīng)的基礎(chǔ)設(shè)施今天發(fā)布了 vector search(向量搜索)和 feature store(特征庫)。

Databricks 全面向大模型升級。

過去,Databricks 在 AI 方面有很多積累,比如在建索引、查數(shù)據(jù)、預(yù)測工作負(fù)載等方面,用小模型來提高效率、降低時延。但是,以如此快的速度補(bǔ)上大模型的能力,還是讓不少人意外。

在今天峰會全面展示的 AI 布局之前,Databricks 收購了 Okera(AI 數(shù)據(jù)治理),推出了自家的開源大模型 Dolly 2.0,又以 13 億美元并購了 MosaicML,一連串的動作一氣呵成。

對此,硅谷徐老師 Howie 認(rèn)為,Databricks 和 Snowflake 這兩個大會都可以比較明確地看出:兩家公司的創(chuàng)始人認(rèn)為,基于數(shù)據(jù)庫、數(shù)據(jù)湖他們所做的行動、接下來會面臨根本性的改變。按照一年前他們在做的思路,在未來幾年行不通。

相應(yīng)地,快速補(bǔ)齊大模型的能力,也意味著可以獲得由于大模型帶來的增量市常

劉奇認(rèn)為,沒有大模型之前,很多的需求可能都不存在,但有了大模型之后,有了很多新增需求!敢?yàn)橹挥心P蜎]有數(shù)據(jù),干不了什么事情,特別是沒有辦法做出差異化。如果大家都是一個大模型,那你跟別人可能也沒有差別!

但比起大模型,峰會現(xiàn)場的觀眾似乎更關(guān)注小模型,因?yàn)樾∧P偷膸讉優(yōu)勢:速度、成本、安全性。劉奇表示,基于自己獨(dú)有的數(shù)據(jù),做出差異化的模型,模型要足夠小才能滿足這三條:足夠便宜、足夠快、足夠安全。

值得注意的是,Databricks 和 Snowflake 在日前都公布了它的營收數(shù)據(jù),平臺年?duì)I收增長在 60% 以上。相比整個市場軟件支出放緩的大背景,這樣的增長速度反映了數(shù)據(jù)越來越被關(guān)注。這次 Databricks 峰會的主題也是數(shù)據(jù)加 AI,但有了大模型,數(shù)據(jù)的價值還將越來越高。

大模型的到來,讓數(shù)據(jù)自動生成成為可能,可以預(yù)見,數(shù)據(jù)量將指數(shù)級增長。怎么輕松地訪問數(shù)據(jù)、怎么支持不同的數(shù)據(jù)格式、挖掘數(shù)據(jù)背后的價值,會成為越來越頻繁的需求。

另一方面,今天很多企業(yè)還在還在探索觀望將大模型接入企業(yè)軟件,但考慮到安全、隱私、成本,敢直接用的,還很少。一旦通過將大模型直接部署到企業(yè)數(shù)據(jù)上,無需移動數(shù)據(jù),部署大模型的門檻將被進(jìn)一步降低,數(shù)據(jù)被消費(fèi)的數(shù)量和速度都將被進(jìn)一步釋放。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港