展會信息港展會大全

打破傳統(tǒng)搜索模式,亞馬遜云科技向量數(shù)據(jù)庫提供高性能相似性搜索功能
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-11-17 09:19:10   瀏覽:6913次  

導(dǎo)讀:當我們進入一家圖書館時,圖書館的入口處會有幾臺電腦供你檢索相關(guān)的書籍,你可以檢索你想要的書籍的名字例如:《百年孤獨》、《悲慘世界》等等,你也可以檢索作者例如:川端康成、魯迅、加繆等等,當然你也可以檢索分類,例如:歷史、哲學(xué)、文學(xué)等等,這就...

當我們進入一家圖書館時,圖書館的入口處會有幾臺電腦供你檢索相關(guān)的書籍,你可以檢索你想要的書籍的名字例如:《百年孤獨》、《悲慘世界》等等,你也可以檢索作者例如:川端康成、魯迅、加繆等等,當然你也可以檢索分類,例如:歷史、哲學(xué)、文學(xué)等等,這就是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,檢索這樣簡單關(guān)系的數(shù)據(jù)是沒有任何問題的。但當你只能記起書里的某個章節(jié)或者人物的某個特征而想檢索到這本書時,你就無能為力了,甚至我們可以把視野放的更大一點,你想檢索一段音頻或者一張偶然拍下的花朵時,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫恐怕對這樣的要求就捉襟見肘了,也正是基于解決這樣問題的要求,向量數(shù)據(jù)庫應(yīng)運而生。

那么什么是向量數(shù)據(jù)庫?它的原理是怎么樣的?又為什么說未來是向量數(shù)據(jù)庫的天下呢?

要想了解什么是向量數(shù)據(jù)庫我們就必須得明白一個高中的數(shù)學(xué)知識:向量。在數(shù)學(xué)中,向量是有大小和方向的量,可以使用帶箭頭的線段表示,箭頭指向即為向量的方向,線段的長度表示向量的大校兩個向量的距離或者相似性可以通過歐式距離、余弦距離等得到,這就是向量數(shù)據(jù)庫運行的基本數(shù)學(xué)原理。

接下來就可以介入向量數(shù)據(jù)的元素了,前面舉到的圖書館的示例只是將一群事物進行類別上標簽的歸類,但對于復(fù)雜的事物就難以簡單地打標簽了,而且想要進行更復(fù)雜的運算和檢索過程就必須將一個具體的事物數(shù)據(jù)化。向量數(shù)據(jù)就是根據(jù)事物的各項特征進行向量得的賦予,例如我們想要在數(shù)據(jù)世界區(qū)別梅西和C羅,就可以從具體的特征出發(fā)比如身高、發(fā)色、鼻梁高低、眼睛大孝聲音響度高低等等方面,賦予他們向量,就能發(fā)現(xiàn)兩個人的區(qū)別。

而這種向量當賦予全球80多億人時就會發(fā)現(xiàn),每個人都不盡相同,而且給予向量的特征角度越多,那么數(shù)據(jù)就會越準確。這從數(shù)學(xué)理論方面建立了每個人的模型,利用這個模型,我們就能在二進制世界中建立另一個現(xiàn)實世界,這樣我們就可以將一本小說、一首音樂、一段視頻、一張照片數(shù)據(jù)化,這就是向量數(shù)據(jù)。

當我們想要檢索某一事物時,只需要盡可能多的提供的某些特征,電腦就會將這些特征轉(zhuǎn)化為向量,向量空間中會進行相似度計算和索引,而向量數(shù)據(jù)庫可以實現(xiàn)高效的數(shù)據(jù)檢索和分析,例如檢索雙胞胎中的某一個時,另一個就會最快出現(xiàn)。而當你檢索一本小說中的某一橋段時,這本小說也會最快的被匹配到從而被檢索出。

那么接下來就可以真正了解向量數(shù)據(jù)庫了,向量數(shù)據(jù)庫就是一種特殊類型的數(shù)據(jù)庫,用于存儲和索引向量數(shù)據(jù)。在傳統(tǒng)數(shù)據(jù)庫中,數(shù)據(jù)是以表格的形式進行組織和存儲的,而向量數(shù)據(jù)庫則專注于處理和查詢向量數(shù)據(jù),這些數(shù)據(jù)通常表示為多維數(shù)值數(shù)組。向量數(shù)據(jù)庫的主要目的是支持高效的向量相似性搜索和查詢。向量數(shù)據(jù)庫廣泛應(yīng)用于人臉識別、圖像搜索、視頻分析、語音識別、推薦系統(tǒng)等領(lǐng)域。通過在向量空間中計算向量之間的距離和相似度,可以快速找到與目標向量最相似的數(shù)據(jù)對象,從而實現(xiàn)高效的搜索和匹配。值得注意的是,向量數(shù)據(jù)庫主要適用于處理高維度的向量數(shù)據(jù),而且在處理大規(guī)模數(shù)據(jù)集時通常能提供更高的查詢性能和可擴展性。因此,在某些特定的應(yīng)用場景下,向量數(shù)據(jù)庫可以作為傳統(tǒng)數(shù)據(jù)庫的補充或替代選擇。

之所以說未來是向量數(shù)據(jù)庫的天下,是因為向量數(shù)據(jù)庫讓大模型有了"記憶"的功能,在初始的大語言模型中,世界知識和語義理解被壓縮為靜態(tài)參數(shù),模型不會隨著交互記住用戶的聊天記錄和喜好,也無法調(diào)用額外知識信息來輔助判斷,因此模型只能根據(jù)歷史訓(xùn)練數(shù)據(jù)回答問題,并且經(jīng)常產(chǎn)生幻覺,給出與事實相悖的答案。也就是說大數(shù)據(jù)模型是一個計算力恐怖的大腦,但是這個大腦的記憶力奇差,而向量數(shù)據(jù)庫就相當于給這個大腦裝配上了海馬體,讓這個大腦真正的像人一樣,能計算還能根據(jù)過去的記憶計算,從而使返回結(jié)果更精準,這也就是這幾年AI科技發(fā)展速度奇快的原因之一。

2023年8月1日,亞馬遜云科技推出了Amazon OpenSearch Serverless向量引擎預(yù)覽版,為用戶提供了一種簡單、可擴展且高性能的相似性搜索功能,使用戶能夠輕松地創(chuàng)建現(xiàn)代化機器學(xué)習(xí)(ML)增強的搜索體驗和生成式AI應(yīng)用程序,同時無需管理底層的向量數(shù)據(jù)庫基礎(chǔ)設(shè)施。

那么Amazon OpenSearch Serverless向量引擎的優(yōu)勢又有哪些呢?

1、構(gòu)建于Amazon OpenSearch Serverless的向量引擎天然具備魯棒性(這個詞挺抽象的,可以理解為系統(tǒng)更加穩(wěn)健,性能更強)。因為亞馬遜云科技向量引擎可自動調(diào)整資源,來適應(yīng)不斷變化的工作負載模式和需求,從而提供始終如一的快速性能和適當規(guī)模。用戶也就不必擔心后端基礎(chǔ)設(shè)施的選型、調(diào)優(yōu)和擴展問題。

2、Amazon OpenSearch Serverless向量引擎由開源OpenSearch項目中的k近鄰(即kNN,可以理解為物以類聚算法,向量數(shù)據(jù)越接近越容易被檢索)搜索功能提供支持,該功能能夠提供可靠而精確的結(jié)果。簡單來說,就是兼容了很多種算法,降低了復(fù)雜性,提升了可維護性,并且避免了數(shù)據(jù)重復(fù)、版本兼容性難題和許可問題,有效地簡化了應(yīng)用程序棧。

3、向量引擎支持不同領(lǐng)域的廣泛用例,包括圖像搜索、文檔搜索、音樂檢索、產(chǎn)品推薦、視頻搜索、基于位置的搜索、欺詐檢測以及異常檢測。

在向量引擎正式版可用前,亞馬遜云科技計劃提供兩項功能來降低客戶使用向量引擎的成本。第一項功能是開發(fā)——測試選項,讓用戶可以在不創(chuàng)建備份或副本的情況下啟動集合,從而減少了50%的入門成本。第二項功能是初始配置0.5個OCU資源,根據(jù)用戶實際工作需要來擴展資源,這可以幫助用戶進一步節(jié)約成本。除此之外,亞馬遜云科技還將降低支持用戶首個集合所需的最低OCU數(shù)量,從每小時4個降至每小時1個,以減少用戶的成本支出。

總的來說,亞馬遜云科技的向量引擎具有強大的性能和可擴展性,可以滿足各種應(yīng)用程序的需求。

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港