當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > 幾分鐘開發(fā) AI 應(yīng)用成為可能，為什么說大模型中間件是 AI 必備軟件？

幾分鐘開發(fā) AI 應(yīng)用成為可能，為什么說大模型中間件是 AI 必備軟件？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-06-13 18:51:33 瀏覽：7995次

導(dǎo)讀：作者 |厲啟鵬出品 | CSDN（ID：CSDNnews） 2022年底，OpenAI基于大語言模型發(fā)布了聊天應(yīng)用ChatGPT，推出僅一個(gè)月活躍用戶破億，吸引全球范圍的廣泛關(guān)注。ChatGPT的出現(xiàn)將人工智能推向全球關(guān)注的中心舞臺(tái)，大語言模型帶動(dòng)的新一輪人工智能浪潮，正以前所未有...

作者 |厲啟鵬

出品 | CSDN（ID：CSDNnews）

2022年底，OpenAI基于大語言模型發(fā)布了聊天應(yīng)用ChatGPT，推出僅一個(gè)月活躍用戶破億，吸引全球范圍的廣泛關(guān)注。ChatGPT的出現(xiàn)將人工智能推向全球關(guān)注的中心舞臺(tái)，大語言模型帶動(dòng)的新一輪人工智能浪潮，正以前所未有的速度席卷全球。據(jù)統(tǒng)計(jì)，目前全球大型語言模型相關(guān)的創(chuàng)業(yè)公司已超過200家，投資總額達(dá)到70億美元。

TechCrunch的數(shù)據(jù)顯示，2022年前三個(gè)季度全球人工智能的投資已達(dá)到560億美元，創(chuàng)下歷史新高。其中，融資較高的創(chuàng)業(yè)公司包括Anthropic、Cohere、AI21 Labs等，這些公司的技術(shù)都建立在大型語言模型的基礎(chǔ)之上。

大模型落地的挑戰(zhàn)

對于個(gè)人用戶，大語言模型帶來了前所未有的高度個(gè)性化體驗(yàn)。它能夠與用戶進(jìn)行流暢的對話，并提供即時(shí)且針對性的回應(yīng)。借助基于大型語言模型的AI寫作助手，用戶能夠快速生成高質(zhì)量的文章草稿，其風(fēng)格與用戶貼合，極大提高了內(nèi)容創(chuàng)作效率。然而，大模型要在企業(yè)側(cè)真正落地仍然面臨很大挑戰(zhàn)，總結(jié)為下面四個(gè)方面：

大模型專業(yè)深度不夠，數(shù)據(jù)更新不及時(shí)，缺乏與真實(shí)世界的連接。例如，在法律政策解讀、電商客服、投資研報(bào)等專業(yè)領(lǐng)域中，由于大型模型缺乏足夠的專業(yè)領(lǐng)域數(shù)據(jù)，用戶在使用過程中經(jīng)常會(huì)感覺大模型在一本正經(jīng)地“胡說八道”。

大模型有Token的限制，記憶能力有限。大家之所以驚艷于ChatGPT流暢絲滑的對話能力，有很大一部分原因是其支持多輪對話。用戶提問時(shí)，ChatGPT不但能理解意圖，而且還能夠基于之前的問答做綜合推理。然而，大模型由于Token的限制，只能記憶部分的上下文。比如ChatGPT 3.5只能記憶4096個(gè)Token，無法實(shí)現(xiàn)長期記憶。

用戶對于數(shù)據(jù)安全的擔(dān)憂。大模型的出現(xiàn)讓AI成為一種普惠技術(shù)，人人都可以基于大模型構(gòu)建AI的應(yīng)用。AI技術(shù)本身不再是商業(yè)壁壘，數(shù)據(jù)才是。而企業(yè)要想利用大模型構(gòu)建商業(yè)，必須將自己的數(shù)據(jù)全部輸送給大模型，以進(jìn)行推理和表達(dá)。如何在數(shù)據(jù)安全可控的情況下使用大模型技術(shù)，成為一個(gè)亟待解決的問題。

使用大模型的成本問題。目前有兩種模式可以使用大模型，一是將大模型本地化，用于再訓(xùn)練形成企業(yè)專有的模型。二是利用公有云模型，按照請求的Token數(shù)量付費(fèi)。第一種方式成本極高，大模型由于有數(shù)千億的模型參數(shù)，光部署計(jì)算資源的投資就得上億。重新訓(xùn)練一次模型也需要近千萬的投入，非常燒錢。這對于一般的中小企業(yè)是完全無法承受的。第二種方式企業(yè)構(gòu)建的AI應(yīng)用可以按照Token數(shù)量付費(fèi)，雖然無需一次性的大額投入，但成本依然不低。以O(shè)penAI為例，如果對通用模型進(jìn)行微調(diào)（Fine-tuning)后，每使用1000個(gè)token（約600漢字）需要0.12美金。

企業(yè)級解決方案

針對上述問題，目前主要有三個(gè)解決方案：

第一是將大模型部署到企業(yè)本地，結(jié)合企業(yè)私有數(shù)據(jù)進(jìn)行訓(xùn)練，打造垂直領(lǐng)域?qū)Ｓ心Ｐ汀?/p>

第二是在大模型基礎(chǔ)上進(jìn)行參數(shù)微調(diào)，改變部分參數(shù)，讓其能夠掌握深度的企業(yè)知識(shí)。

第三種是圍繞向量數(shù)據(jù)庫打造企業(yè)的知識(shí)庫，基于大模型和企業(yè)知識(shí)庫再配合Prompt打造企業(yè)專屬AI應(yīng)用。

從實(shí)用性和經(jīng)濟(jì)性的角度考慮，第三種是最為有效的解決方案。該方案大致實(shí)現(xiàn)方式如下所示。

企業(yè)首先基于私有數(shù)據(jù)構(gòu)建一個(gè)知識(shí)庫。通過數(shù)據(jù)管道將來自數(shù)據(jù)庫、SaaS軟件或者云服務(wù)中的數(shù)據(jù)實(shí)時(shí)同步到向量數(shù)據(jù)庫中，形成自己的知識(shí)庫。

在這個(gè)過程中需要調(diào)用大模型的Embedding接口，將語料進(jìn)行向量化，然后存儲(chǔ)到向量數(shù)據(jù)庫。當(dāng)用戶與企業(yè)AI應(yīng)用對話時(shí)，AI應(yīng)用首先會(huì)將用戶的問題在企業(yè)知識(shí)庫中做語義檢索，然后將檢索的相關(guān)答案和問題以及配合一定的prompt一并發(fā)給大模型，獲得最終的答案之后回復(fù)給用戶。

該方案有如下優(yōu)勢：

充分利用大模型和企業(yè)優(yōu)勢：既可以充分利用企業(yè)已有知識(shí)，又可以利用大模型強(qiáng)大的表達(dá)和推理能力，二者完美融合。

使AI應(yīng)用具備長期記憶：Token的限制使大模型只能有短暫的記憶，無法將企業(yè)所有知識(shí)全部記祝利用外置的知識(shí)庫，可以將企業(yè)擁有的海量數(shù)據(jù)資產(chǎn)全部整合，幫助企業(yè)AI應(yīng)用構(gòu)建長期記憶。

企業(yè)數(shù)據(jù)相對安全可控：企業(yè)可以在本地構(gòu)建自己的知識(shí)庫，避免核心數(shù)據(jù)資產(chǎn)外泄。

落地成本低：通過該方案落地AI應(yīng)用，企業(yè)不需要投入大量資源建設(shè)自己的本地大模型，幫助企業(yè)節(jié)省動(dòng)輒千萬的訓(xùn)練費(fèi)用。

大模型中間件

企業(yè)要落地該知識(shí)庫方案仍然有一些具體問題需要解決，總結(jié)下來主要涉及三個(gè)方面。

第一方面是知識(shí)庫的構(gòu)建。企業(yè)需要將存在現(xiàn)有系統(tǒng)中的語料匯總到向量數(shù)據(jù)庫，形成企業(yè)自有的知識(shí)空間，這個(gè)過程涉及數(shù)據(jù)采集、清洗、轉(zhuǎn)換和Embedding等工作。語料來源比較多樣，可能是一些PDF、CSV等文檔，也可能需要接入企業(yè)現(xiàn)有業(yè)務(wù)系統(tǒng)涉及比如Mongodb、ElasticSearch等數(shù)據(jù)庫，或者來自抖音、Shopify、Twitter等第三方應(yīng)用。在完成數(shù)據(jù)的獲取后，通常需要對數(shù)據(jù)進(jìn)行過濾或者轉(zhuǎn)化。這個(gè)過程中，從數(shù)據(jù)源實(shí)時(shí)地獲取數(shù)據(jù)非常重要，比如電商機(jī)器人需要實(shí)時(shí)了解用戶下單的情況，政策解讀機(jī)器人需要了解最新政策信息。另外，對于數(shù)據(jù)Embedding的過程中涉及到數(shù)據(jù)的切塊，數(shù)據(jù)切塊的大小會(huì)直接影響到后面語義搜索的效果，這個(gè)工作也需要非常專業(yè)的NLP工程師才能做好。

其次是AI應(yīng)用的集成。AI應(yīng)用需要服務(wù)的用戶可能存在于微信、飛書、Slack或者企業(yè)自有的業(yè)務(wù)系統(tǒng)。如何將AI應(yīng)用與第三方SaaS軟件進(jìn)行無縫集成，直接決定用戶的體驗(yàn)和效果。

第三是數(shù)據(jù)安全性的問題。這個(gè)方案沒有完全解決數(shù)據(jù)安全性的問題，雖然企業(yè)的知識(shí)庫存儲(chǔ)在本地，但是由于企業(yè)數(shù)據(jù)向量化的過程中需要調(diào)用公有云大模型Embedding接口。這個(gè)過程需要將企業(yè)數(shù)據(jù)切塊之后發(fā)送給大模型，一樣有數(shù)據(jù)安全的隱患。

對于上述大模型落地問題的解決，大模型中間件是其中的關(guān)鍵。

什么是大模型中間件？大模型中間件是位于AI應(yīng)用與大模型之間的中間層基礎(chǔ)軟件，它主要解決大模型落地過程中數(shù)據(jù)集成、應(yīng)用集成、知識(shí)庫與大模型融合等問題。

下圖給出了企業(yè)AI應(yīng)用的典型軟件架構(gòu)，一共分為大語言模型、向量數(shù)據(jù)庫、大模型中間件以及AI應(yīng)用四層。

大語言模型為AI應(yīng)用提供基礎(chǔ)的語義理解、推理、計(jì)算能力，向量數(shù)據(jù)庫主要提供企業(yè)知識(shí)的存儲(chǔ)和語義搜索。而大模型中間件解決大模型落地的最后一公里，提供語料的實(shí)時(shí)采集、數(shù)據(jù)清洗、過濾、embedding。同時(shí)，為上層應(yīng)用提供訪問大模型與知識(shí)庫的入口，提供大模型與知識(shí)庫的融合、應(yīng)用部署、應(yīng)用執(zhí)行。

常見的大模型中間件

自去年ChatGPT發(fā)布以來，短短幾個(gè)月內(nèi)就涌現(xiàn)出了不少新的大模型中間件項(xiàng)目。例如，面向AI應(yīng)用的編程框架Langchain在GitHub上短短幾個(gè)月內(nèi)收獲了超過4萬個(gè)Star。Langchain旨在簡化開發(fā)者基于大型語言模型構(gòu)建AI應(yīng)用的過程。它為開發(fā)者提供了多模型訪問、Prompt的封裝、多數(shù)據(jù)源加載等多種接口，讓開發(fā)者構(gòu)建AI應(yīng)用更簡單。Llamaindex是另一個(gè)備受關(guān)注的開源項(xiàng)目，它目標(biāo)是為大型模型提供統(tǒng)一的接口來訪問外部數(shù)據(jù)。比如Llamaindex的Routing為開發(fā)者語義檢索、基于事實(shí)混合查找、訪問總結(jié)數(shù)據(jù)可以提供統(tǒng)一索引。Vanus AI 是一個(gè)無代碼構(gòu)建AI應(yīng)用的中間件，用戶通過Vanus AI可以分鐘級構(gòu)建出生產(chǎn)可用的AI應(yīng)用。它同時(shí)提供了實(shí)時(shí)知識(shí)庫構(gòu)建、AI應(yīng)用集成、大模型插件等能力。Fixie是一家初創(chuàng)公司，近期剛剛?cè)谫Y1200萬美金，該公司的目標(biāo)是構(gòu)建、部署和管理大型模型代理平臺(tái)，以更好地響應(yīng)用戶的意圖。

對近期項(xiàng)目進(jìn)行了梳理，形成下圖的AI Stack。企業(yè)的私有業(yè)務(wù)數(shù)據(jù)通過 Embedding組件轉(zhuǎn)化成向量后可以存儲(chǔ)到Milvus、Pinecone等向量數(shù)據(jù)庫中。目前通過Llamaindex、Vanus Connect可以批量獲取PDF、CSV等文件并Embedding并存儲(chǔ)到向量數(shù)據(jù)庫中。AirOps、Vanus AI等AI Ops平臺(tái)可以連接大模型和企業(yè)知識(shí)庫幫助用戶一站式構(gòu)建AI的應(yīng)用。如果AI應(yīng)用需要連接第三方的應(yīng)用執(zhí)行操作可以通過Fixie或者Zapier等提供了插件。

總結(jié)

本文圍繞大模型在企業(yè)落地所面臨的挑戰(zhàn)展開，提出了大模型中間件的概念。大模型中間件是基于AI應(yīng)用與大模型之間的中間層基礎(chǔ)軟件，它可以打通企業(yè)AI應(yīng)用落地的最后一公里，是構(gòu)建AI應(yīng)用的必備軟件。本文提出了企業(yè)AI應(yīng)用軟件的典型架構(gòu)，并指出了大模型中間件在AI軟件中的定位以及核心作用。最后，文章介紹了目前較為流行的大模型中間件，并闡述了不同的大模型中間件在落地應(yīng)用過程中具體作用。

參考文獻(xiàn)：

1.Augmented language models https://drive.google.com/file/d/1A5RcMETecn6Aa4nNzpVx9kTKdyeErqrI/view

2. So you want to build an AI application powered by LLM: Let’s talk about Embedding and Semantic Search https://blog.devgenius.io/so-you-want-to-build-an-ai-application-that-utilizes-llm-lets-talk-about-embedding-and-semantic-166acfc013a6

3. So you want to build an AI application powered by LLM: Let’s talk about Data Pre-Processing https://blog.devgenius.io/so-you-want-to-build-an-ai-application-that-utilizes-llm-lets-talk-about-data-pre-processing-7fc7cf871d08

4. Chunking Strategies for LLM Applications https://blog.devgenius.io/so-you-want-to-build-an-ai-application-that-utilizes-llm-lets-talk-about-embedding-and-semantic-166acfc013a6

5. Unifying LLM-powered QA Techniques with Routing Abstractions https://betterprogramming.pub/unifying-llm-powered-qa-techniques-with-routing-abstractions-438e2499a0d0

6. Build a Chatbot on Your CSV Data With LangChain and OpenAI https://betterprogramming.pub/build-a-chatbot-on-your-csv-data-with-langchain-and-openai-ed121f85f0cd