當(dāng)前位置：人工智能實驗室> 企業(yè)新聞 > 基于亞馬遜云科技大語言模型方案打造知識庫，為熱門行業(yè)場景高效創(chuàng)建GAI應(yīng)用

基于亞馬遜云科技大語言模型方案打造知識庫，為熱門行業(yè)場景高效創(chuàng)建GAI應(yīng)用
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-11-23 17:25:22 瀏覽：7244次

導(dǎo)讀：背景本篇將為大家闡述亞馬遜云科技大語言模型下沉到具體行業(yè)進行場景以及實施案例的介紹，是亞馬遜云科技官方《基于智能搜索和大模型打造企業(yè)下一代知識庫》系列的第四篇博客。感興趣的小伙伴可以進入官網(wǎng)深入了解其核心組件、快速部署指南以及LangChain集...

背景

本篇將為大家闡述亞馬遜云科技大語言模型下沉到具體行業(yè)進行場景以及實施案例的介紹，是亞馬遜云科技官方《基于智能搜索和大模型打造企業(yè)下一代知識庫》系列的第四篇博客。感興趣的小伙伴可以進入官網(wǎng)深入了解其核心組件、快速部署指南以及LangChain集成及其在電商的應(yīng)用場景。

通用場景：基于企業(yè)內(nèi)部知識庫例如IT/HR信息的問答
制造行業(yè)：裝備維保知識庫問答和售后客服
金融行業(yè)：智能客服和智能報告生成
教育行業(yè)：面向?qū)W生和面向?qū)W校的智能問答機器人
醫(yī)療行業(yè)：醫(yī)療論文論文信息檢索

方案架構(gòu)圖如下：

通用場景：基于企業(yè)內(nèi)部知識庫例如IT/HR信息的問答

在該場景下，企業(yè)可利用IT手冊，員工手冊，銷售手冊等構(gòu)建企業(yè)知識庫。使用人員為所有的內(nèi)部員工，幫助員工提升信息獲取的效率，從而提升工作效率。

提問與員工手冊相關(guān)的問題，搜索引擎會首先獲得相關(guān)的預(yù)料，然后使用LLM對預(yù)料進行信息抽取，過濾和總結(jié)，然后直接給出問題答案。

例1：查詢年假時間

例2：查詢上下班時間

制造行業(yè)

行業(yè)場景

制造行業(yè)中相對來說是一個傳統(tǒng)的行業(yè)，因為歷史積累，擁有眾多的原始文檔，但是由于大部分企業(yè)處于數(shù)字化轉(zhuǎn)型的初期，無法有效利用這些文檔。因此，其主要訴求為建立一個企業(yè)級的知識庫平臺，利用散落各處的文檔提升企業(yè)運行效率。例如隨著制造業(yè)的發(fā)展，企業(yè)對裝備的維護和保養(yǎng)變得更加重視。裝備維保知識庫問答系統(tǒng)可以提供實時的維護指導(dǎo)，幫助操作員和維修人員解決各種故障和技術(shù)問題。售后客服對于提供優(yōu)質(zhì)的客戶支持至關(guān)重要。裝備的故障和技術(shù)問題可能會對客戶的生產(chǎn)線造成重大影響，因此快速響應(yīng)和解決問題是必要的。

客戶選擇此方案出于三個考慮：

制造行業(yè)中，許多文檔描述都是比較專業(yè)的知識，所有的描述都需要嚴謹，因此大語言模型的幻覺問題會導(dǎo)致內(nèi)容輸出不可信，反而出現(xiàn)更多不可控的風(fēng)險；
所有的回答必須精確到具體出處，避免大語言模型生成內(nèi)容出現(xiàn)偏差；
存在大量敏感數(shù)據(jù)，包括維保記錄，機械設(shè)計圖紙等，使用第三方API調(diào)用的大語言模型有可能存在數(shù)據(jù)泄漏，造成違規(guī)和安全隱患。

典型的使用場景為裝備維保知識庫問答和售后客服。

行業(yè)場景實踐

裝備維保知識庫問答和售后客服

在該場景下，企業(yè)可利用歷史維保記錄，例如故障現(xiàn)象、故障原因、維修手冊、用戶手冊等構(gòu)建企業(yè)知識庫。使用人員為一線維保工程師或者售后客服，結(jié)合檢索和大語言模型，可以直接針對用戶的故障現(xiàn)象，給出具體的原因分析。

例1：裝備維保場景——提問某零件生銹的原因（中文場景）

例2：產(chǎn)品售后場景-提問某指示燈狀態(tài)意義（英文場景）

金融行業(yè)

行業(yè)場景

金融行業(yè)分為銀行、保險、資本市場以及支付多個子垂直行業(yè)，基于智能搜索和大模型的知識庫，銀行可以快速準(zhǔn)確地回答客戶的各類問題，提供個性化的金融產(chǎn)品推薦和投資建議；保險機構(gòu)可以賦能用戶快速找到適合自己需求的保險產(chǎn)品，并了解保險條款和理賠流程；資本市場成員可以借助其幫助投資者快速獲取和理解市場動態(tài)、公司財務(wù)數(shù)據(jù)和分析報告等信息；支付機構(gòu)則建立智能客服系統(tǒng)，幫助用戶快速解決支付相關(guān)的問題。

客戶選擇此方案出于三個考慮：

金融行業(yè)中所有的描述都需要嚴謹，數(shù)據(jù)需要精確，因此大語言模型的幻覺問題會導(dǎo)致內(nèi)容輸出不可信，嚴重則損壞企業(yè)形象以及客戶流失；
金融機構(gòu)（如銀行、保險）會提供相關(guān)的咨詢服務(wù)，所涉及到的回復(fù)必須精確到具體出處，尤其法律法規(guī)相關(guān)內(nèi)容需要和法規(guī)文件完全一致；
金融數(shù)據(jù)存在大量敏感數(shù)據(jù)，包括交易、企業(yè)營收、內(nèi)部資產(chǎn)以及個人信息，使用公開的大語言模型有可能在不經(jīng)意間泄漏相關(guān)數(shù)據(jù)，造成違規(guī)和安全隱患。

典型的使用場景為智能客服與智能報告生成。

行業(yè)場景實踐

智能客服

智能客服在金融行業(yè)中具有廣泛的應(yīng)用和場景，包括：

產(chǎn)品和服務(wù)咨詢：幫助客戶查詢和了解金融機構(gòu)提供的各類產(chǎn)品和服務(wù)。通過自然語言處理和機器學(xué)習(xí)技術(shù)，智能客服可以回答關(guān)于金融產(chǎn)品特性、利率、費用等方面的問題，為客戶提供個性化的產(chǎn)品咨詢。
交易指導(dǎo)和操作支持：智能客服可以指導(dǎo)客戶進行各類金融交易操作，如轉(zhuǎn)賬、存款、理財產(chǎn)品購買等。客戶可以通過與智能客服進行交互，獲取操作步驟和操作指導(dǎo)，提高交易的便捷性和準(zhǔn)確性。
投訴和問題解決：智能客服可以處理客戶的投訴和問題，并提供相應(yīng)的解決方案。通過對客戶問題的分析和分類，智能客服可以快速回答常見問題，同時也可以轉(zhuǎn)接給人工客服處理更復(fù)雜的問題，提高問題解決的效率和客戶滿意度。

例 1：金融產(chǎn)品的咨詢

通過提問（如下例）關(guān)于金融產(chǎn)品營收數(shù)據(jù)的分析，搜索引擎會搜索獲得相關(guān)語料，并作為大語言模型的輸入，進行匯總和總結(jié)。

例2：金融專業(yè)知識的咨詢

對于某些金融知識（如GDR，存托憑證等）存在專業(yè)性強、不易理解的特點，傳統(tǒng)客服無法快速理解、整理并得出相關(guān)的結(jié)論來回應(yīng)該類型的客戶咨詢，造成用戶體驗差。同時對于專業(yè)知識的回應(yīng)，需要準(zhǔn)確且嚴謹?shù)牟牧现蝎@得，因此參考資料的出處也是本場景重要的指標(biāo)。使用智能搜索和大模型方案可以有效提高內(nèi)容總結(jié)的效果，同時列舉出清晰的數(shù)據(jù)出處，精確到文檔的句和段。

智能報告生成

金融行業(yè)中尤其是資本市場，無論是券商還是二級市場機構(gòu)分析員，均需要對大量的數(shù)據(jù)和報告進行閱讀和分析，同時需要對外輸出各類型的報告，如行研、個股分析、市場分析和展望、投資建議分析等。他們會遇到以下痛點：

時間壓力：分析員通常需要在短時間內(nèi)完成大量的報告撰寫工作，以滿足客戶和市場對即時信息的需求。這給他們帶來了時間上的壓力，可能導(dǎo)致報告的質(zhì)量和深度受到影響。
數(shù)據(jù)整理和處理：撰寫報告需要分析員從各種來源收集、整理和處理大量的市場數(shù)據(jù)、財務(wù)數(shù)據(jù)和新聞資訊等信息。手動處理和整理這些數(shù)據(jù)可能耗費大量時間和精力，并且容易出現(xiàn)錯誤。
分析和解釋復(fù)雜數(shù)據(jù)：分析員需要深入理解和解釋復(fù)雜的金融數(shù)據(jù)、財務(wù)指標(biāo)和市場趨勢。這需要投入大量的研究和分析工作，以便提供準(zhǔn)確、全面的分析和評估。
信息獲取和更新：分析員需要不斷跟蹤和獲取最新的市場信息、行業(yè)動態(tài)和公司公告等。信息的獲取和更新可能比較困難和耗時，尤其是當(dāng)信息來源龐雜且分散時。
語言表達和報告風(fēng)格：撰寫高質(zhì)量的報告需要良好的語言表達能力和清晰的報告風(fēng)格。然而，分析員可能面臨語言表達的挑戰(zhàn)，以及如何將復(fù)雜的金融概念和數(shù)據(jù)以簡潔明了的方式傳達給讀者。

通過使用智能搜索和大模型方案，可以在資訊整理理解以及基礎(chǔ)報告生成兩個方面減輕上述問題帶來的成本。

以下例子以大宗商品中的原油為例子，需要寫一篇“關(guān)于原油上漲帶來的風(fēng)險“的報告：

通過提交相關(guān)的任務(wù)指引，包括（但不僅限于）：1）任務(wù)描述；2）文章規(guī)定的格式、標(biāo)題和段落；3）文章規(guī)定的分段內(nèi)容和主旨。智能搜索引擎會先進行從已經(jīng)加載的數(shù)據(jù)中獲得相關(guān)內(nèi)容，并將內(nèi)容傳遞到大語言模型，并要求大語言模型按照指引進行內(nèi)容生成和輸出。輸出的報告可以作為基礎(chǔ)內(nèi)容提供給報告撰寫和分析團隊進行二次加工，從而提高生成效率。

教育行業(yè)

行業(yè)場景

針對教育領(lǐng)域和智能教育產(chǎn)品的行業(yè)場景，可以從以下兩個角度來說明，包括學(xué)校/老師角度、學(xué)生/家長角度。

學(xué)校/老師：本方案為基礎(chǔ)來提供創(chuàng)新的在線教育工具，例如AI Class Bot，助力學(xué)校和培訓(xùn)機構(gòu)快速建立在線學(xué)習(xí)課程，幫助學(xué)校提高教學(xué)質(zhì)量和效率，也能夠節(jié)省教學(xué)資源和成本，減輕老師課程設(shè)計和輔導(dǎo)的負擔(dān)，拓展教學(xué)內(nèi)容和形式，增強教學(xué)創(chuàng)新和競爭力。

學(xué)生/家長：以本方案為基礎(chǔ)來構(gòu)建智能輔導(dǎo)系統(tǒng)，根據(jù)每個學(xué)生的水平和進度，生成適合他們的學(xué)習(xí)內(nèi)容和方法，自適應(yīng)地生成不同難度和類型的問題和解析，做到實現(xiàn)因材施教和自適應(yīng)教育。同時還可以構(gòu)建學(xué)校與家長之間的智能問答系統(tǒng)，可以幫助家長了解孩子的學(xué)習(xí)情況和需求，提供更多的學(xué)習(xí)支持和指導(dǎo)。

在教育行業(yè)中，客戶選擇此方案出于三個考慮：

通過本方案可以快速、方便的將課程內(nèi)容導(dǎo)入到知識庫，利用大語言模型形成課程問答機器人。結(jié)合數(shù)字人技術(shù)還可以提供多輪對話的功能，讓教育過程增加更多的趣味性。
通過本方案利用AI/ML技術(shù)實現(xiàn)的用戶正向反饋功能，可以幫助每個學(xué)生實時反饋搜索結(jié)果的權(quán)重，從而優(yōu)化自己的知識庫模型，以便實現(xiàn)自適應(yīng)學(xué)習(xí)的目標(biāo)。
通過本方案可以把學(xué)校已知的資料以及散落在互聯(lián)網(wǎng)的資料統(tǒng)一匯集到知識庫，包括各種非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)，讓家長更加快捷的查找所要的信息。

典型場景為面向?qū)W生的問答機器人和面向?qū)W校的問答機器人。

行業(yè)場景實踐

例1：學(xué)生場景的問答機器人（AI Class Bot）-英文單詞學(xué)習(xí)的AI客服機器人

針對英文單詞學(xué)習(xí)領(lǐng)域，將現(xiàn)有英文單詞學(xué)習(xí)過程中的相關(guān)FAQ知識庫導(dǎo)入現(xiàn)有方案中，該知識庫文件中包含了眾多在英文單詞學(xué)習(xí)過程中的客戶問題以及處理辦法，通過本方案的知識庫上傳功能，將數(shù)據(jù)導(dǎo)入到知識庫系統(tǒng)中。

本例中，我們希望客服機器人的答案一定是要基于知識庫的范圍內(nèi)進行作答，如果不在知識庫的范圍，要回答“根據(jù)已知知識無法回答該問題”，也就是說我們要避免大語言模型的幻覺問題�；谶@個要求，普通的大預(yù)言模型在回答用戶問題時可以有一定的創(chuàng)新性，也就是模型可以設(shè)置temperature值，以控制大語言模型的創(chuàng)新性。但是就算設(shè)置非常低的值，也不能保證大語言模型不自己創(chuàng)新的回答用戶問題。

本方案針對該需求增加了置信度（evidence）的判斷，對于大語言模型給出的答案與用戶的問題、知識庫的搜索結(jié)果都做了相似度計算，低于某個值就返回用戶“無法回答該問題”。如下圖所示：

有一些問題在知識庫的范疇內(nèi)，問答機器人就可以回答，如下圖：

例2：學(xué)校場景的問答機器人（AI School Bot）–報考志愿問答機器人

面臨中考、高考的考生家長相對比較焦慮，他們需要掌握更多的學(xué)校信息以便和自己孩子的學(xué)習(xí)情況做比較，選擇更加適合自身的學(xué)校和未來的報考專業(yè)。以下是一個詢問中學(xué)信息的問答場景，我們僅僅導(dǎo)入了幾個國際學(xué)校的數(shù)據(jù)到知識庫，希望問答機器人在知識庫的范疇內(nèi)回答問題，同時需要給出答案的置信度。如下圖所示：

當(dāng)問詢某個國際學(xué)校的課程信息時，問答機器人將做如下回答：

醫(yī)療行業(yè)

行業(yè)場景

醫(yī)療行業(yè)有大量文檔，其中既包括敏感資料如藥物臨床研究數(shù)據(jù)，患者健康數(shù)據(jù)，藥研實驗數(shù)據(jù)，也包括大量的公開數(shù)據(jù)集如基因數(shù)據(jù)，醫(yī)學(xué)論文等。然而，作為一個歷史悠久等行業(yè)，很多醫(yī)院與企業(yè)仍然處于數(shù)字化轉(zhuǎn)型的初期，存在數(shù)據(jù)量大，格式不統(tǒng)一，閱讀理解難等問題。醫(yī)療健康領(lǐng)域數(shù)字化轉(zhuǎn)型，降低醫(yī)學(xué)數(shù)據(jù)的使用門檻一直是該領(lǐng)域的重要方向。具體來看：

藥物研發(fā)：通過整合藥物設(shè)計的公開論文與內(nèi)部文檔為藥企提供藥物設(shè)計的知識庫，通過關(guān)鍵詞快速了解藥理活性，作用位點，毒理，適用病理等信息，幫助企業(yè)提高研發(fā)迭代速度、提升研發(fā)效率、降低研發(fā)成本和提升項目整體成功率。
就醫(yī)知識庫：整合FAQ咨詢數(shù)據(jù)、藥品說明書、患者病歷、醫(yī)學(xué)指南、醫(yī)學(xué)書籍、醫(yī)學(xué)論文、專業(yè)網(wǎng)站、專家錄入數(shù)據(jù)等數(shù)據(jù)源，構(gòu)建“疾病-癥狀-藥品-診斷-人群”的私有知識庫以及基于知識庫的醫(yī)藥大健康智能專家虛擬助理。

典型場景是醫(yī)療論文信息檢索。

行業(yè)場景實踐

醫(yī)療論文信息檢索

本次場景演示中，我們從亞馬遜云科技的公開數(shù)據(jù)集中選取大家非常最常使用的NCBI數(shù)據(jù)集，并選擇2023年度的一個子數(shù)據(jù)集作為樣本數(shù)據(jù)，供測試。

為了方便測試，我們清洗一部分血液病相關(guān)的論文作為測試數(shù)據(jù)集，使用一些常見的血液病問題進行提問，平臺將會從相應(yīng)的數(shù)據(jù)集中進行召回，并根據(jù)prompt來生成相應(yīng)的內(nèi)容�？紤]到醫(yī)療相關(guān)的論文都為英文，我們本次測試中，都使用的是擅長英文的開源大模型進行測試。

由于論文數(shù)據(jù)多樣、還會有歷史等不同信息等，所以在實際使用中，有可能需要通過不同的關(guān)鍵詞、句來召回最適合您使用場景的結(jié)果。

而對于知識庫沒有的數(shù)據(jù)，平臺將會召回“Not found answer” 或者“I don’t know”。這是確保在醫(yī)療、生命科學(xué)場景，對于不確認的信息，規(guī)避無效數(shù)據(jù)的回復(fù)。

由于論文數(shù)據(jù)的龐大，新舊數(shù)據(jù)的沖突等各種原因，在實際使用過程，我們建議用戶您根據(jù)自己的實際情況、使用場景的需求，對于論文、內(nèi)部科研數(shù)據(jù)、任何您需要使用的數(shù)據(jù)做一次提前的清理，比如，最保留最新數(shù)據(jù)等。這樣保證數(shù)據(jù)在召回時候更符合您的需求。

總結(jié)

在日常使用大語言模型的過程中，兩個比較突出的問題是不能被忽視的。它們分別是：

幻覺問題（Hallucination）
數(shù)據(jù)泄露（Data Leakage）

幻覺問題是自然語言處理領(lǐng)域中的基礎(chǔ)問題之一，指文本生成模型的生成結(jié)果中含有與輸入事實上沖突的內(nèi)容，即結(jié)果可能出現(xiàn)虛構(gòu)和捏造事實的情況。數(shù)據(jù)泄露問題是指用戶在使用市面上大語言模型過程中，會主動或不經(jīng)意間傳入的可能涉及到商業(yè)機密、個人隱私、企業(yè)管理等敏感數(shù)據(jù)，造成數(shù)據(jù)泄露的問題。本方案的架構(gòu)設(shè)計能夠有效解決上述兩個問題。

綜上所述，基于智能搜索和大語言模型結(jié)合方案為不同行業(yè)場景構(gòu)建GAI應(yīng)用，達到：

制造行業(yè)：通過構(gòu)建智能企業(yè)知識庫，有效整合制造業(yè)中的各類資料，并應(yīng)用AI技術(shù)，將其快速轉(zhuǎn)化為可信、準(zhǔn)確的知識資源，提供給內(nèi)部員工，從而極大地提升他們獲取專業(yè)信息的效率。
金融行業(yè)：精準(zhǔn)的命中金融行業(yè)中多種過去只能依靠人工處理的場景，使用AI/ML的技術(shù)為金融客戶降本增效，并助力客戶主動挖掘更多業(yè)務(wù)場景，在保證數(shù)據(jù)安全可控的前提下加速AI/ML對業(yè)務(wù)創(chuàng)新的效率；
教育行業(yè)：通過GAI技術(shù)，我們可以根據(jù)每個學(xué)生的水平和進度，生成適合他們的學(xué)習(xí)內(nèi)容和方法，自適應(yīng)地生成不同難度和類型的問題和解析，做到實現(xiàn)因材施教和自適應(yīng)教育。
醫(yī)療行業(yè)：通過生成式AI技術(shù)，我們可以讓更多生命科學(xué)的工作者，可以從海量的知識信息中，更容易獲取、提取所需要的臨床、科研等信息，更好的為我們每個人的身體健康保駕護航。