展會信息港展會大全

基于亞馬遜云科技大語言模型方案打造知識庫,為熱門行業(yè)場景高效創(chuàng)建GAI應(yīng)用
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-11-23 17:25:22   瀏覽:7244次  

導(dǎo)讀:背景 本篇將為大家闡述亞馬遜云科技大語言模型下沉到具體行業(yè)進行場景以及實施案例的介紹,是亞馬遜云科技官方《基于智能搜索和大模型打造企業(yè)下一代知識庫》系列的第四篇博客。感興趣的小伙伴可以進入官網(wǎng)深入了解其核心組件、快速部署指南以及LangChain集...

背景

 本篇將為大家闡述亞馬遜云科技大語言模型下沉到具體行業(yè)進行場景以及實施案例的介紹,是亞馬遜云科技官方《基于智能搜索和大模型打造企業(yè)下一代知識庫》系列的第四篇博客。感興趣的小伙伴可以進入官網(wǎng)深入了解其核心組件、快速部署指南以及LangChain集成及其在電商的應(yīng)用場景。

  • 通用場景:基于企業(yè)內(nèi)部知識庫例如IT/HR信息的問答

  • 制造行業(yè):裝備維保知識庫問答和售后客服

  • 金融行業(yè):智能客服和智能報告生成

  • 教育行業(yè):面向?qū)W生和面向?qū)W校的智能問答機器人

  • 醫(yī)療行業(yè):醫(yī)療論文論文信息檢索

 方案架構(gòu)圖如下:

 

 通用場景:基于企業(yè)內(nèi)部知識庫例如IT/HR信息的問答

 在該場景下,企業(yè)可利用IT手冊,員工手冊,銷售手冊等構(gòu)建企業(yè)知識庫。使用人員為所有的內(nèi)部員工,幫助員工提升信息獲取的效率,從而提升工作效率。

 提問與員工手冊相關(guān)的問題,搜索引擎會首先獲得相關(guān)的預(yù)料,然后使用LLM對預(yù)料進行信息抽取,過濾和總結(jié),然后直接給出問題答案。

 例1:查詢年假時間

 例2:查詢上下班時間

 

 制造行業(yè)

 行業(yè)場景

 制造行業(yè)中相對來說是一個傳統(tǒng)的行業(yè),因為歷史積累,擁有眾多的原始文檔,但是由于大部分企業(yè)處于數(shù)字化轉(zhuǎn)型的初期,無法有效利用這些文檔。因此,其主要訴求為建立一個企業(yè)級的知識庫平臺,利用散落各處的文檔提升企業(yè)運行效率。例如隨著制造業(yè)的發(fā)展,企業(yè)對裝備的維護和保養(yǎng)變得更加重視。裝備維保知識庫問答系統(tǒng)可以提供實時的維護指導(dǎo),幫助操作員和維修人員解決各種故障和技術(shù)問題。售后客服對于提供優(yōu)質(zhì)的客戶支持至關(guān)重要。裝備的故障和技術(shù)問題可能會對客戶的生產(chǎn)線造成重大影響,因此快速響應(yīng)和解決問題是必要的。

 客戶選擇此方案出于三個考慮:

  • 制造行業(yè)中,許多文檔描述都是比較專業(yè)的知識,所有的描述都需要嚴謹,因此大語言模型的幻覺問題會導(dǎo)致內(nèi)容輸出不可信,反而出現(xiàn)更多不可控的風(fēng)險;

  • 所有的回答必須精確到具體出處,避免大語言模型生成內(nèi)容出現(xiàn)偏差;

  • 存在大量敏感數(shù)據(jù),包括維保記錄,機械設(shè)計圖紙等,使用第三方API調(diào)用的大語言模型有可能存在數(shù)據(jù)泄漏,造成違規(guī)和安全隱患。

 典型的使用場景為裝備維保知識庫問答和售后客服。

 

 行業(yè)場景實踐

 裝備維保知識庫問答和售后客服

 在該場景下,企業(yè)可利用歷史維保記錄,例如故障現(xiàn)象、故障原因、維修手冊、用戶手冊等構(gòu)建企業(yè)知識庫。使用人員為一線維保工程師或者售后客服,結(jié)合檢索和大語言模型,可以直接針對用戶的故障現(xiàn)象,給出具體的原因分析。

 例1:裝備維保場景——提問某零件生銹的原因(中文場景)

 例2:產(chǎn)品售后場景-提問某指示燈狀態(tài)意義(英文場景)

 

 金融行業(yè)

 行業(yè)場景

 金融行業(yè)分為銀行、保險、資本市場以及支付多個子垂直行業(yè),基于智能搜索和大模型的知識庫,銀行可以快速準(zhǔn)確地回答客戶的各類問題,提供個性化的金融產(chǎn)品推薦和投資建議;保險機構(gòu)可以賦能用戶快速找到適合自己需求的保險產(chǎn)品,并了解保險條款和理賠流程;資本市場成員可以借助其幫助投資者快速獲取和理解市場動態(tài)、公司財務(wù)數(shù)據(jù)和分析報告等信息;支付機構(gòu)則建立智能客服系統(tǒng),幫助用戶快速解決支付相關(guān)的問題。

 客戶選擇此方案出于三個考慮:

  • 金融行業(yè)中所有的描述都需要嚴謹,數(shù)據(jù)需要精確,因此大語言模型的幻覺問題會導(dǎo)致內(nèi)容輸出不可信,嚴重則損壞企業(yè)形象以及客戶流失;

  • 金融機構(gòu)(如銀行、保險)會提供相關(guān)的咨詢服務(wù),所涉及到的回復(fù)必須精確到具體出處,尤其法律法規(guī)相關(guān)內(nèi)容需要和法規(guī)文件完全一致;

  • 金融數(shù)據(jù)存在大量敏感數(shù)據(jù),包括交易、企業(yè)營收、內(nèi)部資產(chǎn)以及個人信息,使用公開的大語言模型有可能在不經(jīng)意間泄漏相關(guān)數(shù)據(jù),造成違規(guī)和安全隱患。

 典型的使用場景為智能客服與智能報告生成。

 

 行業(yè)場景實踐

 智能客服

 智能客服在金融行業(yè)中具有廣泛的應(yīng)用和場景,包括:

  • 產(chǎn)品和服務(wù)咨詢:幫助客戶查詢和了解金融機構(gòu)提供的各類產(chǎn)品和服務(wù)。通過自然語言處理和機器學(xué)習(xí)技術(shù),智能客服可以回答關(guān)于金融產(chǎn)品特性、利率、費用等方面的問題,為客戶提供個性化的產(chǎn)品咨詢。

  • 交易指導(dǎo)和操作支持:智能客服可以指導(dǎo)客戶進行各類金融交易操作,如轉(zhuǎn)賬、存款、理財產(chǎn)品購買等。客戶可以通過與智能客服進行交互,獲取操作步驟和操作指導(dǎo),提高交易的便捷性和準(zhǔn)確性。

  • 投訴和問題解決:智能客服可以處理客戶的投訴和問題,并提供相應(yīng)的解決方案。通過對客戶問題的分析和分類,智能客服可以快速回答常見問題,同時也可以轉(zhuǎn)接給人工客服處理更復(fù)雜的問題,提高問題解決的效率和客戶滿意度。

 例 1:金融產(chǎn)品的咨詢

 通過提問(如下例)關(guān)于金融產(chǎn)品營收數(shù)據(jù)的分析,搜索引擎會搜索獲得相關(guān)語料,并作為大語言模型的輸入,進行匯總和總結(jié)。

 例2:金融專業(yè)知識的咨詢

 對于某些金融知識(如GDR,存托憑證等)存在專業(yè)性強、不易理解的特點,傳統(tǒng)客服無法快速理解、整理并得出相關(guān)的結(jié)論來回應(yīng)該類型的客戶咨詢,造成用戶體驗差。同時對于專業(yè)知識的回應(yīng),需要準(zhǔn)確且嚴謹?shù)牟牧现蝎@得,因此參考資料的出處也是本場景重要的指標(biāo)。使用智能搜索和大模型方案可以有效提高內(nèi)容總結(jié)的效果,同時列舉出清晰的數(shù)據(jù)出處,精確到文檔的句和段。

 智能報告生成

 金融行業(yè)中尤其是資本市場,無論是券商還是二級市場機構(gòu)分析員,均需要對大量的數(shù)據(jù)和報告進行閱讀和分析,同時需要對外輸出各類型的報告,如行研、個股分析、市場分析和展望、投資建議分析等。他們會遇到以下痛點:

  • 時間壓力:分析員通常需要在短時間內(nèi)完成大量的報告撰寫工作,以滿足客戶和市場對即時信息的需求。這給他們帶來了時間上的壓力,可能導(dǎo)致報告的質(zhì)量和深度受到影響。

  • 數(shù)據(jù)整理和處理:撰寫報告需要分析員從各種來源收集、整理和處理大量的市場數(shù)據(jù)、財務(wù)數(shù)據(jù)和新聞資訊等信息。手動處理和整理這些數(shù)據(jù)可能耗費大量時間和精力,并且容易出現(xiàn)錯誤。

  • 分析和解釋復(fù)雜數(shù)據(jù):分析員需要深入理解和解釋復(fù)雜的金融數(shù)據(jù)、財務(wù)指標(biāo)和市場趨勢。這需要投入大量的研究和分析工作,以便提供準(zhǔn)確、全面的分析和評估。

  • 信息獲取和更新:分析員需要不斷跟蹤和獲取最新的市場信息、行業(yè)動態(tài)和公司公告等。信息的獲取和更新可能比較困難和耗時,尤其是當(dāng)信息來源龐雜且分散時。

  • 語言表達和報告風(fēng)格:撰寫高質(zhì)量的報告需要良好的語言表達能力和清晰的報告風(fēng)格。然而,分析員可能面臨語言表達的挑戰(zhàn),以及如何將復(fù)雜的金融概念和數(shù)據(jù)以簡潔明了的方式傳達給讀者。

 通過使用智能搜索和大模型方案,可以在資訊整理理解以及基礎(chǔ)報告生成兩個方面減輕上述問題帶來的成本。

 以下例子以大宗商品中的原油為例子,需要寫一篇“關(guān)于原油上漲帶來的風(fēng)險“的報告:

 通過提交相關(guān)的任務(wù)指引,包括(但不僅限于):1)任務(wù)描述;2)文章規(guī)定的格式、標(biāo)題和段落;3)文章規(guī)定的分段內(nèi)容和主旨。智能搜索引擎會先進行從已經(jīng)加載的數(shù)據(jù)中獲得相關(guān)內(nèi)容,并將內(nèi)容傳遞到大語言模型,并要求大語言模型按照指引進行內(nèi)容生成和輸出。輸出的報告可以作為基礎(chǔ)內(nèi)容提供給報告撰寫和分析團隊進行二次加工,從而提高生成效率。

 

 教育行業(yè)

 行業(yè)場景

 針對教育領(lǐng)域和智能教育產(chǎn)品的行業(yè)場景,可以從以下兩個角度來說明,包括學(xué)校/老師角度、學(xué)生/家長角度。

 學(xué)校/老師:本方案為基礎(chǔ)來提供創(chuàng)新的在線教育工具,例如AI Class Bot,助力學(xué)校和培訓(xùn)機構(gòu)快速建立在線學(xué)習(xí)課程,幫助學(xué)校提高教學(xué)質(zhì)量和效率,也能夠節(jié)省教學(xué)資源和成本,減輕老師課程設(shè)計和輔導(dǎo)的負擔(dān),拓展教學(xué)內(nèi)容和形式,增強教學(xué)創(chuàng)新和競爭力。

 學(xué)生/家長:以本方案為基礎(chǔ)來構(gòu)建智能輔導(dǎo)系統(tǒng),根據(jù)每個學(xué)生的水平和進度,生成適合他們的學(xué)習(xí)內(nèi)容和方法,自適應(yīng)地生成不同難度和類型的問題和解析,做到實現(xiàn)因材施教和自適應(yīng)教育。同時還可以構(gòu)建學(xué)校與家長之間的智能問答系統(tǒng),可以幫助家長了解孩子的學(xué)習(xí)情況和需求,提供更多的學(xué)習(xí)支持和指導(dǎo)。

 在教育行業(yè)中,客戶選擇此方案出于三個考慮:

  • 通過本方案可以快速、方便的將課程內(nèi)容導(dǎo)入到知識庫,利用大語言模型形成課程問答機器人。結(jié)合數(shù)字人技術(shù)還可以提供多輪對話的功能,讓教育過程增加更多的趣味性。

  • 通過本方案利用AI/ML技術(shù)實現(xiàn)的用戶正向反饋功能,可以幫助每個學(xué)生實時反饋搜索結(jié)果的權(quán)重,從而優(yōu)化自己的知識庫模型,以便實現(xiàn)自適應(yīng)學(xué)習(xí)的目標(biāo)。

  • 通過本方案可以把學(xué)校已知的資料以及散落在互聯(lián)網(wǎng)的資料統(tǒng)一匯集到知識庫,包括各種非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),讓家長更加快捷的查找所要的信息。

 典型場景為面向?qū)W生的問答機器人和面向?qū)W校的問答機器人。

 

 行業(yè)場景實踐

 例1:學(xué)生場景的問答機器人(AI Class Bot)-英文單詞學(xué)習(xí)的AI客服機器人

 針對英文單詞學(xué)習(xí)領(lǐng)域,將現(xiàn)有英文單詞學(xué)習(xí)過程中的相關(guān)FAQ知識庫導(dǎo)入現(xiàn)有方案中,該知識庫文件中包含了眾多在英文單詞學(xué)習(xí)過程中的客戶問題以及處理辦法,通過本方案的知識庫上傳功能,將數(shù)據(jù)導(dǎo)入到知識庫系統(tǒng)中。

 本例中,我們希望客服機器人的答案一定是要基于知識庫的范圍內(nèi)進行作答,如果不在知識庫的范圍,要回答“根據(jù)已知知識無法回答該問題”,也就是說我們要避免大語言模型的幻覺問題;谶@個要求,普通的大預(yù)言模型在回答用戶問題時可以有一定的創(chuàng)新性,也就是模型可以設(shè)置temperature值,以控制大語言模型的創(chuàng)新性。但是就算設(shè)置非常低的值,也不能保證大語言模型不自己創(chuàng)新的回答用戶問題。

 本方案針對該需求增加了置信度(evidence)的判斷,對于大語言模型給出的答案與用戶的問題、知識庫的搜索結(jié)果都做了相似度計算,低于某個值就返回用戶“無法回答該問題”。如下圖所示:

 有一些問題在知識庫的范疇內(nèi),問答機器人就可以回答,如下圖:

 例2:學(xué)校場景的問答機器人(AI School Bot)–報考志愿問答機器人

 面臨中考、高考的考生家長相對比較焦慮,他們需要掌握更多的學(xué)校信息以便和自己孩子的學(xué)習(xí)情況做比較,選擇更加適合自身的學(xué)校和未來的報考專業(yè)。以下是一個詢問中學(xué)信息的問答場景,我們僅僅導(dǎo)入了幾個國際學(xué)校的數(shù)據(jù)到知識庫,希望問答機器人在知識庫的范疇內(nèi)回答問題,同時需要給出答案的置信度。如下圖所示:

 當(dāng)問詢某個國際學(xué)校的課程信息時,問答機器人將做如下回答:

 

 醫(yī)療行業(yè)

 行業(yè)場景

 醫(yī)療行業(yè)有大量文檔,其中既包括敏感資料如藥物臨床研究數(shù)據(jù),患者健康數(shù)據(jù),藥研實驗數(shù)據(jù),也包括大量的公開數(shù)據(jù)集如基因數(shù)據(jù),醫(yī)學(xué)論文等。然而,作為一個歷史悠久等行業(yè),很多醫(yī)院與企業(yè)仍然處于數(shù)字化轉(zhuǎn)型的初期,存在數(shù)據(jù)量大,格式不統(tǒng)一,閱讀理解難等問題。醫(yī)療健康領(lǐng)域數(shù)字化轉(zhuǎn)型,降低醫(yī)學(xué)數(shù)據(jù)的使用門檻一直是該領(lǐng)域的重要方向。具體來看:

  • 藥物研發(fā):通過整合藥物設(shè)計的公開論文與內(nèi)部文檔為藥企提供藥物設(shè)計的知識庫,通過關(guān)鍵詞快速了解藥理活性,作用位點,毒理,適用病理等信息,幫助企業(yè)提高研發(fā)迭代速度、提升研發(fā)效率、降低研發(fā)成本和提升項目整體成功率。

  • 就醫(yī)知識庫:整合FAQ咨詢數(shù)據(jù)、藥品說明書、患者病歷、醫(yī)學(xué)指南、醫(yī)學(xué)書籍、醫(yī)學(xué)論文、專業(yè)網(wǎng)站、專家錄入數(shù)據(jù)等數(shù)據(jù)源,構(gòu)建“疾病-癥狀-藥品-診斷-人群”的私有知識庫以及基于知識庫的醫(yī)藥大健康智能專家虛擬助理。

 典型場景是醫(yī)療論文信息檢索。

 

 行業(yè)場景實踐

 醫(yī)療論文信息檢索

 本次場景演示中,我們從亞馬遜云科技的公開數(shù)據(jù)集中選取大家非常最常使用的NCBI數(shù)據(jù)集,并選擇2023年度的一個子數(shù)據(jù)集作為樣本數(shù)據(jù),供測試。

 為了方便測試,我們清洗一部分血液病相關(guān)的論文作為測試數(shù)據(jù)集,使用一些常見的血液病問題進行提問,平臺將會從相應(yīng)的數(shù)據(jù)集中進行召回,并根據(jù)prompt來生成相應(yīng)的內(nèi)容?紤]到醫(yī)療相關(guān)的論文都為英文,我們本次測試中,都使用的是擅長英文的開源大模型進行測試。

 由于論文數(shù)據(jù)多樣、還會有歷史等不同信息等,所以在實際使用中,有可能需要通過不同的關(guān)鍵詞、句來召回最適合您使用場景的結(jié)果。

 而對于知識庫沒有的數(shù)據(jù),平臺將會召回“Not found answer” 或者“I don’t know”。這是確保在醫(yī)療、生命科學(xué)場景,對于不確認的信息,規(guī)避無效數(shù)據(jù)的回復(fù)。

 由于論文數(shù)據(jù)的龐大,新舊數(shù)據(jù)的沖突等各種原因,在實際使用過程,我們建議用戶您根據(jù)自己的實際情況、使用場景的需求,對于論文、內(nèi)部科研數(shù)據(jù)、任何您需要使用的數(shù)據(jù)做一次提前的清理,比如,最保留最新數(shù)據(jù)等。這樣保證數(shù)據(jù)在召回時候更符合您的需求。

 

 總結(jié)

 在日常使用大語言模型的過程中,兩個比較突出的問題是不能被忽視的。它們分別是:

  • 幻覺問題(Hallucination)

  • 數(shù)據(jù)泄露(Data Leakage)

 幻覺問題是自然語言處理領(lǐng)域中的基礎(chǔ)問題之一,指文本生成模型的生成結(jié)果中含有與輸入事實上沖突的內(nèi)容,即結(jié)果可能出現(xiàn)虛構(gòu)和捏造事實的情況。數(shù)據(jù)泄露問題是指用戶在使用市面上大語言模型過程中,會主動或不經(jīng)意間傳入的可能涉及到商業(yè)機密、個人隱私、企業(yè)管理等敏感數(shù)據(jù),造成數(shù)據(jù)泄露的問題。本方案的架構(gòu)設(shè)計能夠有效解決上述兩個問題。

 綜上所述,基于智能搜索和大語言模型結(jié)合方案為不同行業(yè)場景構(gòu)建GAI應(yīng)用,達到:

  • 制造行業(yè):通過構(gòu)建智能企業(yè)知識庫,有效整合制造業(yè)中的各類資料,并應(yīng)用AI技術(shù),將其快速轉(zhuǎn)化為可信、準(zhǔn)確的知識資源,提供給內(nèi)部員工,從而極大地提升他們獲取專業(yè)信息的效率。

  • 金融行業(yè):精準(zhǔn)的命中金融行業(yè)中多種過去只能依靠人工處理的場景,使用AI/ML的技術(shù)為金融客戶降本增效,并助力客戶主動挖掘更多業(yè)務(wù)場景,在保證數(shù)據(jù)安全可控的前提下加速AI/ML對業(yè)務(wù)創(chuàng)新的效率;

  • 教育行業(yè):通過GAI技術(shù),我們可以根據(jù)每個學(xué)生的水平和進度,生成適合他們的學(xué)習(xí)內(nèi)容和方法,自適應(yīng)地生成不同難度和類型的問題和解析,做到實現(xiàn)因材施教和自適應(yīng)教育。

  • 醫(yī)療行業(yè):通過生成式AI技術(shù),我們可以讓更多生命科學(xué)的工作者,可以從海量的知識信息中,更容易獲取、提取所需要的臨床、科研等信息,更好的為我們每個人的身體健康保駕護航。

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港