展會信息港展會大全

AI大模型時代,如何用RAG技術重塑傳統(tǒng)智能客服問答機器人?
來源:互聯(lián)網   發(fā)布日期:2024-03-26 13:39:28   瀏覽:9974次  

導讀:本文將主要介紹下大模型(LLM)如何融入到智能客服產品中從產品設計到技術實現(xiàn)(本文的智能客服僅包含該部分:智能對話機器人部分),以及英偉達給出的開源解決方案是什么。 2年前我寫過一篇保險行業(yè)智能客服的調研,因為當時的AI還無法像現(xiàn)在的大模型一樣理...

本文將主要介紹下大模型(LLM)如何融入到智能客服產品中從產品設計到技術實現(xiàn)(本文的智能客服僅包含該部分:智能對話機器人部分),以及英偉達給出的開源解決方案是什么。

2年前我寫過一篇保險行業(yè)智能客服的調研,因為當時的AI還無法像現(xiàn)在的大模型一樣理解大家的意圖(文本+圖片),所以原本智能對話機器人的實現(xiàn)不僅費時費力,且還沒有一個很好的效果,導致“在智能對話機器人的部分,在晚上10:50我還測試了部分淘寶店家,發(fā)現(xiàn)一般比較小的店使用的還是人工,而像回力這種相對來說比較大的店鋪也是機器人+人工一直在線,可能是目前智能對話機器人相對于人工對效益的影響只有在人力成本比較大的時候才有體現(xiàn),或者需要較長的適應期,一般小企業(yè)等不了。”

但是最近我發(fā)現(xiàn)大模型給各領域的咨詢和智能客服真的帶來了天翻地覆的變化,具體有哪些變化將在后文中詳細說明。

一、為什么需要用LLM重塑各行各業(yè)?

自從大型語言模型(LLM)問世以來,人們常將其對現(xiàn)代社會的影響與幾十年前互聯(lián)網對產業(yè)的革命性影響相提并論。本質上,利用LLM的過程可以被看作是各行各業(yè)的一場重塑。

然而,這種重塑并非孤立進行,而是緊密依賴于技術發(fā)展的成熟度。

技術進步在某個關鍵時刻可能會引發(fā)行業(yè)格局的顛覆性變化。舉例來說,一些原本在技術(包括先前投入的人力資本積累和實際技術能力積累)上擁有壁壘的企業(yè),可能會因為某項技術革新而使得其之前的優(yōu)勢瞬間減少。如果這些企業(yè)不能及時變革,就更容易被競爭對手超越。這也為小型和創(chuàng)業(yè)公司提供了趕超的機會。

由于目前TTS技術是一個在ai領域比較成熟的技術,因為我就以TTS技術的變革階段來說明技術大框架的躍升給市場帶來的變化:

首先技術躍升的節(jié)點說明:Tacotron 2是由谷歌在2017年12月20日發(fā)布的。這個系統(tǒng)是一個基于深度學習的端到端語音合成模型,它可以直接從文本生成類人語音。Tacotron 2結合了Tacotron和WaveNet的研究成果,使用神經網絡從文本生成類人的語音,其中輸入數(shù)據(jù)僅使用了語音樣本和相關的文本記錄。這個系統(tǒng)的發(fā)布標志著TTS領域的一次重大進步,它在語音合成的質量和自然度方面取得了顯著的效果。

如下圖所示,是百度TTS產品的發(fā)展流程:

從該發(fā)展流程可以看出,2017年學界的變化給工業(yè)界實現(xiàn)方案帶來了直接的變化,且新的企業(yè)雨后春筍般的出來,老牌企業(yè)也不斷投入且技術路線相對統(tǒng)一,下圖所示是各大廠的工業(yè)部署pipeline:

21年各大廠商TTS技術工業(yè)部署pipleline,當時各個做TTS的產商都用的類似的模型和實現(xiàn)方式,一般實現(xiàn)差異化的話只能通過在各個模塊進行微調,且微調的目標主要集中在5個方向上:fast、Low-Resource、Robust、Expressive、Adaptive

最后在來說下為什么說Tacotron的出現(xiàn)是TTS技術躍升的點,首先當時的模型可用了,其次行業(yè)實現(xiàn)成本有了很大的降低,以及從現(xiàn)在來看雖然目前TTS行業(yè)主流程的模型有了一定的變化,但是比如21年出現(xiàn)的端到端的VITS系列以及擴散模型在tts領域的應用,但是依然還是全量的深度學習模型,因此原本積累的數(shù)據(jù)基礎還可以套用以及原本積累的部署經驗和優(yōu)化經驗還是有延續(xù)的作用。

二、RAG重塑智能對話機器人

首先為什么選擇在現(xiàn)在使用RAG重塑智能對話機器人?

應用范圍廣,盤子大,只要數(shù)據(jù)量夠各個行業(yè)都可以用技術方案明確:rag技術以及能更加便捷實現(xiàn)該技術的平臺和框架(如langchain)網絡上信息多對某些特殊的行業(yè)確實可以取得顯著的收益(如to c金融保險稅務咨詢等行業(yè)知識壁壘高的行業(yè),TO B需要做項目1-N的行業(yè)等)

應用領域:

從一個人一生的發(fā)展來看智能對話機器人可以被應用在各個階段:

出生

醫(yī)療健康:在醫(yī)療領域,智能對話機器人輔助醫(yī)生進行診斷和治療,提供患者教育和支持,管理預約和查詢系統(tǒng)

上學

教育培訓:智能對話機器人用于教育領域,提供學習輔導、教育咨詢、學習資源推薦等服務,特別是在線教育和培訓機構

日常生活

電子商務:智能對話機器人用于電商平臺的售前咨詢和售后服務,幫助用戶進行產品查詢、訂單處理等生活服務:在生活服務領域,智能對話機器人提供如旅游咨詢、酒店預訂、物流跟蹤等服務,滿足用戶日常生活需求

工作

企業(yè)服務:智能對話機器人還被用于企業(yè)服務,如客戶關系管理(CRM)、銷售支持、市場調研、企業(yè)內部員工咨詢群等金融行業(yè):在金融領域,智能對話機器人用于處理客戶咨詢,如銀行業(yè)務、保險咨詢、證券服務等,提供個性化的服務和建議政務領域:智能對話機器人用于提高政務辦公效率,提供信息查詢、政策咨詢等服務,助力智慧政務的發(fā)展

三、為什么需要RAG,RAG是什么?

1. 為什么需要這樣引入新的技術?

不使用LLM的自動回復系統(tǒng):現(xiàn)有的自動回復系統(tǒng)存在的問題是關鍵詞匹配的局限性,這種方法雖然簡單高效,但缺乏對上下文的理解和語義分析,容易造成匹配錯誤,比如登錄 VS登陸就無法識別。如下是2年前智能對話機器人主要使用的技術:

如果直接使用大模型存在以下主要的問題:

知識的局限性:知識更新緩慢和答案缺乏透明度。模型自身的知識完全源于它的訓練數(shù)據(jù),而現(xiàn)有的主流大模型(ChatGPT、文心一言、通義千問…)的訓練集基本都是構建于網絡公開的數(shù)據(jù),對于一些實時性的、非公開的或離線的數(shù)據(jù)是無法獲取到的,這部分知識也就無從具備;糜X問題:所有的AI模型的底層原理都是基于數(shù)學概率,其模型輸出實質上是一系列數(shù)值運算,大模型也不例外,所以它有時候會一本正經地胡說八道,尤其是在大模型自身不具備某一方面的知識或不擅長的場景。而這種幻覺問題的區(qū)分是比較困難的,因為它要求使用者自身具備相應領域的知識。數(shù)據(jù)安全性:對于企業(yè)來說,數(shù)據(jù)安全至關重要,沒有企業(yè)愿意承擔數(shù)據(jù)泄露的風險,將自身的私域數(shù)據(jù)上傳第三方平臺進行訓練。這也導致完全依賴通用大模型自身能力的應用方案不得不在數(shù)據(jù)安全和效果方面進行取舍。

使用RAG技術后:

準確性提高:RAG通過與外部知識相關聯(lián)的答案來提高準確性,減少語言模型中的幻覺問題,使生成的響應更準確、可靠。保持信息的時效性和準確性:與傳統(tǒng)只依賴訓練數(shù)據(jù)的語言模型相比,RAG可以識別最新信息,保持響應的時效性和準確性。透明度:RAG通過引用來源提高答案的透明度,增加用戶對模型輸出的信任。定制化能力:RAG可以通過索引相關文本語料庫來定制不同領域的模型,為特定領域提供知識支持。安全性和隱私管理:RAG在數(shù)據(jù)庫中內置了角色和安全控制,可以更好地控制數(shù)據(jù)使用。

2. RAG是什么?

RAG,即檢索增強生成(Retrieval-Augmented Generation),是一種結合了檢索和生成技術的人工智能系統(tǒng)。它是大型語言模型的一種,但特別強調檢索和生成的結合。RAG的最主要的工作流程包括:

檢索階段:系統(tǒng)會根據(jù)用戶的查詢,從知識庫中檢索出相關信息。這些信息可能包括文章、網頁、數(shù)據(jù)庫條目等。生成階段:RAG使用檢索到的信息來增強其生成過程。這意味著,生成模型在生成文本時,會考慮到檢索到的相關信息,以生成更準確、更相關的回答。你可以直接將搜索到的返回給用戶也可以通過LLM結合后生成給用戶。如下圖所示是一個基礎的RAG模型:

四、如何在實際業(yè)務中使用該技術?

1. 產品構思

需求業(yè)務背景:

有一家稅務咨詢公司,有一定的歷史因此有很多的數(shù)據(jù)。最近業(yè)務擴張快,因此招聘了一批有一定稅務基礎的咨詢人員,但是在實際的工作中發(fā)現(xiàn)這些員工能力參差不齊,且即使有些人能力出眾,但是因為稅務法規(guī)在不同的地區(qū)要求不同、國家為了更好的發(fā)展,每年會提出各種稅務概要要求,如2023年中國的稅務改革主要集中在深化稅收征管改革和優(yōu)化稅費政策上,還有社會上行業(yè)眾多,因此導致有些領域招聘的人不熟悉,沒有辦法給客戶的問題提出一個好的建議。

如何解決:

為此期望借助公司歷史積累的數(shù)據(jù)以及收集到的每年稅務變革資料和各地稅務法律法規(guī)給自家的客服系統(tǒng)接入智能問答機器人,方便稅務咨詢老師可以在不太明確時可以問智能問答機器人。且目前大模型對對話的了解能力確實有所提升因此想要用大模型來進行構建,但是在構建智能回答機器人的同時還需要注意些業(yè)務上的邏輯:

回答的準確率,不希望機器人回答非公司提供數(shù)據(jù)之外的答案,機器人可以回答不知道。機器人不知道的問題和后面老師針對這個問題的回答需要收集起來,便于數(shù)據(jù)庫的更新為了保證稅務行業(yè)的安全,對LLM輸出的答案需要檢測是否合規(guī),因為按照產品后續(xù)規(guī)劃想將該能力單獨賣給部分企業(yè)和個人進行使用稅務行業(yè)位置因此很重要,因此需要將位置作為一個特征分別查詢不同數(shù)據(jù)來源

理想態(tài)測算指標:

畢竟這是個長遠的事情因此需要設計各種指標對該產品的效果以及商業(yè)化前景等內容進行監(jiān)督:

1)效率和用戶體驗相關指標(實際使用中需要關注的指標:包含直接用戶稅務咨詢老師和間接用戶客戶)

響應時間:機器人回答問題的平均時間,反映系統(tǒng)的響應速度。用戶滿意度:通過調查問卷或用戶反饋來衡量使用機器人前后客戶以及老師對咨詢體驗的滿意程度。問題解決率:機器人能夠正確回答的問題占總提問的比例。老師回答效率的提升:所有老師平均每月回答問題數(shù)量同比和環(huán)比變化

2)準確度和性能相關指標(訓練的時候需要關注的指標,后續(xù)實際使用的時候可以抽樣獲。

準確率:機器人回答正確的次數(shù)與總回答次數(shù)的比例。召回率:在所有應該被機器人正確回答的問題中,實際上被正確回答的比例。(召回率特別重要,當關注的重點是確保所有正例都被識別出來時,例如在疾病篩查或欺詐檢測中,遺漏一個正例的代價可能非常高。)F1 分數(shù):準確率和召回率的調和平均值,綜合反映模型的準確性和全面性。答案相關性:這個指標強調生成的答案需要與提出的問題直接相關。忠實度:這個指標強調模型生成的答案必須保持對給定上下文的忠實,確保答案與上下文信息一致,不偏離或矛盾。這方面的評估對于解決大型模型中的幻覺問題至關重要

3)數(shù)據(jù)和知識庫相關指標(由于這是一個長期的產品,因此需要不斷的修改知識庫以及規(guī)范知識庫的書寫方式便于訓練,因此該指標主要針對數(shù)據(jù)管理流程中的相關人員)

知識庫覆蓋率:機器人知識庫中包含的信息占所有可能相關信息的比例。知識更新頻率:知識庫更新的頻率,反映機器人對新信息的適應能力。

4)商業(yè)收益相關指標(實際使用中,以及決策是否需要長期使用以及將該產品推廣大更大的場景需要的決策指標)

成本節(jié)約:通過機器人回答問題減少的人力成本。同樣的咨詢量情況下,需要的稅務老師成本為多少收入增加:由于服務效率提升帶來的額外咨詢業(yè)務或產品銷售?蛻袅舸媛剩菏褂脵C器人服務后,客戶的留存率變化。市場份額:產品推出后,公司在稅務咨詢市場的份額變化。

5)安全和合規(guī)性指標(由于領域要求,因此需要注意數(shù)據(jù)敏感性問題)

合規(guī)性檢測通過率:機器人回答被判定為合規(guī)的比例。數(shù)據(jù)泄露風險:評估機器人處理數(shù)據(jù)時可能的數(shù)據(jù)泄露風險。

6)技術和維護相關指標(為了后續(xù)直接給個人和企業(yè)使用需要關注系統(tǒng)穩(wěn)定性)

系統(tǒng)穩(wěn)定性:機器人系統(tǒng)的正常運行時間與總時間的比例。維護成本:維護和升級機器人系統(tǒng)的平均成本。模型訓練+知識庫維護總成本:因為后續(xù)需要對產品定價以及是否要延續(xù)該產品和擴張該產品進行決策

以上指標具體需要怎樣的目標可以結合實際場景和原本的數(shù)據(jù)結果進行規(guī)劃。

目前的這個解決方案有什么收益和成本?

公司內部數(shù)據(jù)亂象可以借由該產品的規(guī)劃進行調整:原本公司的數(shù)據(jù)散落在各個平臺上,如釘釘、飛書、wiki等各類工具上,導致有時候需要查詢一個內容需要去到多個工具,且不同的工具搜索機制不同,常常有搜索不出想要的答案的情況,且搜索的時間很長,很多返回的結果沒有按照期望的反饋,需要進行人工篩選更高效的提升稅務老師的咨詢能力范圍,有了稅務咨詢小助手,老師即使不了解當?shù)囟惙ㄒ部梢钥焖賹人知識和稅務咨詢小助手的回答結合回答問題對公司來說可以通過更低的人力成本產出同樣效果的咨詢結果從長遠的角度看本次整理的數(shù)據(jù)以及構建稅務咨詢小助手,可以用于后續(xù)稅務知識學習軟件的構建,以及稅務咨詢小助手可以單獨作為一個產品賣給企業(yè)和個人用戶最后除了收益之外就是成本問題:模型訓練+知識庫維護總成本:因為后續(xù)需要對產品定價以及是否要延續(xù)該產品和擴張該產品進行決策

2. 設計邏輯

架構圖:

實際開發(fā)中需要注意的點?

如何搭建整體和RAG相關框架:

總之,選擇什么樣的實現(xiàn)方式需要綜合考慮。

技術能力:如果您的團隊在機器學習和自然語言處理方面有較強的技術能力,自研模型可能是一個好選擇。資源與時間:如果資源有限或希望快速推出產品,使用Langchain框架或現(xiàn)有LLM平臺可能更合適。定制化需求:考慮稅務咨詢機器人的特定需求,是否需要高度定制化。

舉個例子,初期可以使用Langchain框架或現(xiàn)有平臺快速搭建原型,隨著項目的深入,再逐步引入自研模型以優(yōu)化性能。這樣的混合方法可以平衡開發(fā)速度和模型的定制化需求。

具體使用什么LLM、embedding模型?

需要根據(jù)你的成本和想要實現(xiàn)的效果做權衡,目前有很多開源模型(如GPT-3、BERT)或商業(yè)模型(如阿里云、騰訊云提供的模型)供我們選擇,可以多試幾個最后看下前面我們提到的各類目標指標是否符合期待。

按照業(yè)務需求設計對應的業(yè)務邏輯模塊?

回到最初的產品設計,還是需要提醒下你的業(yè)務需求是什么,比如由于我們這個系統(tǒng)需要給多方接入因此需要做鑒權,和數(shù)據(jù)權限控制,以及后續(xù)要開放給企業(yè)和個人直接使用以及需要計算項目成本和收益,因此存在計費模塊等。

3. 研發(fā)

第一步:數(shù)據(jù)管理

數(shù)據(jù)準備階段:數(shù)據(jù)清洗>數(shù)據(jù)提取>文本格式轉換>文本分割>向量化(embedding)>數(shù)據(jù)入庫

數(shù)據(jù)管理為了更好的進行embedding以及讓大模型更好的理解我們的知識,對數(shù)據(jù)的處理就需要注意下,因為有一個好的干凈的數(shù)據(jù)才能保證問答系統(tǒng)的準確率和召回率等指標。

數(shù)據(jù)整理時需要注意的點:

第二步:模型設計研究和開發(fā)

如今LLM應用技術棧中的模型(例如GPT-4)就相當于其中的CPU,開發(fā)框架(例如LangChain或Dify)則相當于主板,而內存、向量存儲、插件就好比主板上的各種I/O設施。正如組裝計算機一樣,開發(fā)者在構建LLM應用時也需理解、精心挑選和配置每個組件。

第三步:按照測試結果對模型進行調優(yōu)

雖然rag整體來說是一個比較好的技術,但是前文講到的基礎RAG模型還存在很多問題因此在實際使用中還需要結合實際業(yè)務場景和需求進行微調。

該技術可以通過微調來提升各方面的性能指標,以下僅舉例幾個實際使用中常見的問題,來詳細闡述如何微調模型使其符合業(yè)務要求:

以上如果都進行調整后原始的rag技術架構會變?yōu)槿缦聢D所示:

第四步:部署

第五步:根據(jù)實際使用結果對模型進行不斷調優(yōu)

可結合理想態(tài)指標按照第三步的方法進行優(yōu)化模型,或者通過添加交互和邏輯判斷來完善用戶體驗。

4. 案例

【NVIDIA大模型結合 RAG 構建客服場景自動問答系統(tǒng)】NVIDIA提供了如下的RAG優(yōu)化后的模型,其架構如下圖所示:

以及在對原始RAG架構進行調整后模型效果有了怎樣的提升:

如果你的項目也想要用該模型的話可以前往對應的地址,該地址可以通過文末的參考內容進行逐步查找。

五、在本文之外的思考-LLM vs 互聯(lián)網:

AI大模型的出現(xiàn)對商業(yè)的影響確實可以與幾十年前互聯(lián)網的出現(xiàn)相類比,盡管它們在技術和應用上存在一些差異。以下是一些相似之處和不同之點:

相似之處:

信息傳播和訪問:互聯(lián)網的出現(xiàn)極大地降低了信息傳播的成本,使得全球范圍內的信息共享成為可能。類似地,AI大模型能夠處理和分析大量數(shù)據(jù),提供智能化的信息檢索和生成,進一步改變了信息的獲取和傳播方式。創(chuàng)新和變革:互聯(lián)網催生了全新的商業(yè)模式和行業(yè),如電子商務、社交媒體、在線廣告等。AI大模型也在推動各行各業(yè)的創(chuàng)新,例如在醫(yī)療、金融、教育、制造業(yè)等領域。工作效率提升:互聯(lián)網通過電子郵件、在線協(xié)作工具等方式提高了工作效率。AI大模型則通過自動化處理復雜任務、提供決策支持等方式,進一步提升了工作效率和質量。

不同之點:

技術本質:互聯(lián)網更多地是一種基礎設施,而AI大模型是一種智能化的工具和服務。AI大模型能夠進行推理、學習和預測,而互聯(lián)網則是一個信息傳輸?shù)钠脚_。應用范圍:互聯(lián)網的影響幾乎遍及所有行業(yè)和日常生活,而AI大模型的應用雖然廣泛,但主要集中在數(shù)據(jù)處理、分析和決策支持等領域。社會影響:互聯(lián)網對社會的影響更為直接和廣泛,包括信息獲娶溝通方式、娛樂等。AI大模型的影響則更多地體現(xiàn)在工作效率提升、決策質量改善等方面。發(fā)展階段:互聯(lián)網已經經歷了數(shù)十年發(fā)展,其商業(yè)模式和應用相對成熟。相比之下,AI大模型仍處于快速發(fā)展階段,其商業(yè)模式和應用場景仍在探索和成熟中。就拿目前中國的各種LLM商業(yè)化來說卻是還處在探索階段沒有很有突破性的產品出現(xiàn),更多的是LLM模型平臺、優(yōu)化智能客服、優(yōu)化推薦算法、面向企業(yè)的LLM解決方案以及自己構建LLM等。所有的產品形態(tài)還是原先互聯(lián)網行業(yè)普遍存在的沒有什么新意。不過看了以上的文檔也發(fā)現(xiàn)現(xiàn)在公司要使用LLM來提升在特定流程中的效率也變得越來越簡單。

所以最后還是期待下AI、LLM可以給世界帶來像科幻電影一樣的新意,如果我有幸參與到了這樣的產品和技術的變革之中,真的是榮幸之至!

參考內容:

1.2020-CCF語音對話與聽覺專業(yè)組會議(主辦單位:中國計算機學會 |B站:BV1ST4y1F7mg)

LLM產品:

《The AI Product Manager’s Handbook》

文章輔助撰寫:

智譜清言

本文由 @4T 原創(chuàng)發(fā)布于人人都是產品經理。未經作者許可,禁止轉載。

題圖來自Unsplash,基于CC0協(xié)議。

贊助本站

人工智能實驗室
AiLab云推薦
推薦內容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港