展會(huì)信息港展會(huì)大全

文檔處理效能飆升!浩鯨科技“文檔大模型”核心技術(shù)揭秘!
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-26 11:06:51   瀏覽:1177次  

導(dǎo)讀:機(jī)器之心發(fā)布 機(jī)器之心編輯部 在當(dāng)今大模型技術(shù)日新月異的背景下,數(shù)據(jù)已躍升為構(gòu)建企業(yè)大模型知識(shí)庫(kù)、優(yōu)化訓(xùn)練與微調(diào),乃至驅(qū)動(dòng)模型創(chuàng)新不可或缺的核心要素。 對(duì)于企業(yè)來(lái)說(shuō),積累的寶貴知識(shí)廣泛散布于形式多樣的電子文檔之中,這些文檔不僅格式多樣,其內(nèi)容...

機(jī)器之心發(fā)布

機(jī)器之心編輯部

在當(dāng)今大模型技術(shù)日新月異的背景下,數(shù)據(jù)已躍升為構(gòu)建企業(yè)大模型知識(shí)庫(kù)、優(yōu)化訓(xùn)練與微調(diào),乃至驅(qū)動(dòng)模型創(chuàng)新不可或缺的核心要素。

對(duì)于企業(yè)來(lái)說(shuō),積累的寶貴知識(shí)廣泛散布于形式多樣的電子文檔之中,這些文檔不僅格式多樣,其內(nèi)容質(zhì)量亦呈現(xiàn)出顯著的差異性。對(duì)海量數(shù)據(jù)進(jìn)行精細(xì)化的清洗與預(yù)處理工作,已成為提升數(shù)據(jù)價(jià)值、確保模型精準(zhǔn)高效的關(guān)鍵一環(huán),如何有效提取并利用這些寶貴的知識(shí)資源,成為了擺在所有企業(yè)面前的一道難題。

9 月 20 日,老牌數(shù)字化轉(zhuǎn)型技術(shù)服務(wù)提供商浩鯨科技在云棲大會(huì)期間,成功舉行鯨智大模型技術(shù)體系發(fā)布會(huì),作為企業(yè)內(nèi)部的 “資產(chǎn)沉淀專家”,鯨智文檔大模型重磅首發(fā)。

據(jù)了解,本次發(fā)布的 “鯨智文檔大模型”,專門針對(duì)企業(yè)文檔場(chǎng)景構(gòu)建了一組垂直領(lǐng)域模型,浩鯨科技大模型創(chuàng)新中心總經(jīng)理王玉木表示,鯨智文檔大模型與同類產(chǎn)品最大的差異在于,它提供了可快速價(jià)值落地的整體性方案,不僅包含了文檔大模型能力,還提供了多模態(tài)文檔工具鏈 DocChain 和開(kāi)箱即用的軟硬件一體機(jī),基于垂直模型能力和軟硬件相互配合,可幫助企業(yè)實(shí)現(xiàn)文檔的知識(shí)抽娶知識(shí)融合,直至知識(shí)推理和問(wèn)答的全流程覆蓋,為企業(yè)知識(shí)資產(chǎn)的沉淀、高效管理與利用提供了有效通路。

鯨智文檔大模型的實(shí)踐邏輯

浩鯨科技成立于 2003 年,立足于電信行業(yè),智慧觸角已觸及政務(wù)、電力、泛零售等多個(gè)領(lǐng)域,迄今已為全球 80 多個(gè)國(guó)家和地區(qū)的電信運(yùn)營(yíng)商、700 + 政企客戶提供全棧數(shù)智化產(chǎn)品技術(shù)服務(wù)。

“鯨智文檔大模型” 始于浩鯨科技 20 余年的數(shù)據(jù)治理、知識(shí)沉淀能力積累,作為垂直領(lǐng)域模型,它從端到端解決場(chǎng)景需求的視角出發(fā),結(jié)合了大小模型協(xié)作等思路,基于基礎(chǔ)大模型構(gòu)建一套緊密配合的模型組合,主要分三個(gè)層面:

底層,精準(zhǔn)知識(shí)提。和ㄟ^(guò)標(biāo)題提娶表格提娶版面分析等多種模型,精準(zhǔn)捕捉文檔中的關(guān)鍵信息,確保內(nèi)容的完整提齲同時(shí),知識(shí)密度分類與語(yǔ)義壓縮模型的加入,進(jìn)一步提升了知識(shí)提取的效率與質(zhì)量。

知識(shí)提取中,“標(biāo)題提取模型” 是最為優(yōu)先的。文檔標(biāo)題可用于文檔知識(shí)塊拆分、知識(shí)塊召回等場(chǎng)景,可解決指代消歧等問(wèn)題,具有重要作用,但在服務(wù)企業(yè)過(guò)程中,大部分文檔格式不規(guī)范,直接影響了知識(shí)問(wèn)答成功率。“標(biāo)題提取模型” 基于基礎(chǔ)大模型進(jìn)行微調(diào)訓(xùn)練,強(qiáng)化了標(biāo)題識(shí)別能力,能夠用于從正文中識(shí)別標(biāo)題,補(bǔ)全缺失標(biāo)題等場(chǎng)景,可以解決企業(yè)文檔標(biāo)題和目錄不規(guī)范,甚至標(biāo)缺失的問(wèn)題,有效提升了成功率。

中間層,深度知識(shí)融合:在知識(shí)塊的基礎(chǔ)上,進(jìn)行抽象總結(jié)與多模態(tài)數(shù)據(jù)關(guān)聯(lián),將碎片化知識(shí)整合為系統(tǒng)化的知識(shí)體系,并映射至高維向量空間,為后續(xù)的知識(shí)推理奠定堅(jiān)實(shí)基矗浩鯨科技積累的的主要模型有:

文本總結(jié)模型:生成短文本摘要,為知識(shí)萃取提供支持;

文本向量模型:提供更加準(zhǔn)確的文本特征提取能力,為知識(shí)的召回提供保障;

界面識(shí)別模型:圖片特征提取模型,支持圖文向量對(duì)齊;

文本重排模型:對(duì)多模態(tài),多路徑召回的文本內(nèi)容,進(jìn)行重排序,進(jìn)一步提升回答的準(zhǔn)確率。

其中,“界面識(shí)別模型” 強(qiáng)化了對(duì)用戶手冊(cè)中最常見(jiàn)軟件界面的支持,主要得益于很多用戶都喜歡使用截圖來(lái)對(duì)知識(shí)庫(kù)進(jìn)行提問(wèn)。該模型訓(xùn)練數(shù)據(jù)提取自浩鯨科技研發(fā)云平臺(tái),將軟件測(cè)試報(bào)告中的軟件界面圖片和內(nèi)容來(lái)構(gòu)建訓(xùn)練集,并使用反轉(zhuǎn)、隨機(jī)截娶變形、疊加反光等手段擴(kuò)增圖片庫(kù),實(shí)現(xiàn)了一個(gè)支持軟件界面匹配的圖片識(shí)別模型,解決了現(xiàn)有大模型在軟件界面識(shí)別方面效果一般的問(wèn)題。該模型的應(yīng)用顯著提升了圖片搜索的準(zhǔn)確率,文本檢索圖片召回成功率提升 25%,圖片檢索圖片召回成功率提升 40%。

上層,智能知識(shí)推理:構(gòu)建了知識(shí)問(wèn)答模型和 BPO 優(yōu)化模型。面向知識(shí)問(wèn)答任務(wù)場(chǎng)景,構(gòu)建了針對(duì)場(chǎng)景優(yōu)化的問(wèn)答模型,強(qiáng)化根據(jù)參考知識(shí)信息進(jìn)行精準(zhǔn)回答,減少幻覺(jué)。另外一方面通過(guò)優(yōu)化用戶的輸入提示(prompt)來(lái)提高模型輸出與人類偏好的對(duì)齊程度,提升問(wèn)答的準(zhǔn)確性。

DocChain:文檔處理的智慧引擎

為深度賦能企業(yè)用戶,浩鯨科技依托先進(jìn)的鯨智文檔大模型,匠心打造了多模態(tài)文檔工具鏈 DocChain。該產(chǎn)品不僅實(shí)現(xiàn)了企業(yè)文檔向?qū)氋F知識(shí)資產(chǎn)的轉(zhuǎn)化,更構(gòu)建了一個(gè)集文檔知識(shí)精準(zhǔn)提娶高效檢索與智能問(wèn)答對(duì)話于一體的大模型知識(shí)服務(wù)平臺(tái)。DocChain 以其卓越的多模態(tài)處理能力、廣泛的文檔格式兼容性和極致的性能優(yōu)化,成為企業(yè)文檔處理領(lǐng)域的得力助手。

智能提取,精準(zhǔn)高效:集成前沿 NLP 算法與模型,實(shí)現(xiàn)文檔處理速度與精度的雙重飛躍。抽取精度高達(dá) 98%,問(wèn)答響應(yīng)準(zhǔn)確率超越 80%,讓信息獲取更加智能、便捷。

格式兼容,全面廣泛:擁抱多樣化文檔生態(tài),支持超過(guò) 30 種文件格式,特別兼容 OFD 等國(guó)產(chǎn)信創(chuàng)標(biāo)準(zhǔn),確保各類文檔無(wú)縫接入,處理高效且精準(zhǔn),滿足企業(yè)多樣化需求。

多模態(tài)處理,深度解析:深度解析文檔內(nèi)容,無(wú)論是文本、目錄、圖片、表格、鏈接還是頁(yè)碼,均能精準(zhǔn)拆分與提齲支持多元模態(tài)檢索,無(wú)論是文找文、文找圖,還是圖找圖,均能游刃有余。

一體機(jī):解決企業(yè)私域場(chǎng)景下低成本上線大模型的訴求

浩鯨科技為解決客戶落地大模型過(guò)程中算力硬件缺乏、技術(shù)人員少、安全要求高等難題,同時(shí)推出了文檔大模型軟硬件一體機(jī)。一體機(jī)內(nèi)置了高性能算力,并且預(yù)裝了大模型以及 DocChain 應(yīng)用,可為企業(yè)快速部署和驗(yàn)證智慧文檔處理服務(wù)。

從部署上來(lái)說(shuō),文檔大模型一體機(jī)具備開(kāi)箱即用、數(shù)據(jù)安全可控、性能無(wú)憂、快速集成等幾個(gè)特點(diǎn),專為輕量級(jí)場(chǎng)景設(shè)計(jì),私有化部署解決企業(yè)隱私保護(hù)、數(shù)據(jù)安全等痛點(diǎn),低成本實(shí)現(xiàn)企業(yè)內(nèi)部大模型快速上線,覆蓋通用知識(shí)檢索、文檔問(wèn)答、服務(wù)支撐及品牌宣傳等,可幫助企業(yè)迅速構(gòu)建專屬大模型問(wèn)答系統(tǒng)。

隨著基礎(chǔ)大模型的發(fā)展,以及模型增量訓(xùn)練的知識(shí)沖突問(wèn)題日益凸顯,RAG 逐漸成為企業(yè)智能知識(shí)庫(kù)的標(biāo)準(zhǔn)解決方案,然而知識(shí)召回的準(zhǔn)確率和完整性成為了影響問(wèn)答效果的關(guān)鍵因素。

鯨智文檔大模型,借鑒了 “大模型 + 小模型” 的思路,基于基座大模型構(gòu)建了一套大小模型的組合,形成了一套垂直大模型,可以端到端實(shí)現(xiàn)垂直應(yīng)用場(chǎng)景的需求。當(dāng)前,鯨智文檔大模型在多模態(tài)識(shí)別、檢索和精準(zhǔn)召回上做了很多的嘗試,也取得了一定的成果。

AI 大模型的迅速發(fā)展,讓企業(yè)沉淀的大量文檔的知識(shí)理解和處理帶來(lái)了轉(zhuǎn)機(jī),浩鯨科技正通過(guò)持續(xù)的技術(shù)創(chuàng)新與產(chǎn)品優(yōu)化,推動(dòng)大模型技術(shù)與企業(yè)領(lǐng)域知識(shí)深度融合,實(shí)現(xiàn)企業(yè)文檔向有價(jià)值的資產(chǎn)轉(zhuǎn)化,為企業(yè)創(chuàng)造更多價(jià)值。返回

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港