當前位置：人工智能實驗室> 人工智能應用 > 加深人工智能數據治理金融大模型開啟私有化部署

加深人工智能數據治理金融大模型開啟私有化部署
來源：互聯(lián)網發(fā)布日期：2023-11-04 09:14:43 瀏覽：4573次

導讀：本報記者蔣牧云何莎莎上海北京報道隨著以大模型、AIGC為代表的人工智能技術不斷發(fā)展，我國的金融大模型應用已經進入新的發(fā)展階段。除了基礎技術落地之外，業(yè)內也在隱私保護、數據治理等方面有了更多思考。《中國經營報》記者觀察到，近期，不少金融機...

本報記者蔣牧云何莎莎上海北京報道

隨著以大模型、AIGC為代表的人工智能技術不斷發(fā)展，我國的金融大模型應用已經進入新的發(fā)展階段。

除了基礎技術落地之外，業(yè)內也在隱私保護、數據治理等方面有了更多思考。

《中國經營報》記者觀察到，近期，不少金融機構或金融科技企業(yè)正通過私有化部署的方式進行私有數據的訓練，以達到數據安全的合規(guī)要求，防范相關風險。

多位業(yè)內人士告訴記者，通過數據脫敏、數據匿名化、私有化部署等方式，可以在確保數據真實性的同時，保護數據的隱私安全。但也需要正視的是，私有化部署下，在模型智能程度、部署成本等方面仍面臨諸多挑戰(zhàn)。未來，從行業(yè)與企業(yè)的角度，需要不斷完善相關制度，優(yōu)化自身算法與技術。

AI治理課題引關注

人工智能熱潮持續(xù)近一年后，業(yè)內迎來的冷思考是，在帶來巨大機遇的同時，人工智能技術也帶來了難以預知的各種風險和復雜挑戰(zhàn)。特別地，人工智能治理的課題正受到全球關注。

近日，中國在第三屆“一帶一路”國際合作高峰論壇上提出《全球人工智能治理倡議》，圍繞人工智能發(fā)展、安全、治理三方面系統(tǒng)闡述了人工智能治理中國方案。此前，《生成式人工智能服務管理暫行辦法》首次對生成式人工智能研發(fā)與服務做出明確規(guī)定，也是全球首部針對生成式人工智能進行監(jiān)管的法律文件。

具體到金融業(yè)，作為大模型落地的熱門場景之一，其對于數據與隱私安全有著更高的要求。通聯(lián)數據智能投研業(yè)務中心總經理許丹青告訴記者，目前人工智能應用于金融業(yè)務中，需要將客戶內部數據與外部公開數據進行整理、分析與推理。在AI技術應用過程中，內外部數據的獨立性以及客戶內部數據不被模型所采集等方面，存在一定的信息與數據安全風險。

那么，為防范相關風險，目前金融業(yè)中的AI應用具體采用哪些舉措？

許丹青表示，在合規(guī)風險防范方面，通聯(lián)數據將AIGC技術定位為專業(yè)投研人員的效率工具，作為輔助工具幫助投研人員做總結、整理等重復性與低密度的案頭工作。AIGC主要應用于信息壓縮與萃娶文章提煉總結、標準模板生成等報告等方面。同時，提供所有推理的溯源，確保數據的真實性與有理可循。

許丹青進一步表示，“我們將數據安全與治理方案從三個方面進行防范：在數據層，將數據源分為客戶級數據與公開數據，不同數據層級采用不同的模型學習與加密流程；在模型層，采用通聯(lián)數據特有的數據、開源模型框架等技術，開發(fā)行業(yè)大模型與客戶小模型應用，結合不同的數據源等級進行應用；在輸出層，使用非對稱加密與反爬機制，確保輸出對用戶友好且不被其他三方所引用。”

恒生電子AI技術專家則介紹道：“針對數據安全和隱私保護，我們采取了一系列的措施確保數據的脫敏、合規(guī)、授權和追溯，包括去除數據中所有敏感的個人以及機構敏感數據；對收集的所有數據進行匿名化和加密處理；制定嚴格的數據使用規(guī)范和訪問控制，只允許授權人員在控制環(huán)境下使用數據；記錄所有操作行為，保證數據來源可追溯；與用戶簽訂數據保密協(xié)議，明確數據所有權和使用期限等。同時，我們還通過建立可靠的網絡安全系統(tǒng)、定期開展安全評估等方式，識別和消除數據安全隱患。”

他表示，AI治理存在挑戰(zhàn)的原因在于，目前AI技術進步飛快，而原有的政策法規(guī)和倫理規(guī)范并不能快速跟上技術發(fā)展。同時，監(jiān)管和公眾對于AI技術的認知還有待提高。要解決這些問題，未來可以從以下4個方面努力：在企業(yè)層面，優(yōu)化算法和技術，建立內部安全審查制度，主動接受外部監(jiān)管，以規(guī)避人工智能可能帶來的社會倫理問題；在行業(yè)層面，建立AI倫理規(guī)范，開展行業(yè)認證，形成行業(yè)自律；在政府層面，加快出臺AI監(jiān)管法規(guī)和政策，推動行業(yè)合規(guī)發(fā)展，鼓勵公眾監(jiān)督參與，加強國際合作；在公眾層面，提高對AI的理解，理性看待AI的進步。

私有化部署的兩面性

事實上，除了對數據進行脫敏、預先封裝等處理之外，基于金融機構對數據安全與隱私安全的考慮，大模型的私有化部署正在成為趨勢，不少企業(yè)在升級大模型產品時增加了部署方式選擇。例如，恒生電子近日發(fā)布了金融大模型LightGPT最新的能力升級成果，以及基于LightGPT打造的多款光子系列大模型應用產品，并宣布正式開放產品公測。其中，LightGPT支持私有化和云部署兩種模式，使得金融機構可以根據自身的業(yè)務需求和安全策略，選擇最合適的部署方式。

私有化部署，也稱為私有云部署，指為一個能單獨使用而構建的云，提供對數據的安全性和服務質量的最有效控制。私有云可部署在企業(yè)數據中心的防火墻內，也可以部署在一個安全的主機托管場所。

有金融機構人士向記者坦言，境內的大模型訓練需要滿足《網絡安全法》《數據安全法》等一系列相關法規(guī)，同時需要獲得個人信息的使用授權，以及受到輸入數據的保密約束。在境外數據方面，則額外涉及數據主權問題、數據跨境問題以及不同區(qū)域的法規(guī)差異。所以，實踐過程中，很多機構的內部數據只能通過私有化部署來處理，部分行業(yè)數據受限于授權范圍，也僅可使用私有化的模型。

關于金融大模型部署方式的發(fā)展趨勢，恒生電子董事長劉曙峰認為，混合部署是一個常態(tài)化的方案。采取私有化部署+MaaS服務相結合的方式，一方面滿足監(jiān)管合規(guī)、數據安全的要求，另一方面可以快速引入行業(yè)資源和能力，完成大模型的應用落地，并通過訂閱服務獲得數據服務、AI服務的持續(xù)更新。

而業(yè)內普遍認為，大模型在本地私有化模型的落地依然處于初期階段，仍有面臨許多挑戰(zhàn)。

某金融機構技術負責人向記者表示，“需要了解的是，目前的大語言模型技術來源主要有三種：第一種是海外的模型，類似OpenAI提供的ChatGPT；第二種是國內一些大廠提供的模型，如百度的文心一言、阿里的通義千言等；第三種是開源的模型，如llama、ChatGLM、Bloom等。這些模型里面，第二種和第三種的效果與ChatGPT有很大區(qū)別，特別是與OpenAI的GPT4模型對比。但是第二種和第三種模型，在執(zhí)行某些特定任務時還是能達到一定效果，這也使得大語言模型的私有化部署成為可能。其中，第一種模型私有化部署（如OpenAI）的難度很大；第二種模型，部分廠商支持私有化部署，還有一部分只支持API調用；第三種模型，有一部分因為開源證書限制而不允許私有化部署商業(yè)化使用，但是也有很大一部分支持商業(yè)化使用，這部分模型可以自主實現(xiàn)私有化部署。”

該負責人進一步指出，目前，大模型的私有化部署仍存在模型智能程度、部署成本、任務遷移等多方面的挑戰(zhàn)。

具體而言，在智能程度方面，由于支持私有化部署的模型可供選擇的空間不大，模型的智能程度遠遠不如業(yè)內頭部企業(yè)的模型，訓練效果也會大打折扣，因此這類模型的私有化部署只能在有限場景下使用。

在任務遷移方面，開源模型由于訓練數據集的原因，導致在場景落地的時候，會出現(xiàn)一些“水土不服”，比如訓練的任務類型與具體的任務場景有偏差，直接使用會有效果損失。這種情況則需要利用企業(yè)自主數據集來進行特定任務、特定場景的針對性優(yōu)化。

在部署成本方面，因為模型的智能程度、模型訓練等，這些都給模型的部署帶來了高昂的成本。除了個別規(guī)模小一點的模型可以在消費級的顯卡上訓練外，其余的模型都需要在多張A100的機器上進行訓練。但是規(guī)模小的模型效果又達不到最佳，而A100等顯卡不管是租賃還是采購，成本都非常高。