展會信息港展會大全

加深人工智能數據治理 金融大模型開啟私有化部署
來源:互聯(lián)網   發(fā)布日期:2023-11-04 09:14:43   瀏覽:4573次  

導讀:本報記者 蔣牧云 何莎莎 上海 北京報道 隨著以大模型、AIGC為代表的人工智能技術不斷發(fā)展,我國的金融大模型應用已經進入新的發(fā)展階段。 除了基礎技術落地之外,業(yè)內也在隱私保護、數據治理等方面有了更多思考。 《中國經營報》記者觀察到,近期,不少金融機...

本報記者 蔣牧云 何莎莎 上海 北京報道

隨著以大模型、AIGC為代表的人工智能技術不斷發(fā)展,我國的金融大模型應用已經進入新的發(fā)展階段。

除了基礎技術落地之外,業(yè)內也在隱私保護、數據治理等方面有了更多思考。

《中國經營報》記者觀察到,近期,不少金融機構或金融科技企業(yè)正通過私有化部署的方式進行私有數據的訓練,以達到數據安全的合規(guī)要求,防范相關風險。

多位業(yè)內人士告訴記者,通過數據脫敏、數據匿名化、私有化部署等方式,可以在確保數據真實性的同時,保護數據的隱私安全。但也需要正視的是,私有化部署下,在模型智能程度、部署成本等方面仍面臨諸多挑戰(zhàn)。未來,從行業(yè)與企業(yè)的角度,需要不斷完善相關制度,優(yōu)化自身算法與技術。

AI治理課題引關注

人工智能熱潮持續(xù)近一年后,業(yè)內迎來的冷思考是,在帶來巨大機遇的同時,人工智能技術也帶來了難以預知的各種風險和復雜挑戰(zhàn)。特別地,人工智能治理的課題正受到全球關注。

近日,中國在第三屆“一帶一路”國際合作高峰論壇上提出《全球人工智能治理倡議》,圍繞人工智能發(fā)展、安全、治理三方面系統(tǒng)闡述了人工智能治理中國方案。此前,《生成式人工智能服務管理暫行辦法》首次對生成式人工智能研發(fā)與服務做出明確規(guī)定,也是全球首部針對生成式人工智能進行監(jiān)管的法律文件。

具體到金融業(yè),作為大模型落地的熱門場景之一,其對于數據與隱私安全有著更高的要求。通聯(lián)數據智能投研業(yè)務中心總經理許丹青告訴記者,目前人工智能應用于金融業(yè)務中,需要將客戶內部數據與外部公開數據進行整理、分析與推理。在AI技術應用過程中,內外部數據的獨立性以及客戶內部數據不被模型所采集等方面,存在一定的信息與數據安全風險。

那么,為防范相關風險,目前金融業(yè)中的AI應用具體采用哪些舉措?

許丹青表示,在合規(guī)風險防范方面,通聯(lián)數據將AIGC技術定位為專業(yè)投研人員的效率工具,作為輔助工具幫助投研人員做總結、整理等重復性與低密度的案頭工作。AIGC主要應用于信息壓縮與萃娶文章提煉總結、標準模板生成等報告等方面。同時,提供所有推理的溯源,確保數據的真實性與有理可循。

許丹青進一步表示,“我們將數據安全與治理方案從三個方面進行防范:在數據層,將數據源分為客戶級數據與公開數據,不同數據層級采用不同的模型學習與加密流程;在模型層,采用通聯(lián)數據特有的數據、開源模型框架等技術,開發(fā)行業(yè)大模型與客戶小模型應用,結合不同的數據源等級進行應用;在輸出層,使用非對稱加密與反爬機制,確保輸出對用戶友好且不被其他三方所引用。”

恒生電子AI技術專家則介紹道:“針對數據安全和隱私保護,我們采取了一系列的措施確保數據的脫敏、合規(guī)、授權和追溯,包括去除數據中所有敏感的個人以及機構敏感數據;對收集的所有數據進行匿名化和加密處理;制定嚴格的數據使用規(guī)范和訪問控制,只允許授權人員在控制環(huán)境下使用數據;記錄所有操作行為,保證數據來源可追溯;與用戶簽訂數據保密協(xié)議,明確數據所有權和使用期限等。同時,我們還通過建立可靠的網絡安全系統(tǒng)、定期開展安全評估等方式,識別和消除數據安全隱患。”

他表示,AI治理存在挑戰(zhàn)的原因在于,目前AI技術進步飛快,而原有的政策法規(guī)和倫理規(guī)范并不能快速跟上技術發(fā)展。同時,監(jiān)管和公眾對于AI技術的認知還有待提高。要解決這些問題,未來可以從以下4個方面努力:在企業(yè)層面,優(yōu)化算法和技術,建立內部安全審查制度,主動接受外部監(jiān)管,以規(guī)避人工智能可能帶來的社會倫理問題;在行業(yè)層面,建立AI倫理規(guī)范,開展行業(yè)認證,形成行業(yè)自律;在政府層面,加快出臺AI監(jiān)管法規(guī)和政策,推動行業(yè)合規(guī)發(fā)展,鼓勵公眾監(jiān)督參與,加強國際合作;在公眾層面,提高對AI的理解,理性看待AI的進步。

私有化部署的兩面性

事實上,除了對數據進行脫敏、預先封裝等處理之外,基于金融機構對數據安全與隱私安全的考慮,大模型的私有化部署正在成為趨勢,不少企業(yè)在升級大模型產品時增加了部署方式選擇。例如,恒生電子近日發(fā)布了金融大模型LightGPT最新的能力升級成果,以及基于LightGPT打造的多款光子系列大模型應用產品,并宣布正式開放產品公測。其中,LightGPT支持私有化和云部署兩種模式,使得金融機構可以根據自身的業(yè)務需求和安全策略,選擇最合適的部署方式。

私有化部署,也稱為私有云部署,指為一個能單獨使用而構建的云, 提供對數據的安全性和服務質量的最有效控制。私有云可部署在企業(yè)數據中心的防火墻內,也可以部署在一個安全的主機托管場所。

有金融機構人士向記者坦言,境內的大模型訓練需要滿足《網絡安全法》《數據安全法》等一系列相關法規(guī),同時需要獲得個人信息的使用授權,以及受到輸入數據的保密約束。在境外數據方面,則額外涉及數據主權問題、數據跨境問題以及不同區(qū)域的法規(guī)差異。所以,實踐過程中,很多機構的內部數據只能通過私有化部署來處理,部分行業(yè)數據受限于授權范圍,也僅可使用私有化的模型。

關于金融大模型部署方式的發(fā)展趨勢,恒生電子董事長劉曙峰認為,混合部署是一個常態(tài)化的方案。采取私有化部署+MaaS服務相結合的方式,一方面滿足監(jiān)管合規(guī)、數據安全的要求,另一方面可以快速引入行業(yè)資源和能力,完成大模型的應用落地,并通過訂閱服務獲得數據服務、AI服務的持續(xù)更新。

而業(yè)內普遍認為,大模型在本地私有化模型的落地依然處于初期階段,仍有面臨許多挑戰(zhàn)。

某金融機構技術負責人向記者表示,“需要了解的是,目前的大語言模型技術來源主要有三種:第一種是海外的模型,類似OpenAI提供的ChatGPT;第二種是國內一些大廠提供的模型,如百度的文心一言、阿里的通義千言等;第三種是開源的模型,如llama、ChatGLM、Bloom等。這些模型里面,第二種和第三種的效果與ChatGPT有很大區(qū)別,特別是與OpenAI的GPT4模型對比。但是第二種和第三種模型,在執(zhí)行某些特定任務時還是能達到一定效果,這也使得大語言模型的私有化部署成為可能。其中,第一種模型私有化部署(如OpenAI)的難度很大;第二種模型,部分廠商支持私有化部署,還有一部分只支持API調用;第三種模型,有一部分因為開源證書限制而不允許私有化部署商業(yè)化使用,但是也有很大一部分支持商業(yè)化使用,這部分模型可以自主實現(xiàn)私有化部署。”

該負責人進一步指出,目前,大模型的私有化部署仍存在模型智能程度、部署成本、任務遷移等多方面的挑戰(zhàn)。

具體而言,在智能程度方面,由于支持私有化部署的模型可供選擇的空間不大,模型的智能程度遠遠不如業(yè)內頭部企業(yè)的模型,訓練效果也會大打折扣,因此這類模型的私有化部署只能在有限場景下使用。

在任務遷移方面,開源模型由于訓練數據集的原因,導致在場景落地的時候,會出現(xiàn)一些“水土不服”,比如訓練的任務類型與具體的任務場景有偏差,直接使用會有效果損失。這種情況則需要利用企業(yè)自主數據集來進行特定任務、特定場景的針對性優(yōu)化。

在部署成本方面,因為模型的智能程度、模型訓練等,這些都給模型的部署帶來了高昂的成本。除了個別規(guī)模小一點的模型可以在消費級的顯卡上訓練外,其余的模型都需要在多張A100的機器上進行訓練。但是規(guī)模小的模型效果又達不到最佳,而A100等顯卡不管是租賃還是采購,成本都非常高。

贊助本站

人工智能實驗室
相關內容
AiLab云推薦
推薦內容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港