當前位置：人工智能實驗室> 人物報道 > 鄔賀銓：AI時代的數(shù)據(jù)要素開發(fā)與治理

鄔賀銓：AI時代的數(shù)據(jù)要素開發(fā)與治理
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-11-06 19:21:09 瀏覽：6761次

導讀：AI時代，大數(shù)據(jù)蘊含的價值將進一步涌現(xiàn)。數(shù)據(jù)要素是新型生產力的代表，數(shù)據(jù)挖掘能力成為新時代的國家重要競爭力。培育數(shù)據(jù)資源、促進開放共享。政府數(shù)據(jù)方面，要從建設數(shù)據(jù)流通基礎制度體系入手，加快數(shù)據(jù)立法，完善制度規(guī)范，統(tǒng)籌協(xié)調推進，編制數(shù)據(jù)目錄...

“

AI時代，大數(shù)據(jù)蘊含的價值將進一步涌現(xiàn)。數(shù)據(jù)要素是新型生產力的代表，數(shù)據(jù)挖掘能力成為新時代的國家重要競爭力。

培育數(shù)據(jù)資源、促進開放共享。政府數(shù)據(jù)方面，要從建設數(shù)據(jù)流通基礎制度體系入手，加快數(shù)據(jù)立法，完善制度規(guī)范，統(tǒng)籌協(xié)調推進，編制數(shù)據(jù)目錄，分類分級管理，夯實共享開放機制，提升安全保障。此外，社會公共數(shù)據(jù)的開源開放也表征數(shù)據(jù)流通的水平，有必要建立高質量國家級重要行業(yè)領域基礎知識庫、數(shù)據(jù)庫、資源庫等。

基礎大模型缺乏行業(yè)專業(yè)知識，需要大模型提供方與垂直行業(yè)合作開發(fā)行業(yè)大模型。無論采取何種形式，數(shù)據(jù)安全都是前提，既掌握大模型訓練技術又熟悉行業(yè)專業(yè)知識的人才是關鍵。需要在國家戰(zhàn)略與規(guī)劃部署下，統(tǒng)籌推進政產學研用，引導“百模并發(fā)”形成合力。

數(shù)據(jù)助力社會治理信息化。數(shù)據(jù)的社會治理面臨挑戰(zhàn)，解決之道是AI監(jiān)管制度體系建設與AI技術研究并重，發(fā)展與安全治理協(xié)同，使AI的監(jiān)管創(chuàng)新與技術發(fā)展相輔相成。

加快數(shù)據(jù)基礎設施建設。大模型的數(shù)據(jù)訓練與推理都需要算力支撐，算力的布局需要處理好幾方面的關系：一是通用算力與智能算力的合理比例，二是自建算力與云原生算力的關系，三是存算比例，四是災備容量與主用數(shù)據(jù)中心存儲容量之比。

鄔賀銓中國工程院院士

*文章僅代表作者個人觀點，不代表CF40立常

”

AI時代的數(shù)據(jù)要素開發(fā)與治理

文 |鄔賀銓

人工智能概念的提出已有60多年時間，但直到1997年IBM的深藍計算機戰(zhàn)勝國際象棋大師才為大眾所知，不過基于專家系統(tǒng)經驗的智能有限。2016年，AlphaGo戰(zhàn)勝世界圍棋高手初顯大數(shù)據(jù)實力，但也只是在規(guī)則下的算法熟能生巧，類似的方法推動了自然語言識別與人臉識別技術的發(fā)展。

2022年底，ChatGPT的問世標志著人工智能從判別式發(fā)展到生成式的跨越，雖然目前的大模型只是針對特定任務和指定模態(tài)，離通用人工智能還有不少距離，但語言大模型讓機器初步具有常識，懂得推理，學會創(chuàng)作，讓人和機器能以較自然的方式互動，通過與周邊工具的結合，表現(xiàn)出擬人的智能。與AlphaGo將數(shù)據(jù)作為查詢和判別的依據(jù)不同，ChatGPT可以說讀透與消化了數(shù)據(jù)，融會貫通計上心來，得出源于數(shù)據(jù)高于數(shù)據(jù)的結論。

生成式大模型賦予數(shù)據(jù)以新的生命力，AI時代大數(shù)據(jù)蘊含的價值將進一步涌現(xiàn)。數(shù)據(jù)因AI而變得越來越重要，數(shù)據(jù)要素是新型生產力的代表，數(shù)據(jù)挖掘能力成為新時代的國家重要競爭力。

培育數(shù)據(jù)資源，促進開放共享

數(shù)據(jù)是生產和生活過程的記錄及對自然觀察的結果。2022年中國人口占全球18%，網(wǎng)民占全球21.5%，GDP占全球18.06%。據(jù)國家網(wǎng)信辦《數(shù)字中國發(fā)展報告（2022年）》數(shù)據(jù)顯示，2022年我國數(shù)據(jù)產量達8.1ZB，同比增長22.7%，全球占比為10.5%，位居全球第二；我國數(shù)據(jù)存儲量達724.5EB，同比增長21.1%，全球占比為14.4%。

中國產生和存儲的數(shù)據(jù)在全球的占比均低于中國的人口、網(wǎng)民和經濟規(guī)模在全球的比例。據(jù)Synergy Research Group截至2021年Q3季度統(tǒng)計，美國大規(guī)模數(shù)據(jù)中心在全球占比高達49%，其次是中國占比為15%。可見我國數(shù)據(jù)存儲量與美國相比差距還比較大，這反映了我國在社會信息化和產業(yè)數(shù)字化程度上仍落后于美國，加快數(shù)字中國的建設將有望盡快改變這一狀況。

政府與研究機構及企業(yè)都會存儲大量數(shù)據(jù)，其中政府掌握全社會數(shù)據(jù)約80%，而且是高質量數(shù)據(jù)，但主要卻僅供內部使用甚至是本部門內小單位各自存儲和使用而非共享，數(shù)據(jù)利用率不高。需要從制度上明確共享內容、權限和責任，促進政府部門間數(shù)據(jù)共享，更精準地把握社會和經濟運行全局，提升政府部門間工作的協(xié)同性。

與共享相比，數(shù)據(jù)開放更是社會數(shù)字化的標志之一，政府及企事業(yè)單位掌握的公共數(shù)據(jù)具有很強的社會性，政府開放數(shù)據(jù)對提升政府公信力、降低社會成本，帶動數(shù)字經濟發(fā)展有重要作用。

國際上將政府數(shù)據(jù)開放作為數(shù)字政府的重要衡量指標，據(jù)《聯(lián)合國電子政務調查報告2022》數(shù)據(jù)顯示，從2012年到2022年的十年間，中國在線服務指數(shù)從0.5294上升到0.8876，在193個國家中排名從第62位上升到第15位，愛沙尼亞、芬蘭、韓國位居前三，美國第八，日本第九。

我國還存在政務數(shù)據(jù)標準規(guī)范體系待健全、政務數(shù)據(jù)統(tǒng)籌管理機制待完善，政務數(shù)據(jù)安全保障能力待加強的問題，需要從建設數(shù)據(jù)流通基礎制度體系入手，加快數(shù)據(jù)立法，完善制度規(guī)范，統(tǒng)籌協(xié)調推進，編制數(shù)據(jù)目錄，分類分級管理，夯實共享開放機制，提升安全保障。

除了政府開放數(shù)據(jù)以外，社會公共數(shù)據(jù)的開源開放也表征數(shù)據(jù)流通的水平。人工智能生成內容（AIGC）大模型都是利用語料庫訓練的，一些互聯(lián)網(wǎng)大廠利用電商、社交、搜索等業(yè)務收集和標注了海量的語料供自身訓練大模型使用，沒有語料積累的企業(yè)和研究機構雖然可以從網(wǎng)絡獲得語料，但自媒體內容質量良莠不分，未經清洗與標注就用作大模型的訓練語料其效果堪憂。

ChatGPT大模型訓練時使用了開源語料庫，但中文詞元（Token）占比不到0.1%，還不及一些小語種的比例，其中的原因與中文開源語料庫數(shù)量少和規(guī)模小有關。國內高校也有數(shù)億到數(shù)十億字的語料庫但尚未開源。

國內一些語言大模型直接采用國外開源語料庫訓練，在價值觀的把控上存在潛在風險，建議對面向公眾開放應用的對話類大模型需要做語料來源的評估。面向重要應用場景的大模型不宜強調訓練用數(shù)據(jù)免標注和無監(jiān)督學習，還是要采用經過清洗標注的數(shù)據(jù)集和保留人工微調，即有監(jiān)督學習環(huán)節(jié)。

行業(yè)大模型的訓練也面臨挑戰(zhàn)，專業(yè)數(shù)據(jù)沒有通用數(shù)據(jù)容易獲得，行業(yè)內的企業(yè)間往往不愿共享專業(yè)數(shù)據(jù)。為此有必要建立高質量國家級重要行業(yè)領域基礎知識庫、數(shù)據(jù)庫、資源庫等。

此外，要鼓勵社會數(shù)據(jù)要素的合理流動和利用。中共中央、國務院《關于構建數(shù)據(jù)基礎制度更好發(fā)揮數(shù)據(jù)要素作用的意見》提出，依法規(guī)范、共同參與、各取所需、共享紅利的發(fā)展模式，將合理降低市場主體獲取數(shù)據(jù)的門檻，增強數(shù)據(jù)要素共享性、普惠性，激勵創(chuàng)新創(chuàng)業(yè)創(chuàng)造。

大模型驅動數(shù)據(jù)范式創(chuàng)新

基礎大模型通常從通用語料訓練生成，通識能力強，從聊天對話入手容易反饋迭代優(yōu)化，但聊天難成剛需，落地行業(yè)應用將更顯大模型的價值，但基礎大模型缺乏行業(yè)專業(yè)知識，需要大模型提供方與垂直行業(yè)合作開發(fā)行業(yè)大模型：

一種模式是企業(yè)將數(shù)據(jù)交基礎大模型進行再訓練，待調優(yōu)至理想后再進行知識蒸餾、量化及針對特定場景遷移等縮小模型規(guī)模的工作，但后續(xù)模型微調和云邊端部署等仍需算法工程師支撐，企業(yè)技術力量不足還得依賴模型提供方，企業(yè)數(shù)據(jù)交到模型提供方有數(shù)據(jù)泄漏風險，但數(shù)據(jù)不全面則會導致訓練效果差。

另一種模式是企業(yè)具有算法工程師，按照特定業(yè)務場景以專有數(shù)據(jù)對基礎大模型進行微調，形成行業(yè)大模型或多個基于實際業(yè)務的小模型，最好是在預訓練階段就加入垂直行業(yè)企業(yè)的數(shù)據(jù)，預訓練和指令微調交錯進行，提高模型對行業(yè)知識的表達、理解、遷移和泛化能力。

一些強監(jiān)管、重數(shù)據(jù)安全的行業(yè)核心企業(yè)，例如頭部金融機構等，通常不會在第三方基礎大模型上構建專業(yè)大模型，而是采用數(shù)據(jù)私有化、模型私有化、本地私有云方式構建大模型，即在加密環(huán)境中使用私有數(shù)據(jù)訓練專業(yè)大模型，但需要面對成本與技術門檻高的挑戰(zhàn)。

總的來說，無論自建或合作開發(fā)行業(yè)大模型，數(shù)據(jù)安全都是前提，既掌握大模型訓練技術又熟悉行業(yè)專業(yè)知識的人才是關鍵。

中小企業(yè)因資金、技術和人才的限制，少有能力與基礎大模型提供方合作開發(fā)行業(yè)大模型，MaaS（模型即服務）應運而生，這是針對中小企業(yè)而提出的服務模式，MaaS部署在中小企業(yè)本地設備上或公有云上，以小切口嵌入PaaS與SaaS間，并提供調用基礎大模型的接口，可加入企業(yè)自身數(shù)據(jù)對模型精細化調整，從而將大模型能力嵌入到SaaS產品上，解決了傳統(tǒng)SaaS面臨的客戶定制化需求和標準化產品規(guī)�；g的難題。

基于MaaS通過大模型可優(yōu)選小程序及配套的低代碼開發(fā)和模型編排等工具，PaaS可據(jù)此搭建低代碼平臺，豐富工具軟件，實現(xiàn)數(shù)據(jù)和功能的定制化，以MaaS方式使中小企業(yè)上云的同時使用個性化的小模型，為數(shù)字化轉型提供智能解決方案。

當前大模型不僅是一種技術，它重塑了數(shù)據(jù)要素生態(tài)鏈，引領產業(yè)研究開發(fā)應用的范式變革，標志著信息化發(fā)展從網(wǎng)絡驅動到數(shù)據(jù)驅動。面對大模型浪潮，需要在國家戰(zhàn)略與規(guī)劃部署下，統(tǒng)籌推進政產學研用，引導“百模并發(fā)”形成合力，避免資源分散和低水平重復，實現(xiàn)數(shù)據(jù)采集匯聚、加工處理、流通交易、開發(fā)應用全鏈條協(xié)同。

數(shù)據(jù)助力社會治理信息化

習近平總書記指出，“隨著互聯(lián)網(wǎng)運用普及和大數(shù)據(jù)等技術快速發(fā)展，國家治理正逐步從線下向線下線上相結合轉變，從掌握少量‘樣本數(shù)據(jù)’向掌握海量‘全體數(shù)據(jù)’轉變，這為推動治理模式變革、提升國家治理現(xiàn)代化水平提供了有利條件”。

從網(wǎng)格化管理、精細化服務、信息化支撐的基層治理平臺，到一網(wǎng)統(tǒng)攬一網(wǎng)通辦的城市大腦，利用大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等信息化手段感知社會態(tài)勢、暢通溝通渠道、支持快速響應，推進政府決策科學化、社會治理精準化、公共服務高效化。特別是AIGC技術的應用，重構政府與民眾之間的互動過程，大模型能夠提升對現(xiàn)實生活中復雜大系統(tǒng)問題的處理能力，能夠精準防控社會發(fā)展中的風險，能夠有力維護政治穩(wěn)定和社會安全，進一步促進經濟發(fā)展和社會進步。

AI特別是生成式大模型技術是雙刃劍，其推理過程不透明，解答有自圓其說的成分，尤其使用了未經鑒別的語料訓練用于社會治理的大模型，可能會觸發(fā)對公眾的誤導，甚至引起價值觀的沖突。

AI技術也可能被濫用或惡意利用來制造虛假新聞，引發(fā)社會傳播風險，危害國家安全。我們既要用AI來輔助社會治理也要治理AI行為，但不能因AI的使用可能失控而限制對AI技術的研究與應用，AI技術需要在應用中反饋和迭代升級。

當前，國際貿易、科技合作、人員往來不可避免數(shù)據(jù)跨境流動，數(shù)據(jù)的社會治理也面臨對外開放的挑戰(zhàn)，解決之道是AI監(jiān)管制度體系建設與AI技術研究并重，發(fā)展與安全治理協(xié)同，使AI的監(jiān)管創(chuàng)新與技術發(fā)展相輔相成，以技術手段和治理規(guī)范兩手應對大模型的算法偏見和倫理道德失序，以法律法規(guī)防止各類數(shù)據(jù)安全事件發(fā)生和維護國家安全。

為此，首先需要按照《關于構建數(shù)據(jù)基礎制度更好發(fā)揮數(shù)據(jù)要素作用的意見》，盡快完善數(shù)據(jù)產權制度、數(shù)據(jù)要素流通和交易制度、數(shù)據(jù)要素收益分配制度、數(shù)據(jù)要素治理制度，為AI技術的發(fā)展與治理提供行為規(guī)范。

其次是重視數(shù)據(jù)監(jiān)管的技術創(chuàng)新，APN6（基于IPv6的應用感知網(wǎng)絡）和iFIT（基于IPv6的隨流檢測）可以標注IP流的屬性，包括數(shù)據(jù)類型和對IP流路徑溯源，有利于對跨境數(shù)據(jù)流動的管理，IPv6的多歸屬特性可以分流敏感數(shù)據(jù)。多方計算等技術可以在不同所有者的數(shù)據(jù)融合時做到數(shù)據(jù)可用不可見。

加快各類數(shù)據(jù)監(jiān)管和數(shù)據(jù)安全技術的研究已成當務之急，要為數(shù)據(jù)管理規(guī)范盡快填補技術支撐手段的不足或缺失。

加快數(shù)據(jù)基礎設施建設

大模型的數(shù)據(jù)訓練與推理都需要算力支撐，中國2022年算力總規(guī)模為180Eflops，低于2021年美國的200Eflops，其中智能算力2022年中國為41Eflops，不及2021年美國的65Eflpos，這反映了我國在大模型的數(shù)據(jù)訓練和推理算力上的差距。

算力的建設是市場行為，但國家統(tǒng)籌推進將優(yōu)化資源的利用和產業(yè)的合理布局。“東數(shù)西算”作為國家戰(zhàn)略部署具有中國特色，反映我國區(qū)域經濟、地理氣候特點和能源分布的格局，政府之手的作用在東西部數(shù)據(jù)資源配置與有效應用上不是可有可無的。西部不足之處是數(shù)據(jù)中心產業(yè)配套能力薄弱和人才短缺，需要同步規(guī)劃布局數(shù)據(jù)清洗標注、數(shù)據(jù)機房產品及服務業(yè)的培育發(fā)展，延伸產業(yè)鏈上下游，在做好承接東部的溫冷數(shù)據(jù)的存算的同時，還要帶動起當?shù)責釘?shù)據(jù)的上云服務，使西部的數(shù)據(jù)集群發(fā)展形成良性循環(huán)。

算力的布局需要處理好幾方面的關系：

一是通用算力與智能算力的合理比例，通用算力以CPU為主，適合處理政務、智慧城市和智能客服等數(shù)據(jù)/計算密集的事務性任務；智能算力以GPU為主，適合做大模型的訓練，注意到在數(shù)據(jù)訓練過程中還需要算法工程師介入和微調，智算中心適于在數(shù)據(jù)源集中和算法工程師聚集地建設，不宜全面開花，動用財政資金支持的大型智算中心的建設應慎重規(guī)劃。

二是自建算力與云原生算力，很多單位有自建算力的積極性，但麥肯錫報告顯示，商用和企業(yè)數(shù)據(jù)中心的服務器很少超過6%的利用率，通常高達30%的服務器帶電閑置。需要鼓勵中小企業(yè)從自購AI服務器搭建數(shù)據(jù)中心向采購云服務轉變，既降低成本又提高利用率，增強抗DDoS的能力及減碳；需要引導縣級地方政府使用省地集中建設的政務云代替獨立采購IT基礎設施。

三是存算比例，存力與算力需配合，內存與算力合理比例是GB/Gflops為1，避免因存力短缺造成算力等待而影響處理效率，據(jù)華為/羅蘭貝格報告，2020年美國為1:0.9，中國為1:2.4。

四是災備容量與主用數(shù)據(jù)中心存儲容量之比，數(shù)據(jù)中心需異地雙容災備份，關鍵數(shù)據(jù)實現(xiàn)本地雙活，2020年當年數(shù)據(jù)災備保護占數(shù)據(jù)中心存儲投資的比例全球平均為27.4%，而我國只有7.8%，需重視改進。

數(shù)據(jù)作為生產要素是經濟理論與實踐的創(chuàng)新。數(shù)據(jù)與土地、勞動力、資本等傳統(tǒng)生產要素不同，數(shù)據(jù)要素的開發(fā)與治理有很多需要深入研究的問題，例如數(shù)據(jù)的可復制性、使用無損性等導致數(shù)據(jù)產權和安全管理邊界難以界定。

黨中央決策部署組建國家數(shù)據(jù)局，負責協(xié)調推進數(shù)據(jù)基礎制度建設，統(tǒng)籌數(shù)據(jù)資源整合共享和開發(fā)利用，統(tǒng)籌推進數(shù)字中國、數(shù)字經濟、數(shù)字社會規(guī)劃和建設等，將有力促進數(shù)據(jù)要素技術創(chuàng)新、開發(fā)利用和有效治理，以數(shù)據(jù)強國支撐數(shù)字中國的建設。

版面編輯：瑟瑟｜責任編輯：瑟瑟

視覺：李盼東子

監(jiān)制：李俊虎潘潘

來源：國家數(shù)據(jù)局微信公眾號