展會信息港展會大全

AI大模型“無米下鍋”?合成數(shù)據(jù)多重優(yōu)勢凸顯 硅谷巨頭正加速布局
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-05-21 19:09:00   瀏覽:5261次  

導(dǎo)讀:《科創(chuàng)板日報》5月20日訊(編輯 邱思雨) 5月19日,北京擬組織實施北京市通用人工智能產(chǎn)業(yè)創(chuàng)新伙伴計劃,謀劃建設(shè)國家級數(shù)據(jù)訓(xùn)練基地。 北京提出,在謀劃建設(shè)國家級數(shù)據(jù)訓(xùn)練基地的過程中,要開發(fā)涵蓋文本、圖像、視頻等多模態(tài)的高質(zhì)量數(shù)據(jù)集,助力國家級數(shù)據(jù)...

《科創(chuàng)板日報》5月20日訊(編輯 邱思雨)5月19日,北京擬組織實施“北京市通用人工智能產(chǎn)業(yè)創(chuàng)新伙伴計劃”,謀劃建設(shè)國家級數(shù)據(jù)訓(xùn)練基地。

北京提出,在謀劃建設(shè)國家級數(shù)據(jù)訓(xùn)練基地的過程中,要開發(fā)涵蓋文本、圖像、視頻等多模態(tài)的高質(zhì)量數(shù)據(jù)集,助力國家級數(shù)據(jù)訓(xùn)練基地建設(shè)。支持發(fā)展基于AIGC技術(shù)的合成數(shù)據(jù)新產(chǎn)業(yè)。

回溯到今年3月初,中國證監(jiān)會科技監(jiān)管局局長姚前曾在《中國金融》雜志撰文稱,建議重點發(fā)展基于AIGC技術(shù)的合成數(shù)據(jù)產(chǎn)業(yè)。以更高效率、更低成本、更高質(zhì)量為數(shù)據(jù)要素市場“增量擴容”,助力打造面向人工智能未來發(fā)展的數(shù)據(jù)優(yōu)勢。

被多次點名強調(diào)的合成數(shù)據(jù),究竟是何方神圣?

顧名思義,合成數(shù)據(jù)(synthetic data)是通過計算機技術(shù)人工生成的數(shù)據(jù),而不是由真實事件產(chǎn)生的數(shù)據(jù)。但合成數(shù)據(jù)具備“可用性”,能夠在數(shù)學(xué)上或統(tǒng)計學(xué)上反映原始數(shù)據(jù)的屬性,因此可以作為原始數(shù)據(jù)的替代品來訓(xùn)練、測試并驗證大模型。

在訓(xùn)練大模型的過程中,除了需要龐大的數(shù)據(jù)量以外,數(shù)據(jù)的質(zhì)量同樣至關(guān)重要。例如,ChatGPT的訓(xùn)練使用了45TB的數(shù)據(jù)、近1萬億個單詞。據(jù)姚前分析推測,ChatGPT等大模型的訓(xùn)練數(shù)據(jù)主要來自于維基百科、書籍、期刊、Reddit社交新聞?wù)军c等?傮w來看,數(shù)據(jù)來源嚴重依賴于現(xiàn)有的互聯(lián)網(wǎng)公開文本數(shù)據(jù)。

但互聯(lián)網(wǎng)文本數(shù)據(jù)有限,GPT-3的參數(shù)量已達到千億級別,如果下一代大模型的參數(shù)達到萬億級別以上的話,數(shù)據(jù)短缺問題恐成為訓(xùn)練的瓶頸。在此背景下,合成數(shù)據(jù)的重要性日益凸顯。

合成數(shù)據(jù):更高效率、更低成本、更高質(zhì)量

正如上文所述,“更高效率、更低成本、更高質(zhì)量”是目前合成數(shù)據(jù)的優(yōu)勢所在。市場調(diào)研機構(gòu)Gartner預(yù)測,到2024年,人工智能和數(shù)據(jù)分析項目中的數(shù)據(jù)預(yù)計有60%將來自合成數(shù)據(jù)。具體來看:

“更高效率”:合成數(shù)據(jù)能夠在相對較短的時間內(nèi)大量生成,且能夠精確地復(fù)制原始數(shù)據(jù)集的統(tǒng)計特征,但又與原始數(shù)據(jù)不存在任何關(guān)聯(lián),便于在更大范圍內(nèi)分享和使用;

“更低成本”:合成數(shù)據(jù)服務(wù)商AI.Reverie指出,人工標注一張圖片可能需要6美元,但人工合成的話只需要6美分;

“更高質(zhì)量”:合成數(shù)據(jù)能夠補充邊緣案例,可以通過深度學(xué)習(xí)算法合成原始數(shù)據(jù)中沒有的罕見樣本,保障了數(shù)據(jù)的多樣化。

除此以外,在AIGC時代,數(shù)據(jù)的隱私性、保密性、安全性等問題尤為重要。例如,醫(yī)療行業(yè)的數(shù)據(jù)通常會包括患者個人健康信息等;金融行業(yè)則涉及到歷史交易信息等敏感數(shù)據(jù)。

利用合成數(shù)據(jù)訓(xùn)練AI大模型則能夠有效規(guī)避用戶隱私問題。在上述案例中,通過合成數(shù)據(jù)集,醫(yī)療機構(gòu)能夠在不提供患者隱私信息的條件下訓(xùn)練相關(guān)模型完成藥物研發(fā)工作;金融機構(gòu)則能夠在不提供敏感的歷史交易信息前提下,通過合成數(shù)據(jù)集訓(xùn)練量化交易模型提升獲利能力,也可以用來訓(xùn)練客服機器人以改善服務(wù)體驗。

《麻省理工科技評論》(MIT Technology Review)將大模型合成數(shù)據(jù)列為2022年十大突破性技術(shù)之一,稱其有望解決人工智能領(lǐng)域的“數(shù)據(jù)鴻溝”問題。

先行應(yīng)用于計算機視覺 巨頭已爭相布局

具體到產(chǎn)業(yè)應(yīng)用層面,合成數(shù)據(jù)先行應(yīng)用于計算機視覺領(lǐng)域,例如自動駕駛、機器人、安防等應(yīng)用場景。這些場景下的AI大模型都需要大量圖像、視頻數(shù)據(jù)來訓(xùn)練,但獲取原始數(shù)據(jù)卻相對較難。

以自動駕駛領(lǐng)域為例,實際駕駛場景路況復(fù)雜、變量較多,且極端天氣下獲取真實路況數(shù)據(jù)可能存在困難或危險,因此難以完全依賴于真車現(xiàn)場數(shù)據(jù)。但是,通過合成數(shù)據(jù)集模擬各種駕駛場景,就能夠在保障人員和設(shè)備安全的條件下,提升自動駕駛能力。

目前,合成數(shù)據(jù)應(yīng)用正迅速向金融、醫(yī)療、零售、工業(yè)等諸多產(chǎn)業(yè)領(lǐng)域拓展。摩根大通于2021年9月提出通過合成數(shù)據(jù)來加快金融領(lǐng)域的AI研究和模型開發(fā),以解決欺詐檢測和反洗錢等問題,并改善服務(wù)體驗;美國運通也同樣正在嘗試創(chuàng)建合成數(shù)據(jù)來訓(xùn)練、優(yōu)化其用于欺詐檢測的AI模型。

微軟、谷歌、英偉達等硅谷巨頭均在加速布局合成數(shù)據(jù)領(lǐng)域的相關(guān)業(yè)務(wù)。

英偉達自動駕駛仿真平臺DRIVE Sim通過Replicator合成數(shù)據(jù)工具來縮小仿真數(shù)據(jù)與真實數(shù)據(jù)之間差異并提高場景泛化能力;

谷歌利用AI生成的醫(yī)療記錄來幫助預(yù)測保險詐騙;

微軟開發(fā)了可以生成合成和聚合數(shù)據(jù)集的開源工具Synthetic Data Showcase,并創(chuàng)建了合成人臉數(shù)據(jù)庫。

Meta于2021年11月收購了合成數(shù)據(jù)創(chuàng)業(yè)公司AI.Reverie。

國內(nèi)方面,據(jù)《科創(chuàng)板日報》不完全統(tǒng)計,A股上市公司中:

天風(fēng)證券、上海證券等多家機構(gòu)分析師一致認為,AIGC模型算法創(chuàng)建的合成數(shù)據(jù)功能將為新技術(shù)產(chǎn)業(yè)提供支撐,讓數(shù)據(jù)約束不再成為產(chǎn)業(yè)發(fā)展瓶頸。

(科創(chuàng)板日報 邱思雨)

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港