欧洲成品大片在线播放,精品无码久久久久成人漫画

AI大模型“無米下鍋”？合成數(shù)據(jù)多重優(yōu)勢凸顯硅谷巨頭正加速布局

來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-05-21 19:09:00 瀏覽：5261次

導(dǎo)讀：《科創(chuàng)板日報》5月20日訊（編輯邱思雨） 5月19日，北京擬組織實施北京市通用人工智能產(chǎn)業(yè)創(chuàng)新伙伴計劃，謀劃建設(shè)國家級數(shù)據(jù)訓(xùn)練基地。北京提出，在謀劃建設(shè)國家級數(shù)據(jù)訓(xùn)練基地的過程中，要開發(fā)涵蓋文本、圖像、視頻等多模態(tài)的高質(zhì)量數(shù)據(jù)集，助力國家級數(shù)據(jù)...

《科創(chuàng)板日報》5月20日訊（編輯邱思雨）5月19日，北京擬組織實施“北京市通用人工智能產(chǎn)業(yè)創(chuàng)新伙伴計劃”，謀劃建設(shè)國家級數(shù)據(jù)訓(xùn)練基地。

北京提出，在謀劃建設(shè)國家級數(shù)據(jù)訓(xùn)練基地的過程中，要開發(fā)涵蓋文本、圖像、視頻等多模態(tài)的高質(zhì)量數(shù)據(jù)集，助力國家級數(shù)據(jù)訓(xùn)練基地建設(shè)。支持發(fā)展基于AIGC技術(shù)的合成數(shù)據(jù)新產(chǎn)業(yè)。

回溯到今年3月初，中國證監(jiān)會科技監(jiān)管局局長姚前曾在《中國金融》雜志撰文稱，建議重點發(fā)展基于AIGC技術(shù)的合成數(shù)據(jù)產(chǎn)業(yè)。以更高效率、更低成本、更高質(zhì)量為數(shù)據(jù)要素市場“增量擴容”，助力打造面向人工智能未來發(fā)展的數(shù)據(jù)優(yōu)勢。

被多次點名強調(diào)的合成數(shù)據(jù)，究竟是何方神圣？

顧名思義，合成數(shù)據(jù)（synthetic data）是通過計算機技術(shù)人工生成的數(shù)據(jù)，而不是由真實事件產(chǎn)生的數(shù)據(jù)。但合成數(shù)據(jù)具備“可用性”，能夠在數(shù)學(xué)上或統(tǒng)計學(xué)上反映原始數(shù)據(jù)的屬性，因此可以作為原始數(shù)據(jù)的替代品來訓(xùn)練、測試并驗證大模型。

在訓(xùn)練大模型的過程中，除了需要龐大的數(shù)據(jù)量以外，數(shù)據(jù)的質(zhì)量同樣至關(guān)重要。例如，ChatGPT的訓(xùn)練使用了45TB的數(shù)據(jù)、近1萬億個單詞。據(jù)姚前分析推測，ChatGPT等大模型的訓(xùn)練數(shù)據(jù)主要來自于維基百科、書籍、期刊、Reddit社交新聞?wù)军c等�？傮w來看，數(shù)據(jù)來源嚴重依賴于現(xiàn)有的互聯(lián)網(wǎng)公開文本數(shù)據(jù)。

但互聯(lián)網(wǎng)文本數(shù)據(jù)有限，GPT-3的參數(shù)量已達到千億級別，如果下一代大模型的參數(shù)達到萬億級別以上的話，數(shù)據(jù)短缺問題恐成為訓(xùn)練的瓶頸。在此背景下，合成數(shù)據(jù)的重要性日益凸顯。

合成數(shù)據(jù)：更高效率、更低成本、更高質(zhì)量

正如上文所述，“更高效率、更低成本、更高質(zhì)量”是目前合成數(shù)據(jù)的優(yōu)勢所在。市場調(diào)研機構(gòu)Gartner預(yù)測，到2024年，人工智能和數(shù)據(jù)分析項目中的數(shù)據(jù)預(yù)計有60%將來自合成數(shù)據(jù)。具體來看：

“更高效率”：合成數(shù)據(jù)能夠在相對較短的時間內(nèi)大量生成，且能夠精確地復(fù)制原始數(shù)據(jù)集的統(tǒng)計特征，但又與原始數(shù)據(jù)不存在任何關(guān)聯(lián)，便于在更大范圍內(nèi)分享和使用；

“更低成本”：合成數(shù)據(jù)服務(wù)商AI.Reverie指出，人工標注一張圖片可能需要6美元，但人工合成的話只需要6美分；

“更高質(zhì)量”：合成數(shù)據(jù)能夠補充邊緣案例，可以通過深度學(xué)習(xí)算法合成原始數(shù)據(jù)中沒有的罕見樣本，保障了數(shù)據(jù)的多樣化。

除此以外，在AIGC時代，數(shù)據(jù)的隱私性、保密性、安全性等問題尤為重要。例如，醫(yī)療行業(yè)的數(shù)據(jù)通常會包括患者個人健康信息等；金融行業(yè)則涉及到歷史交易信息等敏感數(shù)據(jù)。

利用合成數(shù)據(jù)訓(xùn)練AI大模型則能夠有效規(guī)避用戶隱私問題。在上述案例中，通過合成數(shù)據(jù)集，醫(yī)療機構(gòu)能夠在不提供患者隱私信息的條件下訓(xùn)練相關(guān)模型完成藥物研發(fā)工作；金融機構(gòu)則能夠在不提供敏感的歷史交易信息前提下，通過合成數(shù)據(jù)集訓(xùn)練量化交易模型提升獲利能力，也可以用來訓(xùn)練客服機器人以改善服務(wù)體驗。

《麻省理工科技評論》（MIT Technology Review）將大模型合成數(shù)據(jù)列為2022年十大突破性技術(shù)之一，稱其有望解決人工智能領(lǐng)域的“數(shù)據(jù)鴻溝”問題。

先行應(yīng)用于計算機視覺巨頭已爭相布局

具體到產(chǎn)業(yè)應(yīng)用層面，合成數(shù)據(jù)先行應(yīng)用于計算機視覺領(lǐng)域，例如自動駕駛、機器人、安防等應(yīng)用場景。這些場景下的AI大模型都需要大量圖像、視頻數(shù)據(jù)來訓(xùn)練，但獲取原始數(shù)據(jù)卻相對較難。

以自動駕駛領(lǐng)域為例，實際駕駛場景路況復(fù)雜、變量較多，且極端天氣下獲取真實路況數(shù)據(jù)可能存在困難或危險，因此難以完全依賴于真車現(xiàn)場數(shù)據(jù)。但是，通過合成數(shù)據(jù)集模擬各種駕駛場景，就能夠在保障人員和設(shè)備安全的條件下，提升自動駕駛能力。

目前，合成數(shù)據(jù)應(yīng)用正迅速向金融、醫(yī)療、零售、工業(yè)等諸多產(chǎn)業(yè)領(lǐng)域拓展。摩根大通于2021年9月提出通過合成數(shù)據(jù)來加快金融領(lǐng)域的AI研究和模型開發(fā)，以解決欺詐檢測和反洗錢等問題，并改善服務(wù)體驗；美國運通也同樣正在嘗試創(chuàng)建合成數(shù)據(jù)來訓(xùn)練、優(yōu)化其用于欺詐檢測的AI模型。

微軟、谷歌、英偉達等硅谷巨頭均在加速布局合成數(shù)據(jù)領(lǐng)域的相關(guān)業(yè)務(wù)。

英偉達自動駕駛仿真平臺DRIVE Sim通過Replicator合成數(shù)據(jù)工具來縮小仿真數(shù)據(jù)與真實數(shù)據(jù)之間差異并提高場景泛化能力；

谷歌利用AI生成的醫(yī)療記錄來幫助預(yù)測保險詐騙；

微軟開發(fā)了可以生成合成和聚合數(shù)據(jù)集的開源工具Synthetic Data Showcase，并創(chuàng)建了合成人臉數(shù)據(jù)庫。

Meta于2021年11月收購了合成數(shù)據(jù)創(chuàng)業(yè)公司AI.Reverie。

國內(nèi)方面，據(jù)《科創(chuàng)板日報》不完全統(tǒng)計，A股上市公司中：

天風(fēng)證券、上海證券等多家機構(gòu)分析師一致認為，AIGC模型算法創(chuàng)建的合成數(shù)據(jù)功能將為新技術(shù)產(chǎn)業(yè)提供支撐，讓數(shù)據(jù)約束不再成為產(chǎn)業(yè)發(fā)展瓶頸。

（科創(chuàng)板日報邱思雨）

AI大模型“無米下鍋”？合成數(shù)據(jù)多重優(yōu)勢凸顯硅谷巨頭正加速布局
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-05-21 19:09:00 瀏覽：5261次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

AI大模型“無米下鍋”？合成數(shù)據(jù)多重優(yōu)勢凸顯 硅谷巨頭正加速布局 來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-05-21 19:09:00 瀏覽：5261次