劃重點(diǎn)
01螞蟻數(shù)科AI科技技術(shù)負(fù)責(zé)人李哲在2024發(fā)展論壇上強(qiáng)調(diào)高質(zhì)量數(shù)據(jù)將成為AI產(chǎn)業(yè)化的重要基礎(chǔ)。
02李哲將AI數(shù)據(jù)服務(wù)的發(fā)展分為三個(gè)階段:弱人工智能時(shí)代的數(shù)據(jù)閉環(huán)、生成式AI階段的高效數(shù)據(jù)標(biāo)注和多模態(tài)數(shù)據(jù)合成。
03以大語言模型為代表的生成式AI階段,螞蟻數(shù)科通過自動(dòng)化標(biāo)注能力形成覆蓋多領(lǐng)域的高效專業(yè)標(biāo)注體系。
04此外,螞蟻數(shù)科推出“DataFab”數(shù)據(jù)處理解決方案,實(shí)現(xiàn)數(shù)據(jù)的可信、可控流通,提升大模型訓(xùn)練效率。
05同時(shí),螞蟻數(shù)科在AI安全方面進(jìn)行探索,推出“蟻鑒”“天鑒”服務(wù),為大模型在行業(yè)應(yīng)用提供安全保障。
以上內(nèi)容由大模型生成,僅供參考
10月30日,在“AI紫竹 數(shù)智賦能”2024發(fā)展論壇上,螞蟻數(shù)科AI科技技術(shù)負(fù)責(zé)人、螞蟻天璣實(shí)驗(yàn)室主任李哲發(fā)表了主題演講,分享了螞蟻數(shù)科在人工智能(AI)數(shù)據(jù)服務(wù)方面的實(shí)踐經(jīng)驗(yàn),并闡述了高質(zhì)量數(shù)據(jù)在推動(dòng)AI產(chǎn)業(yè)化中的關(guān)鍵作用。
李哲指出,當(dāng)前AI行業(yè)快速發(fā)展,數(shù)據(jù)的重要性愈發(fā)突出。與算力和算法相比,AI在應(yīng)用落地中愈加依賴高質(zhì)量、特定行業(yè)的垂類數(shù)據(jù),特別是在解決細(xì)分場(chǎng)景的實(shí)際問題時(shí),更需依靠具有行業(yè)針對(duì)性和高精度的數(shù)據(jù)支撐。因此,李哲強(qiáng)調(diào),高質(zhì)量的數(shù)據(jù)服務(wù)將成為未來AI產(chǎn)業(yè)化的基礎(chǔ)。
李哲將AI數(shù)據(jù)服務(wù)的發(fā)展分為三個(gè)階段。在2014至2022年間的弱人工智能時(shí)代,數(shù)據(jù)服務(wù)的關(guān)鍵詞是“數(shù)據(jù)閉環(huán)”,即通過數(shù)據(jù)反饋和模型迭代來提升算法性能,如圖像識(shí)別中的人臉識(shí)別技術(shù)。李哲指出,螞蟻數(shù)科在這個(gè)階段致力于提升人臉識(shí)別的安全性,通過自動(dòng)化數(shù)據(jù)閉環(huán)系統(tǒng)不斷優(yōu)化算法,以應(yīng)對(duì)包括深度偽造視頻在內(nèi)的多種風(fēng)險(xiǎn),形成了一套高效的安全性測(cè)試流程。目前,這一系統(tǒng)已廣泛應(yīng)用于安卓手機(jī)的人臉識(shí)別安全測(cè)評(píng),為行業(yè)安全標(biāo)準(zhǔn)樹立了標(biāo)桿。
進(jìn)入2022至2023年,以大語言模型為代表的生成式AI帶來了第二階段的變革。此時(shí)的數(shù)據(jù)服務(wù)重點(diǎn)在于高效的數(shù)據(jù)標(biāo)注,以確保AI能夠通過大規(guī)模數(shù)據(jù)訓(xùn)練具備人類知識(shí)和理解能力。李哲介紹,螞蟻數(shù)科AI基礎(chǔ)數(shù)據(jù)服務(wù)標(biāo)注業(yè)務(wù),涵蓋醫(yī)療、出行、社交、金融等多個(gè)場(chǎng)景,結(jié)合自動(dòng)化標(biāo)注能力形成覆蓋多領(lǐng)域的高效專業(yè)標(biāo)注體系。
隨著AI技術(shù)邁向AGI(通用人工智能)時(shí)代,數(shù)據(jù)服務(wù)迎來了第三個(gè)階段,即多模態(tài)數(shù)據(jù)合成。李哲指出,未來的AI應(yīng)用需要大量稀缺且難以獲取的長(zhǎng)尾數(shù)據(jù),如自動(dòng)駕駛中的極端天氣數(shù)據(jù)和具身智能的數(shù)據(jù)。在此背景下,數(shù)據(jù)合成成為關(guān)鍵,螞蟻數(shù)科通過仿真技術(shù)和強(qiáng)化學(xué)習(xí)等方法,將生成的高質(zhì)量數(shù)據(jù)應(yīng)用于多模態(tài)模型的訓(xùn)練,進(jìn)一步提升AI的泛化能力和適應(yīng)性。
在具體的實(shí)踐中,螞蟻數(shù)科通過多個(gè)創(chuàng)新項(xiàng)目推動(dòng)AI數(shù)據(jù)服務(wù)的發(fā)展。在數(shù)據(jù)管理和流通方面,螞蟻數(shù)科推出了“DataFab”數(shù)據(jù)處理解決方案,實(shí)現(xiàn)了數(shù)據(jù)的可信、可控流通。李哲介紹,這一系統(tǒng)將螞蟻數(shù)科內(nèi)部各類數(shù)據(jù)資源整合,通過安全的流轉(zhuǎn)機(jī)制,使數(shù)據(jù)高效服務(wù)于不同業(yè)務(wù)場(chǎng)景。目前,DataFab已在螞蟻內(nèi)多個(gè)業(yè)務(wù)主體中應(yīng)用,支持千PB級(jí)數(shù)據(jù)處理,有效提升了大模型訓(xùn)練效率。
此外,李哲還展示了螞蟻數(shù)科在AI安全方面的探索。針對(duì)人臉識(shí)別安全,螞蟻天璣實(shí)驗(yàn)室聯(lián)合多個(gè)機(jī)構(gòu)推出國(guó)內(nèi)首個(gè)金融場(chǎng)景“AI 換臉”檢測(cè)標(biāo)準(zhǔn);針對(duì)大模型安全性測(cè)評(píng)與倫理道德問題,螞蟻數(shù)科推出了“蟻鑒”“天鑒”服務(wù),為大模型在行業(yè)應(yīng)用提供了全方位的安全保障。
李哲表示,螞蟻數(shù)科將繼續(xù)在AI數(shù)據(jù)服務(wù)和技術(shù)創(chuàng)新上深耕,與更多產(chǎn)業(yè)伙伴合作,共同推進(jìn)AI技術(shù)在多行業(yè)的應(yīng)用落地。
李仕靜/文