展會(huì)信息港展會(huì)大全

AI合成數(shù)據(jù)是趨勢,我們正在打造標(biāo)注大模型|專訪龍貓
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-09-12 10:38:35   瀏覽:9964次  

導(dǎo)讀:人工通過采集現(xiàn)實(shí)世界的圖像、視頻、文字等信息,清洗標(biāo)注后將數(shù)據(jù)轉(zhuǎn)化為代碼輸送給機(jī)器,機(jī)器人最終能具備智能意識,像人一樣理解語言背后的深意。 從事這份工作的人叫做數(shù)據(jù)標(biāo)注員,他們在做的事情,也是在給人工智能算法增加燃料。 隨著AIGC時(shí)代的到來,...

人工通過采集現(xiàn)實(shí)世界的圖像、視頻、文字等信息,清洗標(biāo)注后將數(shù)據(jù)轉(zhuǎn)化為代碼輸送給機(jī)器,機(jī)器人最終能具備智能意識,像人一樣理解語言背后的深意。

從事這份工作的人叫做數(shù)據(jù)標(biāo)注員,他們在做的事情,也是在給人工智能算法增加“燃料。”

隨著AIGC時(shí)代的到來,很多人對數(shù)據(jù)標(biāo)注員的工作產(chǎn)生了好奇,他們在做什么工作?現(xiàn)狀如何?行業(yè)存在哪些問題?未來有何發(fā)展前景?帶著這些問題,娛樂資本論視智未來專訪了龍貓副總裁胡邱飛。

龍貓成立于2014年,是一家AI數(shù)據(jù)及平臺(tái)服務(wù)商,累計(jì)服務(wù)了60余家主機(jī)廠和自動(dòng)駕駛公司,為客戶提供整體的數(shù)據(jù)解決方案。

---以下為采訪實(shí)錄---

關(guān)于公司業(yè)務(wù)

視智未來:你們是什么時(shí)候開始轉(zhuǎn)型做AI數(shù)據(jù)服務(wù)的?

龍貓副總裁胡邱飛(下同):

2016年,我們見證了國內(nèi)AI從計(jì)算機(jī)視覺、人臉識別檢測、手勢檢測到應(yīng)用場景的自動(dòng)駕駛、NLP相關(guān)的發(fā)展歷程。

公司主要是自動(dòng)駕駛和AIGC兩條業(yè)務(wù)線。做AIGC是因?yàn)槲磥硭歉蟮馁惖,市場預(yù)計(jì)到萬億級別,模型和產(chǎn)品都需要大量單模態(tài)到多模態(tài)的數(shù)據(jù)。

比如類3D的物體標(biāo)注,以前是拿全景攝像機(jī)還原室內(nèi)場景,現(xiàn)在是第一個(gè)人寫指令,AI能看著場景找東西。

視智未來:以后是不是可以不用實(shí)拍了,直接AI標(biāo)注AIGC內(nèi)容了?

有可能。但Prompt生成的內(nèi)容和三維世界相比缺少位置信息,攝像頭沒法測距。也有人在做這樣的事情,比如谷歌李飛飛的具身智能模擬器。這個(gè)適用場景是機(jī)器人,創(chuàng)業(yè)公司好融資。

視智未來:AIGC對你們的業(yè)務(wù)產(chǎn)生了什么影響?

今年AIGC爆火后,龍貓接到了很多圖文標(biāo)注、及圖視頻標(biāo)注需求的訂單,會(huì)有很多多模態(tài)應(yīng)用場景,比如車內(nèi)座艙的文娛軟件等。

視智未來:這種手勢多模態(tài)和車機(jī)識別怎么做交互?你們在其中起到什么作用?

我們給他整體提供一套數(shù)據(jù)解決方案,了解他的應(yīng)用場景,需要什么數(shù)據(jù)。有沒有基礎(chǔ)大模型,還是需要從零開始搭?多數(shù)應(yīng)用層客戶會(huì)先選一些基礎(chǔ)大模型評測。

視智未來:他們評測還是委托你們?

有的會(huì)委托我們,比如他列一些API,我們給他研究競品。

關(guān)于標(biāo)注員

視智未來:你覺得數(shù)據(jù)行業(yè)未來會(huì)發(fā)展成像美團(tuán)那樣三到四個(gè)不同的階梯,有些是交社保的,有些是交給服務(wù)站的,有些是眾包的人力模式嗎?

現(xiàn)在已經(jīng)是這個(gè)模式了。我們線上眾包是強(qiáng)管控,但最終交付結(jié)果是計(jì)件的。

視智未來:你們線上選人有什么標(biāo)準(zhǔn)呢?

員工加入工會(huì)后,有做用戶運(yùn)營的同學(xué)管理。我們更喜歡用沒有全職工作的群體,他們有生活壓力,更穩(wěn)定。

視智未來:你們自己研發(fā)了數(shù)據(jù)標(biāo)注平臺(tái)嗎?

對,我們有自己整套的數(shù)據(jù)管理標(biāo)注系統(tǒng)。

視智未來:加入AI技術(shù)后,你們和之前相比能節(jié)省多少人力?

自動(dòng)駕駛上節(jié)省了40%,AIGC在考慮引入GPT等大語言模型校準(zhǔn)標(biāo)注結(jié)果。作為機(jī)器和人的交叉驗(yàn)證,保證輸出的質(zhì)量。因?yàn)槿藭?huì)有波動(dòng),機(jī)器更加穩(wěn)定,偏差校

視智未來:你們現(xiàn)在眾包官方采集公會(huì)有多少人?

線上注冊用戶400多萬,活躍全職的1萬人左右。線上之外,我們在西南地區(qū)做了線下標(biāo)注基地,那邊高校多,學(xué)生素質(zhì)更高,員工500人左右。

視智未來:現(xiàn)在有AIGC后,對標(biāo)注員的素質(zhì)要求更高了嗎?

會(huì)。大模型會(huì)考察幾乎所有領(lǐng)域的通識類知識,AIGC要求標(biāo)注人員有對大模型的應(yīng)用和理解,標(biāo)注內(nèi)容要和客戶的模型價(jià)值盡量貼近,我們找的標(biāo)注人員學(xué)歷多數(shù)本科以上。

針對垂直領(lǐng)域,龍貓則會(huì)配備專業(yè)領(lǐng)域人員,比如為數(shù)學(xué)相關(guān)大模型招聘會(huì)高等數(shù)學(xué)的人,如果不是這專業(yè)的人,你根本看不出細(xì)節(jié)上的區(qū)別。

之前還接了互聯(lián)網(wǎng)問診的平臺(tái),要求三甲醫(yī)生出數(shù)據(jù),這數(shù)據(jù)標(biāo)注的價(jià)格很貴了。

視智未來:你們在探索怎么用AI生成訓(xùn)練素材嗎?

對,有很多公司會(huì)用大模型生成的內(nèi)容直接標(biāo)注,但是中文語料庫的理解方面一定是需要人工的。我們用GPT和人生生成的內(nèi)容進(jìn)行對比,發(fā)現(xiàn)答案的重合度只有60%左右。

視智未來:我理解是這個(gè)40%如果越大的話,說明你們的工作做得越好嗎?

可以,人工在標(biāo)注這件事情上價(jià)值會(huì)更明顯一些。

我們在嘗試通過AI技術(shù)省去標(biāo)注環(huán)節(jié),直接進(jìn)入到審核和質(zhì)檢環(huán)節(jié)。

視智未來:我能反向理解,如果客戶在你們這要求越高,就說明這家公司的AI技術(shù)越先進(jìn)。

可以這么說,但如果某家客戶和別人的需求差異很大,也可能是算法弱。

關(guān)于業(yè)務(wù)發(fā)展

視智未來:你們的技術(shù)壁壘是什么?

第一,我們一直在主動(dòng)沉淀,會(huì)形成所謂的壟斷。公司有一個(gè)打法是做系統(tǒng)集成,之后客戶再替換,隱性成本很高。第二是公司的氛圍很好,以產(chǎn)品為驅(qū)動(dòng),不像其他公司靠管理和人力密集。我們做項(xiàng)目要么賺錢,要么沉淀知識。在努力實(shí)現(xiàn)自動(dòng)標(biāo)注,而不是通過壓榨人力提升競爭力。

視智未來:你覺得數(shù)據(jù)公司以后競爭的點(diǎn)是什么?

數(shù)據(jù)公司要比客戶更理解他們的算法要什么數(shù)據(jù),會(huì)有不同垂類的巨頭公司出現(xiàn)。

我們在做產(chǎn)品的數(shù)據(jù)集復(fù)售。數(shù)據(jù)集分公域和私域的數(shù)據(jù)集。公域數(shù)據(jù)集數(shù)量多,但私域更重要。

視智未來:不少人覺得數(shù)據(jù)標(biāo)注門檻低,是鄉(xiāng)村扶貧工作。

這是特例,不是行業(yè)現(xiàn)象。

視智未來:你們以后會(huì)做自己的大模型嗎?

正在做,大模型一是做輔助標(biāo)注,讀懂題目后給答案讓人眩第二是做全自動(dòng)標(biāo)注,AI直接出結(jié)果。這種情況我們會(huì)做雙盲的實(shí)驗(yàn),比如一個(gè)答案用三個(gè)標(biāo)準(zhǔn)做一遍,里面我們會(huì)拆一個(gè)一個(gè)人或者兩個(gè)人用這種形式做,這樣不需要再做抽檢和質(zhì)檢,有些項(xiàng)目我們已經(jīng)用GPT交付了,準(zhǔn)確率方面達(dá)到了80%多,與人工接近。

關(guān)于數(shù)據(jù)采集

視智未來:數(shù)據(jù)采集上你們有新動(dòng)作嗎?

國外出現(xiàn)的一種趨勢是用戶主動(dòng)售賣自己的數(shù)據(jù),讓數(shù)據(jù)公司得以繞開原始數(shù)據(jù)的廠商壟斷的局面。我們也在想,怎么讓那些有時(shí)間、素質(zhì)又高的人做數(shù)據(jù)輸出和標(biāo)注,比如說通過做題的方式,讓他們在小程序上答題賺錢。

產(chǎn)品設(shè)計(jì)上需要想想人性的問題,有人又想掙錢又想舒服,這樣的人員畫像和我們現(xiàn)在人員畫像有一個(gè)沖突。我們現(xiàn)在的畫像是寧可下沉,有全職時(shí)間,產(chǎn)品設(shè)計(jì)上需要想想人性的問題,有人又想掙錢又想舒服,這樣的人員畫像和我們現(xiàn)在人員畫像有一個(gè)沖突。我們現(xiàn)在的畫像是寧可下沉,有全職時(shí)間,要不然就是大學(xué)生,他們時(shí)間充沛,更好管理,也更穩(wěn)定。宣傳渠道上,龍貓基本靠口口相傳,吸引的人群類似,很少做公域推廣,否則群體不搭。產(chǎn)品要考慮怎么既保證質(zhì)量,又有爽感。到宣傳渠道,龍貓基本靠口口相傳,吸引的人群類似,很少做公域推廣,否則群體不搭。產(chǎn)品要考慮怎么既保證質(zhì)量,又有爽感。

視智未來:于數(shù)據(jù)公司而言,以后用AI做數(shù)據(jù)合成是不是很重要?

對,這種高質(zhì)量的數(shù)據(jù)集已經(jīng)不太夠了,怎么獲。恳皇侵苯诱矣脩粜畔,但很少有用戶愿意共享數(shù)據(jù)。但現(xiàn)在可以做數(shù)據(jù)的擬合,類似抄寫數(shù)據(jù),一樣能達(dá)到可用的標(biāo)準(zhǔn)。AI 合成、改寫部分可以洗掉它類似的標(biāo)和專有信息,生成通用內(nèi)容。

成本方面,最好是現(xiàn)有甲方需求給到我們,再去做原始數(shù)據(jù)的融合,第一次賣出就可以賺回成本錢。也有很多有數(shù)據(jù)的甲方在自己做數(shù)據(jù)集,比如百度、京東。

視智未來:自動(dòng)化做標(biāo)注和數(shù)據(jù)集,你們擔(dān)不擔(dān)心那種混合擬合的問題,質(zhì)檢會(huì)很難。

強(qiáng)化學(xué)習(xí)上,你要給他做獎(jiǎng)勵(lì)模型,重新糾偏。其次也要看整體比例,GPT整體數(shù)據(jù)集幾十個(gè)TB,合成數(shù)據(jù)的指標(biāo)才不到10%。

做數(shù)據(jù)公司持續(xù)的壁壘,一個(gè)是的數(shù)據(jù)集合成能力,第二是給大模型做人的強(qiáng)化學(xué)習(xí)。我們也在想怎么通過小程序沉淀用戶數(shù)據(jù)。

視智未來:版權(quán)能確定嗎?

生成式AI上最新的管理意思是,你的5張照片是你的,但我拿來合成照片之后版權(quán)就是我的了。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港