展會(huì)信息港展會(huì)大全

大廠高薪“挖人”,大模型熱下的“AI民工”之變
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-06-13 21:24:07   瀏覽:8562次  

導(dǎo)讀:你聽過AI數(shù)據(jù)標(biāo)注師嗎? 幾年前,寶媽群體扛起數(shù)據(jù)標(biāo)注的大旗,僅需基礎(chǔ)的電腦操作能力和足夠的細(xì)心耐心,識(shí)別文本、拉個(gè)框便可勝任,被稱為人工智能末梢的流水線民工;而如今,大模型熱下的后半場,這一業(yè)態(tài)吸引來無數(shù)青年群體,他們憑借專業(yè)的知識(shí)儲(chǔ)備和個(gè)...

你聽過AI數(shù)據(jù)標(biāo)注師嗎?

幾年前,寶媽群體扛起數(shù)據(jù)標(biāo)注的大旗,僅需基礎(chǔ)的電腦操作能力和足夠的細(xì)心耐心,識(shí)別文本、拉個(gè)框便可勝任,被稱為人工智能末梢的“流水線民工”;而如今,大模型熱下的后半場,這一業(yè)態(tài)吸引來無數(shù)青年群體,他們憑借專業(yè)的知識(shí)儲(chǔ)備和個(gè)人理解,不僅要給機(jī)器“挑錯(cuò)”,還要教對(duì)方“調(diào)優(yōu)”,做起了AI的首個(gè)“啟蒙師”。

求職者之變,源于市場需求之變。對(duì)AI數(shù)據(jù)標(biāo)注這一新業(yè)態(tài),北京商報(bào)記者注意到,有公司花費(fèi)超十億的高價(jià)投入,也有公司打出自建自管的“持久戰(zhàn)”,還有公司僅在一年中就發(fā)展出上千人的規(guī)模。

其中,不乏螞蟻、百度、字節(jié)、美團(tuán)等大廠高價(jià)“挖人”,相較傳統(tǒng)的數(shù)據(jù)標(biāo)注,他們更青睞有專業(yè)和經(jīng)驗(yàn)多重“buff加身”的復(fù)合型人才,由此,一場從流水線民工到標(biāo)注領(lǐng)域?qū)<业穆殬I(yè)巨變,正悄然鋪開……

大廠高價(jià)“挖人”,有人月薪高至5萬元

盡管出身法律專業(yè),但楊威(化名)決心進(jìn)入數(shù)據(jù)標(biāo)注行業(yè)。

和其他“00后”一樣,作出決策前她沒有過多猶豫,吸引她的點(diǎn)是覺得這個(gè)新職業(yè)比較“酷”。

“給機(jī)器人打工,接觸科技前沿,這潑天的富貴終于輪到了我頭上!”揣著對(duì)人工智能的好奇心,楊威在一家法律數(shù)據(jù)公司的駐外項(xiàng)目組獲得了一份“數(shù)據(jù)標(biāo)注師”的實(shí)習(xí)工作,目前,她所在的公司已經(jīng)具備為客戶提供合同大模型服務(wù)的能力,而她所承擔(dān)的數(shù)據(jù)標(biāo)注,則是對(duì)合同中需要提取審查的要素進(jìn)行框選,進(jìn)而讓大模型更具學(xué)習(xí)能力。

就像教孩子蹣跚學(xué)步,大模型的每一次進(jìn)步,都有數(shù)據(jù)標(biāo)注師的引導(dǎo)。楊威稱,她每天都會(huì)在掃描好的合同上框出數(shù)據(jù)“鍵值key”對(duì)應(yīng)的“屬性值value”,如合同中的雙方當(dāng)事人、簽約時(shí)間地點(diǎn)、合同金額、驗(yàn)收條款、違約責(zé)任等,一份合同大概有30-60個(gè)key與value對(duì)應(yīng)。

在建立這樣的連接和人工標(biāo)注后,機(jī)器學(xué)習(xí)時(shí)就能知道合同里當(dāng)事人在什么位置、保險(xiǎn)條款如何體現(xiàn)、違約責(zé)任在合同里是否有,進(jìn)而發(fā)揮合同大模型的作用協(xié)助更高效的合同審查。

“事少錢還多,有趣又有價(jià)值”是楊威對(duì)這一職業(yè)的評(píng)價(jià)。雖然文科出身,但能接觸到前沿科技,還能實(shí)現(xiàn)財(cái)富積累和個(gè)人價(jià)值,何樂而不為?

是否“事少”未可知,不過“錢多”已有多方佐證。北京商報(bào)記者從多位受訪者處了解到,從事普通的初級(jí)AI數(shù)據(jù)標(biāo)注員,一般月薪在數(shù)千元至萬元不等,但大多數(shù)人將目標(biāo)瞄準(zhǔn)的是高級(jí)AI數(shù)據(jù)標(biāo)注師甚至專家,月薪一般都會(huì)過萬元,高者甚至達(dá)到5萬元。

此點(diǎn)從公開招聘來看同樣有所體現(xiàn)。北京商報(bào)記者注意到,有招聘網(wǎng)站設(shè)置了AI數(shù)據(jù)標(biāo)注師招聘專場,新增職位1476個(gè)。其中,包括百度、字節(jié)、美團(tuán)等大廠,均在AI數(shù)據(jù)標(biāo)注市場花高價(jià)“挖人”,月薪多數(shù)在1.5萬元上下,專家級(jí)別能給到5萬元甚至更高。

從在招的多個(gè)崗位來看,“有相關(guān)工作經(jīng)驗(yàn)、有項(xiàng)目管理能力”是基本要求,一些高級(jí)AI數(shù)據(jù)標(biāo)注專家職位,除了數(shù)據(jù)處理、特征提娶模型訓(xùn)練外,還需負(fù)責(zé)深入研究AI數(shù)據(jù)科學(xué)領(lǐng)域、主流AI框架等,結(jié)合公司的業(yè)務(wù)場景,評(píng)估引入新技術(shù)并應(yīng)用落地。

有意思的是,和楊威有著相似想法的“00后”還有很多。北京商報(bào)記者采訪了解到,或出于對(duì)人工智能的興趣,或出于不錯(cuò)的薪資水平,如今,許多正在求職中的畢業(yè)生、拓展新職業(yè)可能的年輕人,均將眼光投向了AI數(shù)據(jù)標(biāo)注,為金融業(yè)、無人駕駛、智能客服、新零售等人工智能場景提供數(shù)據(jù)支撐。

對(duì)此,螞蟻集團(tuán)數(shù)字天螞總經(jīng)理徐怡悅同樣向北京商報(bào)記者透露,招聘過程中確實(shí)發(fā)現(xiàn)有不少大學(xué)生逆流回歸的現(xiàn)象,不少大模型標(biāo)注師中,越來越多大學(xué)生更愿意回到家鄉(xiāng)承接這類工作,她介紹,“這個(gè)職業(yè)更看重能力和經(jīng)驗(yàn),不局限于個(gè)人位置和場地,對(duì)標(biāo)大城市來看還能拿到較高工資收入,確實(shí)能吸引不少年輕人群體”。

市場偏見仍存,高學(xué)歷人才看不起流水線

求職者的選擇,離不開市場需求的擴(kuò)大與產(chǎn)業(yè)的漸漸成熟。隨著人工智能的蓬勃發(fā)展,龐大的數(shù)據(jù)標(biāo)注需求,推動(dòng)著我國數(shù)據(jù)標(biāo)注產(chǎn)業(yè)市場的快速增長。數(shù)據(jù)標(biāo)注企業(yè)不斷涌現(xiàn)并相繼落地三、四線城市。

不過,對(duì)于AI數(shù)據(jù)標(biāo)注師這一新業(yè)態(tài),有人向往,也有人不屑一顧。不同于楊威的新奇,來自某211高校計(jì)算機(jī)專業(yè)的王林(化名)坦言,畫框、分類、評(píng)級(jí),這樣“機(jī)械”的數(shù)據(jù)標(biāo)注工作似乎并沒有什么門檻,也不會(huì)進(jìn)入人工智能、計(jì)算機(jī)、深度學(xué)習(xí)專業(yè)學(xué)生的求職意向單中。

這樣的情況并不少見,在北京商報(bào)記者的多個(gè)采訪對(duì)話中,不少人也發(fā)出疑問,數(shù)據(jù)標(biāo)注不就是打打標(biāo)、畫個(gè)框?難道還有什么特別高的要求嗎?

殊不知,王林口中所稱的機(jī)械式工作,僅僅是數(shù)據(jù)標(biāo)注業(yè)態(tài)的“過去式”。北京商報(bào)記者了解到,傳統(tǒng)的數(shù)據(jù)標(biāo)注工作,主要以“打點(diǎn)”和“畫框”為主,執(zhí)行的是已成客觀事實(shí)的標(biāo)注行為,是什么就是什么,需嚴(yán)格按照既定的標(biāo)注規(guī)范進(jìn)行。

也正因此,曾經(jīng)的數(shù)據(jù)標(biāo)注被稱為AI領(lǐng)域的流水線“民工”,有電腦就能做,人群主要為低學(xué)歷及兼職人群,月薪為數(shù)千元。

而現(xiàn)在市場熱招的大模型標(biāo)注師,不再是計(jì)件式、簡單化,更像在做閱讀理解。由此,對(duì)于人才的需求也更偏向復(fù)合型,需要更為綜合的專業(yè)能力和表達(dá)能力。

作為人工智能算法的“燃料”,數(shù)據(jù)是人工智能實(shí)現(xiàn)應(yīng)用落地的必備要素。大多數(shù)未加工的原始數(shù)據(jù)需經(jīng)過專業(yè)的標(biāo)注和處理,才能被有效轉(zhuǎn)化為有價(jià)值的信息。事實(shí)上,從更狹義的角度來看,數(shù)據(jù)標(biāo)注師的工作不僅僅是簡單的分類或標(biāo)記,而涉及到對(duì)原始數(shù)據(jù)進(jìn)行深入理解,然后以一種機(jī)器可以識(shí)別和學(xué)習(xí)的方式進(jìn)行標(biāo)注。這個(gè)過程對(duì)于訓(xùn)練機(jī)器學(xué)習(xí)模型來說至關(guān)重要,因?yàn)楦哔|(zhì)量地標(biāo)注數(shù)據(jù)可以顯著提高模型的準(zhǔn)確性和效率。

但正如王林的表態(tài),即使清楚數(shù)據(jù)標(biāo)注對(duì)大模型優(yōu)化的意義,總還是認(rèn)為“這一崗位與算法工程師、大模型架構(gòu)師相比沒那么高端”。“我們?cè)谡衅高^程中,確實(shí)會(huì)遇到不少對(duì)數(shù)據(jù)標(biāo)注師的成見,想要吸引復(fù)合型人才比較難。”徐怡悅向北京商報(bào)記者坦言,“一方面,不少人群對(duì)數(shù)據(jù)標(biāo)注崗位的認(rèn)知還沒有轉(zhuǎn)變;另外,我們更需要行業(yè)專家,如具有多年從業(yè)經(jīng)驗(yàn)的律師、主任醫(yī)師,但這些人才本身在自己的領(lǐng)域就十分優(yōu)秀了,要想把他們挖掘過來幫助我們做標(biāo)注非常難。”

為了打破成見,將社會(huì)標(biāo)簽從“工廠流水線”轉(zhuǎn)型“標(biāo)注專家”,是企業(yè)側(cè)吸引復(fù)合型高學(xué)歷人才的一大手段。在螞蟻,數(shù)據(jù)標(biāo)注師或許更應(yīng)該被稱作AI訓(xùn)練師。他們深度參與大模型標(biāo)注的全生命周期,包括模型訓(xùn)練階段的數(shù)據(jù)準(zhǔn)備、強(qiáng)化訓(xùn)練以及特定領(lǐng)域的微調(diào),模型上線之后的能力評(píng)估、對(duì)客安全管控等工作。

北京商報(bào)記者從知情人士處了解到,不少大廠招聘的大模型標(biāo)注人員,本科學(xué)歷比例達(dá)到六成以上,還有的已達(dá)到100%,甚至很多專業(yè)領(lǐng)域的標(biāo)注人員都是碩士或博士學(xué)歷。要求提高,自然“地位”提高。他們的身份就不再是“流水線”標(biāo)注員,而是“領(lǐng)域標(biāo)注專家”甚至是“解決方案架構(gòu)師”。

隨著醫(yī)療、金融、法律等專業(yè)領(lǐng)域大模型的開發(fā)應(yīng)用,如今行業(yè)對(duì)數(shù)據(jù)標(biāo)注的專業(yè)性也有了更高的要求。中國信息通信研究院人工智能研究所高級(jí)工程師李蓀指出,未來大模型向行業(yè)領(lǐng)域深耕落地,對(duì)行業(yè)的數(shù)據(jù)和知識(shí)需求會(huì)更多,因此對(duì)數(shù)據(jù)標(biāo)注人才的專業(yè)知識(shí)和技能要求會(huì)更高、更強(qiáng)。此外根據(jù)不同專業(yè)領(lǐng)域的需求,數(shù)據(jù)標(biāo)注服務(wù)定制化需求更多、安全合規(guī)也會(huì)更嚴(yán),企業(yè)端對(duì)人才培養(yǎng)體系和產(chǎn)業(yè)運(yùn)作模式需要更加的創(chuàng)新,以適應(yīng)新質(zhì)生產(chǎn)力對(duì)生產(chǎn)關(guān)系的需求。

“不過,在這個(gè)過程中也會(huì)出現(xiàn)很多風(fēng)險(xiǎn),應(yīng)該重點(diǎn)注意、加強(qiáng)防范,例如數(shù)據(jù)隱私泄露、數(shù)據(jù)倫理安全、數(shù)據(jù)投毒檢測、數(shù)據(jù)合規(guī)審計(jì)和數(shù)據(jù)質(zhì)量控制等。”李蓀強(qiáng)調(diào)。

十億級(jí)投入,新用工模式受追捧

懂算法更懂專業(yè)知識(shí)、能操作細(xì)節(jié)也能產(chǎn)出方案,這樣的“復(fù)合型人才”,成為一個(gè)合格數(shù)據(jù)標(biāo)注師的培養(yǎng)方向。

從“流水線民工”進(jìn)化至行業(yè)專家,對(duì)于數(shù)據(jù)標(biāo)注行業(yè)的轉(zhuǎn)變,螞蟻集團(tuán)智能標(biāo)注專項(xiàng)負(fù)責(zé)人林城深有所感。“數(shù)據(jù)提質(zhì)和強(qiáng)化訓(xùn)練階段將直接影響大模型的訓(xùn)練效果,同時(shí),準(zhǔn)確的效果評(píng)測和防御能力的建設(shè)可以引導(dǎo)大模型持續(xù)優(yōu)化合規(guī)應(yīng)用。”林城說道,因此,不管是將標(biāo)注人員所掌握的一些知識(shí)轉(zhuǎn)化成數(shù)據(jù)提供給大模型訓(xùn)練,還是對(duì)大模型的評(píng)測、校準(zhǔn),都需要行業(yè)專家才能產(chǎn)出。

以金融管家為例,大模型回答諸如金融保險(xiǎn)的分類、資產(chǎn)如何配置等話題,所需知識(shí)在網(wǎng)絡(luò)中都不是結(jié)構(gòu)化的,沒有成文的東西可“喂養(yǎng)”。這時(shí),AI訓(xùn)練師就可以通過自有知識(shí)的轉(zhuǎn)化,使大模型學(xué)習(xí)更多。

但“缺人”仍是目前眾多大模型研發(fā)大廠最棘手的痛點(diǎn)。

企業(yè)也在嘗試新的應(yīng)對(duì)之策,例如有大廠正在探索基于大模型的新用工模式,對(duì)崗位位置和場地不設(shè)限制,更多要求的是個(gè)人的經(jīng)驗(yàn)和能力。

同時(shí),也在嘗試跑通“更高端的眾包模式”,增強(qiáng)用人靈活性。例如,在職律師以兼職的方式參與數(shù)據(jù)標(biāo)注的指導(dǎo)工作,既能獲取額外收入,也能保證較高的產(chǎn)出。

在復(fù)合型人才緊缺的情況下,自建自管自主培養(yǎng)的模式也成為不少公司的選擇。北京商報(bào)記者了解到,百度、字節(jié)等公司均在自建數(shù)據(jù)標(biāo)注團(tuán)隊(duì)。有知情人士表示,大廠對(duì)AI數(shù)據(jù)標(biāo)注給予了極高的重視,有公司在該領(lǐng)域的投入高達(dá)上億甚至十億級(jí)別。另有公開信息顯示,百度目前已與各地政府合作共建了十多個(gè)數(shù)據(jù)標(biāo)注基地,提供給上萬個(gè)就業(yè)崗位。

“將所有的大模型訓(xùn)練資源集中在一個(gè)地方,統(tǒng)一規(guī);芾恚瑥亩⻊(wù)上游的各個(gè)大模型基座訓(xùn)練應(yīng)用,一方面方便各個(gè)項(xiàng)目之間的資源協(xié)調(diào),另一方面也有利于將數(shù)據(jù)標(biāo)注方法論沉淀、復(fù)用,形成大模型全體系提質(zhì)增效。”林城評(píng)價(jià)。

“數(shù)據(jù)標(biāo)注這個(gè)業(yè)態(tài)一直存在,人工智能的發(fā)展,對(duì)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)的形成和培育起到了非常重要的作用。”李蓀總結(jié)到,在發(fā)展過程中,當(dāng)前數(shù)據(jù)標(biāo)注產(chǎn)業(yè)已包括眾包模式、專業(yè)數(shù)據(jù)服務(wù)模式、自建團(tuán)隊(duì)+外包團(tuán)隊(duì)服務(wù)模式、第三方專業(yè)服務(wù)等新業(yè)態(tài)新模式。從人員結(jié)構(gòu)上來看,呈現(xiàn)多樣化、多層次、多技能型發(fā)展趨勢。

知名經(jīng)濟(jì)學(xué)者盤和林則提出,數(shù)據(jù)標(biāo)注企業(yè)需要向數(shù)據(jù)服務(wù)商轉(zhuǎn)變,因?yàn)锳I向多領(lǐng)域發(fā)展,機(jī)器學(xué)習(xí)所需要的數(shù)據(jù)類型將越來越豐富,預(yù)標(biāo)注需要響應(yīng)客戶定制化要求。

從“挑錯(cuò)”到“調(diào)優(yōu)”,背后的AI之變

從最初的“挑錯(cuò)”工作,進(jìn)化至高階的“調(diào)優(yōu)”,數(shù)據(jù)標(biāo)注之變,源于AI需求之變。

有人說,從前的AI,僅是一種看不見摸不著的底層技術(shù),而進(jìn)化后的AI,則更像是一個(gè)需要馴化的智慧生命體,需應(yīng)對(duì)千人千面的需求。

尤其是近兩年來,大模型開發(fā)進(jìn)入深水區(qū),行業(yè)也從“百模大戰(zhàn)”進(jìn)化到“價(jià)格戰(zhàn)”,如何實(shí)現(xiàn)大模型的商業(yè)化落地成為各大廠商的一大考題。近期,阿里、百度、字節(jié)跳動(dòng)等各大廠商紛紛降價(jià),在搶占市場的同時(shí),也促進(jìn)大模型應(yīng)用的快速落地。

可以看到,不管是在金融、醫(yī)療、教育、制造業(yè),還是身邊觸手可及的餐飲、消費(fèi)、出行,人工智能在以更快的速度應(yīng)用至各行各業(yè),并以看得見摸得著的方式不斷拓寬邊界。

這背后自然帶來數(shù)據(jù)需求的擴(kuò)大與精細(xì)化。李蓀將訓(xùn)練數(shù)據(jù)比作為人工智能編制高質(zhì)量的教材。傳統(tǒng)的深度學(xué)習(xí)范式下,模型訓(xùn)練是“有監(jiān)督”學(xué)習(xí),數(shù)據(jù)從定向采集、精細(xì)化標(biāo)注到訓(xùn)練,是全程陪伴式課堂教學(xué),主要解決感知智能問題,教會(huì)機(jī)器對(duì)客觀信息做基礎(chǔ)性的準(zhǔn)確判斷。在大模型時(shí)代,學(xué)習(xí)模式轉(zhuǎn)向“自學(xué)+專業(yè)培訓(xùn)式學(xué)習(xí)”,主要解決“感知+認(rèn)知”智能問題,教會(huì)機(jī)器推理、涌現(xiàn),所學(xué)習(xí)的知識(shí)的廣度和深度進(jìn)一步擴(kuò)大了。

AI的變革,還使得大模型標(biāo)注新興模式出現(xiàn),形成“用魔法打敗魔法”的風(fēng)景線。例如,通過大模型植入標(biāo)注過程,逐步去做一些高效輔助,甚至是少量替代人工。

這會(huì)帶來人才與就業(yè)的焦慮嗎?答案是否定的。“本身是人訓(xùn)練了模型,模型進(jìn)一步又將人不斷地替代。所以未來的趨勢是對(duì)人的要求不斷疊高,人永遠(yuǎn)去做最頂端的最難的事情,再把這些經(jīng)驗(yàn)轉(zhuǎn)化下來。”徐怡悅說道。

“AI對(duì)行業(yè)的刺激,使得復(fù)合型人才更被市場所需要。”在林城看來,這也預(yù)示著數(shù)據(jù)標(biāo)注下一個(gè)競爭維度隨著自動(dòng)化和半自動(dòng)化標(biāo)注工具的快速發(fā)展,能夠充分理解、熟練運(yùn)用這些先進(jìn)技術(shù)來提高標(biāo)注效率和準(zhǔn)確率的標(biāo)注師,能將其專業(yè)知識(shí)轉(zhuǎn)化成產(chǎn)品能力、算法能力的標(biāo)注師,將更具競爭力。

“隨著大模型的深化迭代,更加專家化、垂類化的數(shù)據(jù)標(biāo)注需求一定會(huì)越來越多。”一資深業(yè)內(nèi)人士同樣說道。正如量子位智庫發(fā)布的《中國AIGC數(shù)據(jù)標(biāo)注產(chǎn)業(yè)全景報(bào)告》顯示,大模型時(shí)代,數(shù)據(jù)標(biāo)注人才缺口或達(dá)百萬,前景相當(dāng)可觀。

對(duì)此,李蓀也預(yù)測,隨著大模型產(chǎn)業(yè)的持續(xù)增長、數(shù)據(jù)處理技術(shù)不斷革新升級(jí)、行業(yè)場景專業(yè)數(shù)據(jù)需求逐步增加、全球化人工智能發(fā)展等因素影響,市場對(duì)人工智能訓(xùn)練師、數(shù)據(jù)標(biāo)注師、提示詞工程師、模型基準(zhǔn)測試等人才崗位需求將會(huì)更加強(qiáng)烈,大模型產(chǎn)業(yè)正值爆發(fā)期,AI數(shù)據(jù)標(biāo)注師后續(xù)發(fā)展前景將更加廣闊。

AI邁向大應(yīng)用時(shí)代,或已到來。

北京商報(bào)記者劉四紅董晗萱

贊助本站

人工智能實(shí)驗(yàn)室

相關(guān)熱詞: 大廠 高薪 挖人 大模型 熱下 民工 之變

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港