展會信息港展會大全

精耕細(xì)作的數(shù)據(jù)標(biāo)注產(chǎn)業(yè),能否幫中國AI大模型構(gòu)筑獨(dú)特優(yōu)勢?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-08-29 15:40:28   瀏覽:18238次  

導(dǎo)讀:文/觀察者網(wǎng) 張廣凱 具備高度智能的ChatGPT,能否正確運(yùn)用自己海量的知識,卻要取決于一群時薪不到2美元的肯尼亞勞工。 他們所做的工作數(shù)據(jù)標(biāo)注,不僅是ChatGPT能夠領(lǐng)先競爭對手的重要原因,也有著重要的倫理意義。數(shù)據(jù)標(biāo)注師們自己的價值觀,同樣決定了人工...

文/觀察者網(wǎng) 張廣凱

具備高度智能的ChatGPT,能否正確運(yùn)用自己海量的知識,卻要取決于一群時薪不到2美元的肯尼亞勞工。

他們所做的工作數(shù)據(jù)標(biāo)注,不僅是ChatGPT能夠領(lǐng)先競爭對手的重要原因,也有著重要的倫理意義。數(shù)據(jù)標(biāo)注師們自己的價值觀,同樣決定了人工智能的價值觀,決定了AI能否被善意地運(yùn)用。

在百度智能云數(shù)據(jù)標(biāo)注基地業(yè)務(wù)產(chǎn)品負(fù)責(zé)人胡馳看來,人工標(biāo)注將是大模型訓(xùn)練中絕對無法被替代的一部分。

而對于中國大模型企業(yè)來說,這項(xiàng)嚴(yán)重依賴勞動力個人素質(zhì)的工作,或許也是獨(dú)特的競爭優(yōu)勢所在。

近日,百度在中文大模型的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)建設(shè)上邁出重要一步。

100%本科學(xué)歷,百度數(shù)據(jù)標(biāo)注卷到新高度

日前,位于?谑行阌^(qū)的百度智能云(?冢┤斯ぶ悄芑A(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地正式啟動運(yùn)營,這是百度智能云與?谑姓献鞴步ǖ膰鴥(nèi)首個大模型數(shù)據(jù)標(biāo)注中心。

百度智能云?谌斯ぶ悄芑A(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地

百度智能云大模型數(shù)據(jù)標(biāo)注師董志煥介紹到:”我們的主要工作就是對大模型生成的內(nèi)容進(jìn)行評價、反饋,通過這些人工標(biāo)注數(shù)據(jù),讓大模型學(xué)習(xí)人類的思維方式,從而使大模型更加聰明。”

當(dāng)前,大模型正處在產(chǎn)業(yè)落地前期,高質(zhì)量的數(shù)據(jù),是大模型實(shí)現(xiàn)產(chǎn)業(yè)化的關(guān)鍵要素。以ChatGPT、文心一言為代表的生成式AI,不僅需要海量的數(shù)據(jù)訓(xùn)練,更需要人工標(biāo)注、指令微調(diào)、基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),才能夠讓大模型與人類價值觀、思維方式不斷對齊,使大模型更加可用。

為此,百度智能云升級了大模型數(shù)據(jù)服務(wù)能力,建設(shè)了國內(nèi)首個專業(yè)大模型數(shù)據(jù)標(biāo)注基地。

截至目前,百度智能云已經(jīng)在全國與各地政府合作,共建了十多個數(shù)據(jù)標(biāo)注基地,累計為當(dāng)?shù)靥峁┏^1.1萬個穩(wěn)定就業(yè)崗位,間接帶動5萬人就業(yè)。

但是相比于傳統(tǒng)的數(shù)據(jù)標(biāo)注,語言類大模型對勞動者技能提出了更高的要求。?跀(shù)據(jù)標(biāo)注基地現(xiàn)擁有數(shù)百名專職大模型數(shù)據(jù)標(biāo)注師,標(biāo)注師的本科率達(dá)到100%。

“和傳統(tǒng)的數(shù)據(jù)標(biāo)注師要求不同,大模型標(biāo)注師都需要本科以上學(xué)歷,我覺得主要是因?yàn)榇竽P蛿?shù)據(jù)涉及的知識面很廣,評判標(biāo)準(zhǔn)復(fù)雜,非?简(yàn)標(biāo)注師的語言理解能力和邏輯推理能力。在入職的前兩個月,公司會對我們進(jìn)行集體培訓(xùn)和考核,通過考核后才能正式上崗。”百度智能云大模型數(shù)據(jù)標(biāo)注師王潔玉說。

標(biāo)注師劉小瑩畢業(yè)于一所普通本科學(xué)院的漢語國際教育專業(yè)。她對觀察者網(wǎng)表示,自己的專業(yè)原本就業(yè)方向較窄,就業(yè)壓力大,而大模型標(biāo)注產(chǎn)業(yè)卻剛剛傾向于招收漢語言、新聞傳播等專業(yè)畢業(yè)生,為自己提供了新的就業(yè)方向。

海口市秀英區(qū)委常委、常務(wù)副區(qū)長石晟屹表示:“?谌斯ぶ悄芗夹g(shù)數(shù)據(jù)產(chǎn)業(yè)基地的落成,最大的價值是在人才集約、產(chǎn)業(yè)集聚等方面有重要的引領(lǐng)作用。在不到一年的時間,基地已經(jīng)帶動近千人的大學(xué)生就業(yè),對培育本地的數(shù)字經(jīng)濟(jì)人才做出了突出貢獻(xiàn)。同時,引入百度這樣的科技企業(yè),將持續(xù)帶動數(shù)字產(chǎn)業(yè)化項(xiàng)目落地,也會為傳統(tǒng)產(chǎn)業(yè)的轉(zhuǎn)型升級帶來新的戰(zhàn)略契機(jī)和發(fā)展機(jī)會。”

百度智能云海口人工智能基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地 作業(yè)區(qū)

不只靠堆人力,中國數(shù)據(jù)標(biāo)注如何精耕細(xì)作?

盡管數(shù)據(jù)標(biāo)注聽上去是一個依賴簡單重復(fù)勞動的工作,但是一旦深入工作細(xì)節(jié)便會發(fā)現(xiàn),它同樣需要很高的技術(shù)含量。

事實(shí)上,以Scale AI為代表,海外已經(jīng)誕生了一些數(shù)據(jù)標(biāo)注行業(yè)的獨(dú)角獸公司。2022年,Scale AI營收達(dá)到2.9億美元,毛利率更是高達(dá)70%。

Scale AI不僅僅在使用非洲等地的廉價人力資源,同樣還招聘了數(shù)十名博士,來應(yīng)對各行業(yè)的專業(yè)數(shù)據(jù)。數(shù)據(jù)標(biāo)注質(zhì)量,是Scale AI為OpenAI等大模型企業(yè)提供的最大價值。

百度也正在全面提升中文大模型的標(biāo)注質(zhì)量。

劉小瑩向觀察者網(wǎng)介紹,除了自己負(fù)責(zé)的第一道標(biāo)注工序之外,層層審核也是保證標(biāo)注質(zhì)量的重要環(huán)節(jié)。在數(shù)據(jù)標(biāo)注公司內(nèi)部,有資深標(biāo)注師對所有標(biāo)注數(shù)據(jù)進(jìn)行全面復(fù)核,而百度自己也有龐大的審核團(tuán)隊(duì),最終把握數(shù)據(jù)質(zhì)量。涉及到專業(yè)領(lǐng)域知識時,也有相關(guān)行業(yè)專家提供支持。

據(jù)了解,百度智能云沉淀了多領(lǐng)域?qū)<屹Y源,針對來自不同行業(yè)的數(shù)據(jù)服務(wù)需求,百度智能云可快速搭建專家團(tuán)隊(duì),對特定領(lǐng)域的任務(wù)提供監(jiān)督微調(diào)和強(qiáng)化訓(xùn)練數(shù)據(jù),保證數(shù)據(jù)交付質(zhì)量,目前已覆蓋計算機(jī)、法律、醫(yī)療等領(lǐng)域。

此外,百度智能云還組建了專業(yè)的數(shù)據(jù)咨詢團(tuán)隊(duì),從前期的數(shù)據(jù)收集、數(shù)據(jù)清洗,再到數(shù)據(jù)管理、數(shù)據(jù)回流,可為企業(yè)提供全流程的咨詢服務(wù),幫助企業(yè)在智能化轉(zhuǎn)型過程中少走彎路。

百度自研的高效標(biāo)注系統(tǒng),則進(jìn)一步提升了數(shù)據(jù)標(biāo)注效率。

胡馳表示,為提高數(shù)據(jù)標(biāo)注的質(zhì)量和效率,百度智能云自主研發(fā)了業(yè)內(nèi)領(lǐng)先的大模型數(shù)據(jù)標(biāo)注平臺,支持從大模型微調(diào)、強(qiáng)化學(xué)習(xí)到模型評估的數(shù)據(jù)生產(chǎn)閉環(huán)。在人工標(biāo)注之前,平臺會首先進(jìn)行自動化的預(yù)審核,對數(shù)據(jù)的行業(yè)特征進(jìn)行分類,確保數(shù)據(jù)交到更合適的審核員手上。

結(jié)合平臺獨(dú)有的人機(jī)協(xié)同標(biāo)注、多輪智能審核等智能化工具,百度可大幅提升數(shù)據(jù)標(biāo)注的產(chǎn)能和質(zhì)量,同時幫助企業(yè)實(shí)現(xiàn)降本增效。

數(shù)據(jù)安全也始終是重中之重。胡馳表示,百度智能云不僅可提供高安全性的端到端數(shù)據(jù)服務(wù),標(biāo)注平臺還支持私有部署,通過與基地資源聯(lián)動,為客戶提供多樣化的數(shù)據(jù)安全方案。

“大模型標(biāo)注基地重點(diǎn)要評估三大指標(biāo):高效標(biāo)注工具、高端人才梯隊(duì)、高級別數(shù)據(jù)安全,只有三管齊下,才能為大模型提供好的數(shù)據(jù)。”胡馳說。

隨著數(shù)據(jù)標(biāo)注基地等“智能新基建”的建設(shè),百度“千帆大模型平臺”將更好地向社會提供服務(wù)。

據(jù)悉,百度智能云將在9月全面升級大模型服務(wù)。8月,百度智能云宣布,千帆大模型平臺升級,接入包括文心一言、Llama 2全系列、ChatGLM2-6B等在內(nèi)的33個國內(nèi)外最主流的大模型,成為國內(nèi)擁有大模型最多的平臺。

(文中劉小瑩為化名)

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港