展會(huì)信息港展會(huì)大全

AI數(shù)據(jù)告急,大廠盯上廉價(jià)年輕人
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-04 10:57:00   瀏覽:2653次  

導(dǎo)讀:為了拿到新數(shù)據(jù)、訓(xùn)練AI大模型,字節(jié)等互聯(lián)網(wǎng)大廠正在親自下場(chǎng),以單次300元不等的價(jià)格招募AI錄音員,定制語(yǔ)料庫(kù)。 坐落于北京大鐘寺的字節(jié)辦公樓,集中了字節(jié)的抖音業(yè)務(wù)團(tuán)隊(duì)和火山引擎業(yè)務(wù)團(tuán)隊(duì),從年初便開(kāi)始招募素人為豆包大模型錄音。兩人結(jié)組、單次3小時(shí)...

為了拿到新數(shù)據(jù)、訓(xùn)練AI大模型,字節(jié)等互聯(lián)網(wǎng)大廠正在親自下場(chǎng),以單次300元不等的價(jià)格招募“AI錄音員”,定制語(yǔ)料庫(kù)。

坐落于北京大鐘寺的字節(jié)辦公樓,集中了字節(jié)的抖音業(yè)務(wù)團(tuán)隊(duì)和火山引擎業(yè)務(wù)團(tuán)隊(duì),從年初便開(kāi)始招募素人為豆包大模型錄音。兩人結(jié)組、單次3小時(shí),包括80分鐘的自由聊天,有提示詞的60組對(duì)話(huà),單次結(jié)算金額為300元。

長(zhǎng)達(dá)3小時(shí)的錄音,有至少2名字節(jié)員工全程陪同。“對(duì)話(huà)不能水時(shí)長(zhǎng),要有內(nèi)容和信息,質(zhì)量太差會(huì)酌情扣款”,“不能修改提示詞,大模型理解不了”。從晚上6點(diǎn)到9點(diǎn),字節(jié)員工在錄制過(guò)程中的指令,則更多透露著對(duì)于錄音質(zhì)量的關(guān)注。

圖片

圖注:大鐘寺錄音室內(nèi)部圖

實(shí)際上,成都、太原、貴州等二線城市,早已成了字節(jié)、百度、阿里等大廠的AI數(shù)據(jù)外包之城。“去年,數(shù)據(jù)標(biāo)注、方言朗讀,專(zhuān)科生就能做,F(xiàn)在招的都是211、985的實(shí)習(xí)生帶外包。”某大模型產(chǎn)品經(jīng)理表示。

在9月剛剛推出視頻大模型的MiniMax,其創(chuàng)始人閆俊杰告訴字母榜,在上海,除了語(yǔ)料公司的高質(zhì)量數(shù)據(jù)之外,MiniMax也會(huì)采購(gòu)一些平臺(tái)化數(shù)據(jù)。

數(shù)據(jù)、算法和算力是AI大模型的三大支柱,其中數(shù)據(jù)是大模型進(jìn)行訓(xùn)練的根基。但由于互聯(lián)網(wǎng)數(shù)據(jù)散布在不同平臺(tái),并被重重壁壘所環(huán)繞,AI大模型可以用來(lái)訓(xùn)練的公開(kāi)數(shù)據(jù)正在走向枯竭。

6月,研究機(jī)構(gòu)Epoch AI發(fā)布了一項(xiàng)新研究預(yù)測(cè),可用于AI語(yǔ)言模型公開(kāi)訓(xùn)練的數(shù)據(jù),將在2026年到2032年間,被科技公司耗荊而早在2023年5月,OpenAI首席執(zhí)行官阿爾特曼便公開(kāi)承認(rèn),AI公司在不久的將來(lái)會(huì)耗盡互聯(lián)網(wǎng)上所有的數(shù)據(jù)。

如何尋找高質(zhì)量的新數(shù)據(jù)“喂養(yǎng)”大模型,成了所有AI大模型團(tuán)隊(duì)的共同難題。

由于存在擅自使用第三方數(shù)據(jù)的嫌疑,一些大公司屢屢陷入糾紛。8月,OpenAI被超過(guò)100位YouTube主播集體訴訟,指控其擅自轉(zhuǎn)錄了數(shù)百萬(wàn)個(gè)YouTube 視頻來(lái)訓(xùn)練大模型。英偉達(dá)、蘋(píng)果、Anthropic等巨頭也涉及其中。

對(duì)于大廠而言,擁有自己的閉源高質(zhì)量數(shù)據(jù),才能保證喂養(yǎng)大模型的數(shù)據(jù)時(shí)效性和質(zhì)量。而跳過(guò)品控不穩(wěn)定的第三方平臺(tái),試圖親自下場(chǎng)為AI寫(xiě)“劇本”,或許是大模型廠商們的一條新路子。

A

今年初,在小紅書(shū)等平臺(tái)上,悄悄出現(xiàn)了標(biāo)價(jià)300元一次的AI錄音兼職。

相比起B(yǎng)OSS直聘等平臺(tái)30-55元時(shí)薪的AI錄音兼職,300元單次、錄制地在北京大鐘寺的所謂“頭部大廠錄音兼職”顯得頗具誘惑力。

8月,通過(guò)微信被拉到錄音群內(nèi)時(shí),字母榜(ID: wujicaijing)發(fā)現(xiàn)群內(nèi)已經(jīng)有了200多名等候錄音的人。由于規(guī)定為2人一組錄制對(duì)話(huà),時(shí)間長(zhǎng)達(dá)3小時(shí),進(jìn)群后,“找搭子”“有人和我一起錄嗎?”的微信消息彈出的最多。

而實(shí)際上,300元一次,做AI錄音員,“給AI寫(xiě)劇本”并不輕松。

首先在錄音前,所有人都必須上傳一段2-3分鐘的對(duì)話(huà)錄音做“樣音”,字節(jié)的審核人員要通過(guò)樣音的效果來(lái)決定是否通知兼職錄音。而這個(gè)過(guò)程會(huì)有3名員工負(fù)責(zé)審核,其中2名員工審核都通過(guò),才能直接預(yù)約錄音時(shí)間,如果不通過(guò),還有交叉審核。

在樣音二審過(guò)后,張雪在提交樣音的第二周預(yù)約了晚上6-9點(diǎn)的錄音時(shí)間。而在群聊內(nèi),不少人都被卡在了樣音環(huán)節(jié),“審核老師喜歡能聊的,愛(ài)聊的。”情緒高昂的對(duì)話(huà),內(nèi)容有主題,讓更多的人卡在了篩選的第一道門(mén)檻。

圖片

圖注:大鐘寺錄音群

圖源:字母榜截圖

錄制當(dāng)晚,張雪隔著錄音室的透明玻璃坐在椅子上,調(diào)節(jié)到語(yǔ)音能夠被清晰錄入的最佳位置,通過(guò)耳機(jī)收聽(tīng)字節(jié)員工的指令。

第一個(gè)環(huán)節(jié),就是兩人80分鐘的無(wú)主題自由聊天。而字節(jié)人員的要求,則是聊天不能是“片湯話(huà)”,要有內(nèi)容,同時(shí)每個(gè)話(huà)題都不能超過(guò)10分鐘,并且不能出現(xiàn)大段大段的獨(dú)白,要保證是相對(duì)平均的對(duì)話(huà)狀態(tài)。

張雪和搭檔在錄音室內(nèi)隔著巨大的頭麥對(duì)談,盡量不停頓地談話(huà)80分鐘。同時(shí),還要盡量克制身體不能亂動(dòng),發(fā)出咳嗽聲、笑聲等擾亂錄音質(zhì)量的聲音。

為了保證語(yǔ)音質(zhì)量,字節(jié)人員通過(guò)耳機(jī)不時(shí)插入,提示出現(xiàn)了雜音要重新錄制,或者聊天“不自然,引導(dǎo)痕跡過(guò)重”,也要重新錄制。高質(zhì)量語(yǔ)音的標(biāo)準(zhǔn)是聊天自然、話(huà)題連續(xù),情緒積極但不能搶話(huà),還要有內(nèi)容、不流水賬。經(jīng)過(guò)反復(fù)重調(diào),第一個(gè)環(huán)節(jié)就花費(fèi)了近2個(gè)小時(shí)的時(shí)間。

而到了第二個(gè)環(huán)節(jié),要錄制有提示詞的60組對(duì)話(huà)。盡管有了劇本可供參考,但作為AI錄音員,張雪不僅要根據(jù)情境編對(duì)話(huà),還要保證嚴(yán)格的對(duì)話(huà)模式,即上一組對(duì)話(huà)是A結(jié)束收尾,那么下一組對(duì)話(huà)必須由B開(kāi)始。

同時(shí),為了適應(yīng)大模型的調(diào)試需求,每一次的指令都必須清晰明確地說(shuō)出提示詞,“可以詳細(xì)一些嗎?可以更詳細(xì)一些嗎?可以再詳細(xì)一些嗎?”而在耳機(jī)內(nèi),字節(jié)人員也明確表示,劇本都可以改,但只有提示詞不能動(dòng),換個(gè)說(shuō)法,AI就可能難以識(shí)別。

為了保證錄音質(zhì)量,錄音不清晰、吞字或者情緒不足,都會(huì)重新錄制。等錄制結(jié)束,張雪離開(kāi)大鐘寺,時(shí)間已經(jīng)走到了晚上近10點(diǎn)。而一次3小時(shí)的錄音,字節(jié)人員一天要錄制3場(chǎng),每周的日程幾乎都是滿(mǎn)的。

除了北京,字節(jié)已經(jīng)在上海、杭州、重慶、南京、成都、天津等多個(gè)城市招募錄音員。

B

對(duì)于渴求新數(shù)據(jù)的大模型廠商們來(lái)說(shuō),“砸錢(qián)拿數(shù)據(jù)”的操作并不新奇。

2023年,隨著AI大模型成為新風(fēng)口,大廠們不僅直接通過(guò)第三方公司購(gòu)買(mǎi)數(shù)據(jù),也創(chuàng)造出了“大數(shù)據(jù)標(biāo)注師”、“AI編輯”等外包崗位。

2023年,小語(yǔ)種專(zhuān)業(yè)的阿琳,在考研期間就通過(guò)BOSS直聘等網(wǎng)站,開(kāi)始為大模型“打工”。

通過(guò)一家叫做“X數(shù)據(jù)”的公司,阿霖為大模型圖片識(shí)別的文字內(nèi)容做驗(yàn)收,即檢驗(yàn)大模型圖片識(shí)別后的小語(yǔ)種文字是否與圖片一致。按照“一個(gè)詞或一句話(huà)算一個(gè)核算框,一個(gè)框算1毛錢(qián)”的價(jià)格,核算幾百條,阿霖一次能賺幾十元。

圖片

到了今年,阿霖同樣通過(guò)第三方的數(shù)據(jù)公司接單,做翻譯類(lèi)的 AI 數(shù)據(jù)標(biāo)注,價(jià)格漲成了1元多一條。但要人工判斷大模型翻譯出的法語(yǔ)等小語(yǔ)種是否準(zhǔn)確,標(biāo)注員不僅要找出錯(cuò)誤之處,還要用不同的顏色,對(duì)5-6個(gè)大模型的翻譯內(nèi)容進(jìn)行標(biāo)注。“有時(shí)看一條得花10-15分鐘”。

為AI打工之后,阿霖也發(fā)現(xiàn),這些大模型,一旦脫離了原本小語(yǔ)種的教科書(shū)語(yǔ)料庫(kù),對(duì)于社交平臺(tái)新的用詞,或者小眾人群的慣用詞,即自身的數(shù)據(jù)庫(kù)沒(méi)有收錄,大模型就開(kāi)始降智,“受限于版權(quán),學(xué)不到新的文本內(nèi)容,翻譯效果也受影響。”

除了第三方外包公司,大廠也建立起了自己的數(shù)據(jù)基地。

例如,百度的數(shù)據(jù)基地分布在如南昌、陽(yáng)泉、太原、貴州等非一線城市,并在這些城市完成數(shù)據(jù)標(biāo)注、方言朗讀等數(shù)據(jù)的采集,只需“招一些當(dāng)?shù)氐膶?zhuān)科生,會(huì)操作電腦就行。月工資也往往在3000-5000元之間。”美團(tuán)也早就有了自己的駐場(chǎng)AI訓(xùn)練師。

不過(guò),相比起舍得砸錢(qián)的大廠,大模型四小龍們想要拿到高質(zhì)量數(shù)據(jù),難度高了不少。

“核心的閉源高質(zhì)量數(shù)據(jù),往往都已經(jīng)被大廠壟斷,AI創(chuàng)業(yè)公司,甚至是AI四小龍,都可能只能拿到邊緣數(shù)據(jù)。”某大模型廠商的算法人員Leo告訴字母榜。

由于高質(zhì)量數(shù)據(jù)能夠顯著提升模型效果,因此,在開(kāi)源的公開(kāi)數(shù)據(jù)之外,大模型廠商們?yōu)榱藢?shí)現(xiàn)技術(shù)迭代,需要更高質(zhì)量的數(shù)據(jù)完成訓(xùn)練。但這些數(shù)據(jù)往往被大公司把握,如國(guó)內(nèi)的新聞數(shù)據(jù)掌握在騰訊、字節(jié)等大廠內(nèi)部,海外則由Common Crawl、GDELT、The Pile等占據(jù)。

在海外,即便是YouTube,也在6月底宣布,將向頂級(jí)唱片公司提供許可協(xié)議,以換取版權(quán)音樂(lè)用于訓(xùn)練。OpenAI 一直在與 Politico、《大西洋月刊》、《時(shí)代》、《金融時(shí)報(bào)》等新聞出版商達(dá)成付費(fèi)協(xié)議,使用并引用它們的新聞資料。

當(dāng)關(guān)鍵數(shù)據(jù)主要掌握在“渠道方”內(nèi)部,比如騰訊、字節(jié)和Meta等公司,關(guān)鍵用戶(hù)數(shù)據(jù)早在移動(dòng)互聯(lián)網(wǎng)時(shí)代被瓜分完畢,要想實(shí)現(xiàn)技術(shù)突圍,AI四小龍首先就得交一筆不小的“數(shù)據(jù)費(fèi)”。

C

對(duì)于廠商們來(lái)說(shuō),行至大模型創(chuàng)業(yè)下半場(chǎng),“大數(shù)據(jù)幻覺(jué)”也是大模型集體降智、測(cè)不出9.11和9.9哪個(gè)大的原因之一。

當(dāng)字母榜在MiniMax的海螺AI內(nèi)輸入“一個(gè)小女孩懷里抱著一只布偶貓”,耗時(shí)2分鐘,生成的6秒視頻內(nèi),小女孩抱貓咪的手指細(xì)節(jié)豐富,只是懷里抱著的,并非是一只布偶貓。

面對(duì)生成結(jié)果,MiniMax的視頻大模型員工解釋?zhuān)?ldquo;這是因?yàn)橛糜谟?xùn)練大模型的數(shù)據(jù),在貓咪的綁定圖片里,并沒(méi)有布偶貓。”

當(dāng)模型生成的內(nèi)容與現(xiàn)實(shí)世界事實(shí)或用戶(hù)輸入不一致,即大模型出現(xiàn)幻覺(jué),開(kāi)始“胡說(shuō)八道”。對(duì)于渴望新用戶(hù)的大模型廠商而言,生成效果顯然決定了產(chǎn)品是否有機(jī)會(huì)出圈。

“輸入的指令是提取8月所有娛樂(lè)新聞,結(jié)果AI生成的是2019年8月的娛樂(lè)新聞內(nèi)容。”在使用某頭部大模型產(chǎn)品時(shí),忠實(shí)用戶(hù)孔昉已經(jīng)抓到了好幾次AI“胡言亂語(yǔ)”的瞬間,或是編纂出根本不存在的引用文獻(xiàn),或是不能理解近兩年的新概念,這讓孔昉對(duì)大模型產(chǎn)生了信任危機(jī)。

現(xiàn)在,孔昉會(huì)同時(shí)用2-3個(gè)不同廠商的大模型“跑”同一個(gè)問(wèn)題,然后交叉對(duì)比,對(duì)于時(shí)間、數(shù)量、文獻(xiàn)等關(guān)鍵信息,也會(huì)通過(guò)搜索引擎二次確認(rèn),“現(xiàn)在AI生成很像抽卡,效果不可控,而且還容易智障。”孔昉無(wú)奈道。

而高質(zhì)量數(shù)據(jù)或?qū)⒅饾u耗盡,想要解決“大模型幻覺(jué)”問(wèn)題,拿什么數(shù)據(jù)來(lái)“喂養(yǎng)”大模型,顯然頗為關(guān)鍵。

某接近百度的人士告訴字母榜,大模型廠商們都會(huì)通過(guò)三方公司直接購(gòu)買(mǎi)數(shù)據(jù),省時(shí)省力但并“不省事”,就是因?yàn)橘?gòu)買(mǎi)來(lái)的數(shù)據(jù),無(wú)論是文本、錄音還是視頻,質(zhì)量都是不可控的。

對(duì)于積極發(fā)展B端客戶(hù)的頭部大模型而言,針對(duì)某個(gè)客戶(hù),更個(gè)性化地定制大模型成為如今大廠AI業(yè)務(wù)主要的收入來(lái)源。但想要訓(xùn)練出這樣個(gè)性化的模型,就需要相應(yīng)高標(biāo)準(zhǔn)篩選下的數(shù)據(jù)來(lái)“喂養(yǎng)”,甚至根據(jù)不同階段大模型的學(xué)習(xí)效果,進(jìn)行數(shù)據(jù)需求的調(diào)控,“不是隨便買(mǎi)一堆語(yǔ)音來(lái),大模型就能學(xué)會(huì)的”。

圖片

在某三方數(shù)據(jù)工作做過(guò)AI翻譯的阿霖也發(fā)現(xiàn),“作為提供數(shù)據(jù)的甲方,她所在的公司似乎并不真的關(guān)心大模型生成的語(yǔ)音質(zhì)量。”

對(duì)于專(zhuān)攻法語(yǔ)、西班牙語(yǔ)等小語(yǔ)種的阿霖來(lái)說(shuō),她需要為甲方同時(shí)對(duì)比5-6個(gè)大模型將小語(yǔ)種語(yǔ)音翻譯成文字的生成效果,但只需要粗略得打分,對(duì)于生成的5-6份文字,到底有哪些細(xì)節(jié)的語(yǔ)言差異,能夠如何改進(jìn),三方公司并不會(huì)詢(xún)問(wèn),“漠不關(guān)心”。

而缺乏高質(zhì)量數(shù)據(jù),或許也正是不少用戶(hù)表示“用哪家的大模型生成的內(nèi)容都差不多”的原因,也正是用戶(hù)一旦“一家大模型收費(fèi),就直接換另一家”的根因。

對(duì)于用戶(hù)而言,宣稱(chēng)追趕OpenAI,在技術(shù)上持續(xù)迭代的國(guó)產(chǎn)大模型,或許并無(wú)實(shí)質(zhì)差異,也談不上成為忠誠(chéng)用戶(hù),這也給急著商業(yè)化的大模型廠商們蒙上了一層淡淡的陰影。

因此,即便親自下場(chǎng)“為AI編劇本”費(fèi)時(shí)費(fèi)力又費(fèi)錢(qián),字節(jié)也趟出了一條新路子。而可以預(yù)見(jiàn)的是,為了解決商業(yè)化和用戶(hù)拉新的關(guān)鍵問(wèn)題,大手筆咬牙“買(mǎi)數(shù)據(jù)”,恐怕將成為大模型廠商們的新賽點(diǎn)。

(文中阿霖、孔昉、張雪為化名)

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港