展會(huì)信息港展會(huì)大全

中文AI,真的不行?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-05-20 08:35:12   瀏覽:86169次  

導(dǎo)讀:前幾天OpenAI的老板說,目前還沒有在未來半年訓(xùn)練GPT-5的計(jì)劃。 所以年內(nèi)不大可能會(huì)有新版本的ChatGPT了。 這對(duì)國(guó)內(nèi)其他語(yǔ)言大模型(LLM)來說是個(gè)好消息:指不定可以利用這個(gè)時(shí)間窗口,彎道超車。 但我還是沒那么樂觀。 前幾天跟我以前的技術(shù)合伙人聊了聊,...

前幾天OpenAI的老板說,目前還沒有在未來半年訓(xùn)練GPT-5的計(jì)劃。

所以年內(nèi)不大可能會(huì)有新版本的ChatGPT了。

這對(duì)國(guó)內(nèi)其他語(yǔ)言大模型(LLM)來說是個(gè)好消息:指不定可以利用這個(gè)時(shí)間窗口,彎道超車。

但我還是沒那么樂觀。

前幾天跟我以前的技術(shù)合伙人聊了聊,他說他挺認(rèn)同「中文語(yǔ)料質(zhì)量比較差」的觀點(diǎn)。

英文有句諺語(yǔ)叫「We are what we read」(我們是我們讀的書的總和)。

而AI這東西跟人一樣,輸入AI的語(yǔ)料庫(kù)的質(zhì)量決定了它輸出的質(zhì)量。

如果輸入的數(shù)據(jù)都是垃圾,那輸出的也都是垃圾(Garbage in, garbage out)。

所以從這個(gè)角度,在LLM方面,中文語(yǔ)境為主的國(guó)內(nèi)廠商要彎道超車可能還是比較難。

So,中文互聯(lián)網(wǎng)真的沒有好內(nèi)容嗎?

很多人之所以這么論斷,主要還是因?yàn)橹杏⒌膬?nèi)容數(shù)量本身就不在一個(gè)量級(jí)

畢竟英國(guó)當(dāng)年在殖民過程中,硬是把英文給傳播成了主流的國(guó)際通用語(yǔ)言;另外就是現(xiàn)在的第一經(jīng)濟(jì)體美國(guó)也講英文。

學(xué)術(shù)領(lǐng)域主流期刊大部分都是英文的;大多數(shù)編程語(yǔ)言呢又都是英文為主體的……

另外,AI處理中文的能力本身也會(huì)弱一些

比如中文沒有過去時(shí)、現(xiàn)在時(shí)、未來時(shí),在時(shí)態(tài)上的判斷就要難一點(diǎn)。

再比如英文本身就自帶空格分詞,而中文的分詞則沒那么簡(jiǎn)單。

因此呢,說「中文語(yǔ)料庫(kù)」不行,好像還是有點(diǎn)道理。

另外,這些年還有個(gè)趨勢(shì)

結(jié)合身邊大多數(shù)人的感受,這些年網(wǎng)上的深度內(nèi)容確實(shí)越來越少了。

其實(shí)十年前,簡(jiǎn)中互聯(lián)網(wǎng)也曾經(jīng)有過good old days

知乎剛創(chuàng)立的時(shí)候,大把優(yōu)質(zhì)問答內(nèi)容,每個(gè)人都用寫paper的心態(tài)來寫回答,而不是現(xiàn)在的段子和剛編的故事;

微博大V雖然時(shí)不時(shí)會(huì)帶風(fēng)向,但大家的觀點(diǎn)進(jìn)行碰撞后,倒也可以產(chǎn)生不少火花。

而后來,互聯(lián)網(wǎng)滲透率提高了……

這會(huì)導(dǎo)致兩個(gè)后果

一個(gè)是大V的影響力、傳播力變大了。

以前說錯(cuò)話沒什么社會(huì)影響,畢竟網(wǎng)民的基數(shù)也不多。

而現(xiàn)在互聯(lián)網(wǎng)不再是什么法外之地……

從監(jiān)管方的角度,內(nèi)容安全審核的必要性也越來越重要。

所以你會(huì)發(fā)現(xiàn),當(dāng)年那些所謂「公知」們,基本都失去了表達(dá)欲。

另一個(gè)是非知識(shí)類輸出變多了。

玩互聯(lián)網(wǎng)的不止受教育程度高的「公知」們了,普通人也有了發(fā)言權(quán)。

網(wǎng)絡(luò)內(nèi)容的產(chǎn)出門檻其實(shí)很低,從博客BBS年代開始,普通人隨隨便便就可以編一堆假新聞(何況現(xiàn)在還有ChatGPT助力)。

另一方面,營(yíng)銷號(hào)們也會(huì)主動(dòng)迎合大眾市場(chǎng)的口味。

這導(dǎo)致現(xiàn)在遍地都是三種內(nèi)容:情緒、娛樂、對(duì)立(階級(jí)/性別/民粹),分別對(duì)應(yīng)三種流量密碼。

前面兩者至少還有情緒價(jià)值,對(duì)立則會(huì)讓我們內(nèi)部消耗。

此消彼長(zhǎng),中文互聯(lián)網(wǎng)內(nèi)容質(zhì)量下降也是正常。

Anyway,我覺得說「中文語(yǔ)料庫(kù)不行」的人,更多還是想發(fā)泄情緒上的不滿吧。

畢竟AI的學(xué)習(xí),也不是囫圇吞棗,還是會(huì)做數(shù)據(jù)清洗的。

另外,雖然互聯(lián)網(wǎng)普及率上來了,但算法也造成了信息繭房。

你要完全屏蔽非知識(shí)類內(nèi)容也不是沒有辦法。

還有就是,追求認(rèn)知提升的人們總會(huì)想到自己的新去處。

比如我身邊有很多朋友都很喜歡用Podcast/播客浮躁的多數(shù)人是沒法靜下心來收聽嚴(yán)肅內(nèi)容的。

「Greed is good.」

「很帥的投資客」的所有內(nèi)容皆僅以傳遞知識(shí)與金融教育為目的,不構(gòu)成任何投資建議。一切請(qǐng)以最新文章為準(zhǔn)。

圖文/狐貍

Icon/freepik from flaticon

參考資料/

《快訊|網(wǎng)信辦整治飯圈亂象:打擊挑動(dòng)對(duì)立、粉絲互撕、拉踩引戰(zhàn)、誘導(dǎo)未成年人集資等行為》《國(guó)家網(wǎng)信辦:嚴(yán)厲打擊網(wǎng)上惡意損害企業(yè)和企業(yè)家形象聲譽(yù)等違法違規(guī)行為》《ChatGPT插件下周全面開放,這是首個(gè)官方認(rèn)證的“投資Plugin”》《Usage statistics of content languages for websites》

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港