展會(huì)信息港展會(huì)大全

被大V推薦的AI論文,被引量會(huì)翻倍??jī)晌煌铺夭┲?年推文背后影響揭秘
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-01-27 14:48:44   瀏覽:6629次  

導(dǎo)讀:機(jī)器之心報(bào)道 編輯:張倩、小舟 在 AI 領(lǐng)域,推特博主的影響力可能比想象中要大。 經(jīng)常在 X 平臺(tái)(推特)上瀏覽 AI 論文的研究者應(yīng)該都很熟悉兩位博主:AK (@_akhaliq) 和 Aran Komatsuzaki (@arankomatsuzaki)。他們每天都會(huì)精選一些論文進(jìn)行展示,方便大家...

機(jī)器之心報(bào)道

編輯:張倩、小舟

在 AI 領(lǐng)域,推特博主的影響力可能比想象中要大。

經(jīng)常在 X 平臺(tái)(推特)上瀏覽 AI 論文的研究者應(yīng)該都很熟悉兩位博主:AK (@_akhaliq) 和 Aran Komatsuzaki (@arankomatsuzaki)。他們每天都會(huì)精選一些論文進(jìn)行展示,方便大家重點(diǎn)閱讀。數(shù)據(jù)顯示,AK 在 X 平臺(tái)上的粉絲數(shù)已經(jīng)接近 28 萬(wàn),Aran Komatsuzaki 也超過(guò)了 8 萬(wàn)。

一般來(lái)說(shuō),能夠得到這兩位博主推薦的論文通常質(zhì)量都相對(duì)有保證,后續(xù)也能得到更多研究者的關(guān)注。但是,二人的影響力到底有多大,被推薦和不被推薦的論文在后續(xù)的影響力上是否會(huì)拉開(kāi)差距一直很難說(shuō)清。

為了研究這些問(wèn)題,來(lái)自加州大學(xué)圣芭芭拉分校的幾位研究者專(zhuān)門(mén)寫(xiě)了一篇論文。結(jié)果顯示,被兩位博主推薦的論文在被引量上是不被推薦的論文的 2 到 3 倍。

論文標(biāo)題:Tweets to Citations: Unveiling the Impact of Social Media Influencers on AI Research Visibility

論文鏈接:https://arxiv.org/pdf/2401.13782.pdf

具體來(lái)說(shuō),他們編制了一個(gè)包含 8000 多篇論文的綜合數(shù)據(jù)集。這些論文涵蓋了兩位博主從 2018 年 12 月到 2023 年 10 月期間的推文,并伴有基于發(fā)表年份、發(fā)表地點(diǎn)和摘要主題的 1:1 匹配對(duì)照組。分析結(jié)果顯示,得到二人推薦的論文,其引用次數(shù)顯著增加,中位數(shù)引用次數(shù)是對(duì)照組的 2 到 3 倍。這樣的結(jié)果引發(fā)了社區(qū)的一些擔(dān)憂,有人認(rèn)為這代表學(xué)術(shù)界正在 TikTok 化。

不過(guò),很多人懷疑,這個(gè)數(shù)據(jù)的因果邏輯可能是反的,因?yàn)橘|(zhì)量更高的論文往往更容易得到這兩位博主的推薦,后續(xù)被引量自然更高。

對(duì)此,論文里其實(shí)給出了解決辦法。他們通過(guò)精確匹配來(lái)選擇對(duì)照樣本,使用發(fā)表細(xì)節(jié)和文本嵌入作為論文質(zhì)量的標(biāo)記。作者表示,他們驗(yàn)證了他們的方法能夠成功地控制論文質(zhì)量,這一點(diǎn)從會(huì)議審稿得分的分布相似性中得到了證明。

被兩位博主推薦的論文與未被推薦的論文 OpenReview 平均得分,來(lái)自 6 個(gè)主要的機(jī)器學(xué)習(xí)會(huì)議。圖中結(jié)果表明兩組論文的質(zhì)量大致相當(dāng)。

對(duì)于這個(gè)結(jié)果,也有人心態(tài)比較樂(lè)觀,表示數(shù)學(xué)領(lǐng)域也有類(lèi)似現(xiàn)象,比如陶哲軒等數(shù)學(xué)家偶爾也會(huì)在網(wǎng)上推薦一些研究。

但有人反駁說(shuō),AI 和數(shù)學(xué)領(lǐng)域的情況完全不同。一方面,AI 領(lǐng)域涉及大量資金投入和經(jīng)濟(jì)利益,這可能影響到博主推薦內(nèi)容的客觀性和公正性。另一方面,博主在挑選論文時(shí)可能更容易關(guān)注到大實(shí)驗(yàn)室的論文,這對(duì)一些小實(shí)驗(yàn)室來(lái)說(shuō)可能不太公平。

在觀察到這些潛在影響后,論文作者呼吁研究社區(qū)構(gòu)建更加負(fù)責(zé)任的論文傳播方式,這些方式應(yīng)該盡量展示多樣化的研究主題、作者和機(jī)構(gòu),營(yíng)造一種更公平的環(huán)境。

以下是論文細(xì)節(jié)。

數(shù)據(jù)收集

該研究將具有相同基礎(chǔ)協(xié)變量的實(shí)驗(yàn)組和對(duì)照組進(jìn)行比較,以確定平均效果,并假設(shè)論文的被引量受時(shí)間、質(zhì)量和主題的影響最大。雖然所用時(shí)間很容易測(cè)量,但論文質(zhì)量和主題卻很難量化。

該研究使用論文標(biāo)題和摘要的文本嵌入來(lái)近似化論文主題,整個(gè)數(shù)據(jù)收集過(guò)程由三個(gè)部分組成:

(1)收集目標(biāo)集,即推特博主 @_akhaliq 和 @arankomatsuzaki 在推特上分享的論文;

(2)收集要匹配的潛在論文的大型數(shù)據(jù)集;

(3)通過(guò)將 (1) 中的論文與 (2) 中的論文在發(fā)表年份、發(fā)表地點(diǎn)以及標(biāo)題和摘要的文本嵌入方面進(jìn)行匹配來(lái)設(shè)置控制集。

分析

該研究將推特博主 AK 和 Komatsuzaki 分享的論文與控制集的影響進(jìn)行了比較,然后根據(jù)所選論文的地理分布和作者屬性進(jìn)行多變量分析。

該研究采用對(duì)比分析方法測(cè)試了以下假設(shè):

博主分享的論文與同一領(lǐng)域的其他論文具有相同的被引量。

博主分享的論文比同一領(lǐng)域的其他論文具有更高的被引量。

該研究比較了配對(duì)的目標(biāo)集和控制集,發(fā)現(xiàn) AK 分享的論文的被引量中位數(shù)為 24 (95% CI: 23, 25),而對(duì)照組為 14(95% CI: 13, 15);Komatsuzaki 分享的論文被引量中位數(shù)為 31 次(95% CI:27、34),而對(duì)照組為 12 次(95% CI:10.5、13.5)。與相應(yīng)的控制集相比,兩個(gè)實(shí)驗(yàn)集分布都偏向于更高的被引量,如下圖 3 所示。

如圖 3 (c)(d) 所示,與對(duì)照組相比,博主分享論文分布中的三個(gè)四分位數(shù)和最大值均較高。

在 2 - 樣本 Q-Q 圖(圖 4)中,我們可以看到測(cè)試分布的歸一化分位數(shù)始終較高。每個(gè)成對(duì)樣本的 Cliff’s Delta 值進(jìn)一步強(qiáng)化了 Q-Q 結(jié)果,如表 3 所示。

表 3 的數(shù)據(jù)說(shuō)明博主分享論文實(shí)際上對(duì)改變結(jié)果變量(即論文的被引量)具有重要意義。

最后,該研究通過(guò)三個(gè)測(cè)試建立統(tǒng)計(jì)顯著性,將實(shí)驗(yàn)數(shù)據(jù)的分布與控制集 Epps-Singleton (ES)、Kolmogorov-Smirnov (KS) 和 Mann-Whitney U (MWU) 的分布進(jìn)行比較。如表 3 所示,所有結(jié)果的 p 值都遠(yuǎn)低于 α = 0.001。由此,該研究可以有力推翻原假設(shè):博主分享的論文和對(duì)照組的引用分布相同。

總體而言,有影響力的推文和被引量之間的相關(guān)性表明機(jī)器學(xué)習(xí)社區(qū)查找和閱讀論文的方式發(fā)生了變化。傳統(tǒng)上,頂級(jí)會(huì)議接受度(即評(píng)審分?jǐn)?shù))一直是未來(lái)被引量的主要指標(biāo),但該研究表明,影響力大的博主分享論文已成為影響被引量的重要指標(biāo)。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港