展會信息港展會大全

將不可能變?yōu)榭赡埽∥谋竞蛿?shù)據(jù)挖掘如何助力這家大型抗體搜索引擎公司?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-11-18 13:51:38   瀏覽:1564次  

導(dǎo)讀:當(dāng)今時(shí)代,科學(xué)快速發(fā)展,由AI驅(qū)動的發(fā)現(xiàn)突飛猛進(jìn)。在這樣的背景下,研究人員應(yīng)如何在海量的資源中發(fā)現(xiàn)可靠的信息來源并確保信息質(zhì)量,以做出明智的決策? 文本和數(shù)據(jù)挖掘 (text and data mining, TDM)使用計(jì)算工具和技術(shù)來分析大型文本數(shù)據(jù)集,從學(xué)術(shù)論文...

當(dāng)今時(shí)代,科學(xué)快速發(fā)展,由AI驅(qū)動的發(fā)現(xiàn)突飛猛進(jìn)。在這樣的背景下,研究人員應(yīng)如何在海量的資源中發(fā)現(xiàn)可靠的信息來源并確保信息質(zhì)量,以做出明智的決策?

文本和數(shù)據(jù)挖掘(text and data mining, TDM)使用計(jì)算工具和技術(shù)來分析大型文本數(shù)據(jù)集,從學(xué)術(shù)論文、期刊和其他科學(xué)出版物中的大量科學(xué)數(shù)據(jù)里提取有價(jià)值的見解,旨在識別通過傳統(tǒng)人工分析難以或無法發(fā)現(xiàn)的模式、關(guān)聯(lián)和趨勢,近年來已逐漸發(fā)展成為一種強(qiáng)大的工具。

施普林格自然的TDM工具賦予科研人員以“傳統(tǒng)”渠道所不具備的檢索和發(fā)現(xiàn)能力,并使其能夠?qū)π畔⑦M(jìn)行深入探索。把TDM的強(qiáng)大功能與特定科研工具相結(jié)合,將有助于驅(qū)動變革性發(fā)現(xiàn)和一些重大社會挑戰(zhàn)的創(chuàng)新解決方法。

如何將這一強(qiáng)大的工具引入到企業(yè)的研發(fā)架構(gòu)中,讓研究人員無需為了獲取有用信息而研讀數(shù)百篇文章?

下文采訪了我們的合作伙伴CiteAb首席執(zhí)行官Andrew Chalmers(CiteAb是一家專業(yè)提供抗體搜索引擎的公司),他分享了施普林格自然的TDM工具如何為其研究人員賦能,幫助他們提煉有價(jià)值的信息并節(jié)省研究經(jīng)費(fèi)。我們也希望借此啟發(fā)研究人員、數(shù)據(jù)科學(xué)家和研發(fā)部門從業(yè)者,并為如何將TDM引入企業(yè)研發(fā)架構(gòu)提供建議。

幫助研究人員提煉有價(jià)值的信息

想要在數(shù)千萬種產(chǎn)品中,為一個(gè)實(shí)驗(yàn)選擇合適的化學(xué)或生物試劑可能會令人生畏。早在十年前,CiteAb推出了一個(gè)抗體搜索引擎,旨在幫助研究人員避免在不適用于他們實(shí)驗(yàn)的試劑產(chǎn)品上浪費(fèi)時(shí)間和研究經(jīng)費(fèi)。該搜索引擎的設(shè)計(jì)基于一個(gè)前提,即學(xué)術(shù)論文中描述試劑如何被使用的內(nèi)容是可為研究人員所參考的。然而,從已發(fā)表的文章中提取這類產(chǎn)品信息需要對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行文本挖掘,而單純的全文檢索則無法發(fā)現(xiàn)這些信息。

CiteAb使用施普林格自然的TDM API檢索了6萬份科學(xué)出版物的全文,識別被使用的試劑產(chǎn)品以及它們?nèi)绾伪皇褂茫⑦@些信息轉(zhuǎn)化為支持其搜索引擎的結(jié)構(gòu)化數(shù)據(jù)。這個(gè)過程高度自動化,采用了多種不同的文本挖掘方法,從簡單的模式匹配到人工智能分類器,還納入了人工審查環(huán)節(jié)以檢查算法無法處理的邊緣情況。

正如CiteAb的首席執(zhí)行官Andrew Chalmers所描述的那樣:“我們希望獲得最好的數(shù)據(jù)來幫助研究人員,因此我們需要獲取盡可能多的科學(xué)出版物和最高質(zhì)量的數(shù)據(jù)。

與施普林格自然的合作使我們能夠訪問其豐富高質(zhì)的系列出版物,并對這些出版物進(jìn)行文本挖掘,將這些數(shù)據(jù)用于幫助研究人員獲取可能受到付費(fèi)約束的信息。然后我們將數(shù)據(jù)反饋給施普林格自然,他們則將其整合到Springer Nature Experiments(施普林格自然旗下高質(zhì)量的實(shí)驗(yàn)室指南和方法數(shù)據(jù)庫)中。我們與施普林格自然之間建立了密切的合作關(guān)系,因?yàn)閿?shù)據(jù)得到了雙向應(yīng)用。”

“這一切都說明了如何通過多個(gè)步驟將不可能變?yōu)榭赡,并激發(fā)你去尋找下一個(gè)不可能的事情。”

在Chalmers看來,CiteAb既是一家生物公司,同時(shí)也是一家科技公司。他說:“在生物領(lǐng)域,有太多的前沿技術(shù)是我們希望為之找到可適用的產(chǎn)品的,而合理運(yùn)用更多AI技術(shù)有助于更好地理解文本。目前我們已經(jīng)可以一次性對40個(gè)不同靶點(diǎn)做免疫組織化學(xué)分析,這無疑是非常神奇的。”

施普林格自然的文本和數(shù)據(jù)挖掘

文本和數(shù)據(jù)挖掘(TDM)對大量的文本或數(shù)據(jù)資源進(jìn)行自動選擇和分析,產(chǎn)出研究和研究項(xiàng)目所需的有用信息,幫助研究人員檢索內(nèi)容、尋找模式、發(fā)現(xiàn)關(guān)系、語義分析和了解內(nèi)容與概念和需求之間的關(guān)聯(lián)等。

TDM的創(chuàng)新之處在于,研究人員就算不知道具體要問什么,也能對數(shù)據(jù)集進(jìn)行分析。如今,AI已基本成熟它不單能呈遞信息,還能提供建議、做出決策并生成內(nèi)容。

施普林格自然開發(fā)了各種工具,旨在方便研究人員對我們豐富的出版物資源進(jìn)行文本和數(shù)據(jù)挖掘。

適用于開放獲取內(nèi)容的TDM

施普林格自然開放獲取內(nèi)容API:提供施普林格自然開放獲取XML格式的元數(shù)據(jù)和全文內(nèi)容(如有),覆蓋來自不同學(xué)科領(lǐng)域、超649,000篇在線文獻(xiàn),其中包括BioMed Central和SpringerOpen期刊。我們支持XML、JSON等多種數(shù)據(jù)輸出格式。

針對訂閱用戶,施普林格自然提供各種各樣的TDM組合數(shù)據(jù),如元數(shù)據(jù)或全文API,同時(shí)適用于開放獲取和訂閱內(nèi)容。

除知名的《自然》系列期刊和Springerlink期刊、圖書之外,施普林格自然還擁有SpringerMaterials、AdisInsight、SpringerProtocols等專業(yè)數(shù)據(jù)庫。

TDM數(shù)據(jù)庫可同時(shí)為訂閱用戶定制化組合不同數(shù)據(jù)模塊,以方便用戶的檢索和使用。

適用于非訂閱用戶的TDM

我們也提供多種TDM工具便于非訂閱用戶獲得開放獲取資源,例如開放獲取內(nèi)容的全文API。對于非訂閱用戶基于付費(fèi)訂閱內(nèi)容提出的TDM需求,我們將根據(jù)具體情況進(jìn)行處理。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港