展會(huì)信息港展會(huì)大全

谷歌《自然》論文:回答醫(yī)療咨詢,AI醫(yī)生可與人類醫(yī)生表現(xiàn)相當(dāng)
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-07-15 09:50:10   瀏覽:15777次  

導(dǎo)讀:研究人員提出一個(gè)評(píng)估基準(zhǔn)來(lái)評(píng)測(cè)大語(yǔ)言模型在臨床知識(shí)方面的表現(xiàn),在引入指令提示調(diào)整后,由此產(chǎn)生的模型Med-PaLM表現(xiàn)令人鼓舞:92.6%的長(zhǎng)篇答案符合科學(xué)共識(shí),與臨床醫(yī)生生成的答案(92.9%)相當(dāng);5.9%的答案被評(píng)為可能導(dǎo)致有害結(jié)果,與臨床醫(yī)生生成的答案...

研究人員提出一個(gè)評(píng)估基準(zhǔn)來(lái)評(píng)測(cè)大語(yǔ)言模型在臨床知識(shí)方面的表現(xiàn),在引入指令提示調(diào)整后,由此產(chǎn)生的模型Med-PaLM表現(xiàn)令人鼓舞:92.6%的長(zhǎng)篇答案符合科學(xué)共識(shí),與臨床醫(yī)生生成的答案(92.9%)相當(dāng);5.9%的答案被評(píng)為可能導(dǎo)致有害結(jié)果,與臨床醫(yī)生生成的答案(5.7%)的結(jié)果相似。

“但是房間里有一頭大象,這就是‘醫(yī)學(xué)問(wèn)題’和實(shí)際行醫(yī)之間的區(qū)別。行醫(yī)并不只是回答醫(yī)學(xué)問(wèn)題,如果純粹是回答醫(yī)學(xué)問(wèn)題,我們就不需要教學(xué)醫(yī)院,醫(yī)生也不需要在學(xué)術(shù)課程之后接受多年的培訓(xùn)。”

大語(yǔ)言模型已展現(xiàn)出令人印象深刻的功能,但臨床應(yīng)用的門檻仍然很高。人們敢相信AI醫(yī)生嗎?如何評(píng)估AI問(wèn)診有效性?在回答這些問(wèn)題之前,醫(yī)學(xué)界急需一個(gè)評(píng)測(cè)標(biāo)準(zhǔn)來(lái)鑒定。

當(dāng)?shù)貢r(shí)間7月12日,Google和DeepMind的科研人員在《自然》雜志上發(fā)表一項(xiàng)研究,提出了MultiMed QA評(píng)估基準(zhǔn),用于評(píng)測(cè)大語(yǔ)言模型在臨床知識(shí)方面的表現(xiàn)。結(jié)果研究人員發(fā)現(xiàn),大語(yǔ)言模型構(gòu)建的AI醫(yī)生在很多方面與人類醫(yī)生相當(dāng)。

谷歌的研究人員表示,這項(xiàng)技術(shù)不會(huì)威脅到全科醫(yī)生的工作,但未來(lái)可能可以用于醫(yī)療求助熱線。

“醫(yī)學(xué)是一項(xiàng)人性化的事業(yè),語(yǔ)言為臨床醫(yī)生、研究人員和患者之間的關(guān)鍵互動(dòng)提供了可能。然而,當(dāng)今用于醫(yī)學(xué)和醫(yī)療保健應(yīng)用的人工智能(AI)模型在很大程度上未能充分利用語(yǔ)言。”論文寫道,“這些模型雖然有用,但主要是單任務(wù)系統(tǒng)(例如用于分類、回歸或分割),缺乏表達(dá)性和交互能力。因此,當(dāng)今模型的功能與現(xiàn)實(shí)臨床工作流程中的預(yù)期之間存在不一致。”

MultiMed QA結(jié)合了涵蓋專業(yè)醫(yī)學(xué)、研究和消費(fèi)者查詢的6個(gè)現(xiàn)有醫(yī)學(xué)問(wèn)答數(shù)據(jù)集,以及包含3173個(gè)在線搜索醫(yī)學(xué)問(wèn)題的新數(shù)據(jù)集HealthSearchQA。研究者為模型的回答提出了一個(gè)人類評(píng)估框架,包括事實(shí)性、理解性、推理、可能的傷害和偏見(jiàn)幾個(gè)指標(biāo)。

MultiMed QA結(jié)合了涵蓋專業(yè)醫(yī)學(xué)、研究和消費(fèi)者查詢的6個(gè)現(xiàn)有醫(yī)學(xué)問(wèn)答數(shù)據(jù)集,以及包含3173個(gè)在線搜索醫(yī)學(xué)問(wèn)題的新數(shù)據(jù)集HealthSearchQA,對(duì)PaLM進(jìn)行了測(cè)試,并引入指令提示調(diào)整。

然后,研究人員對(duì)大語(yǔ)言模型PaLM以及其變體Flan-PaLM進(jìn)行了測(cè)試。通過(guò)結(jié)合提示策略,F(xiàn)lan-PaLM在每個(gè)MultiMedQA多項(xiàng)選擇數(shù)據(jù)集上都取得了較高的準(zhǔn)確度,包括在MedQA(美國(guó)醫(yī)療執(zhí)照考試類型問(wèn)題)上準(zhǔn)確率達(dá)67.6%,比之前最先進(jìn)的大語(yǔ)言模型還要高17%。

盡管Flan-PaLM在多項(xiàng)選擇題上表現(xiàn)強(qiáng)勁,但其對(duì)消費(fèi)者醫(yī)療問(wèn)題的回答卻暴露出關(guān)鍵差距。為了解決這個(gè)問(wèn)題,研究人員引入了指令提示調(diào)整,可以使用一些示例將大預(yù)言模型與新領(lǐng)域?qū)R。由此產(chǎn)生的模型Med-PaLM表現(xiàn)令人鼓舞。例如,臨床醫(yī)生小組認(rèn)為,F(xiàn)lan-PaLM只有61.9%的長(zhǎng)篇答案符合科學(xué)共識(shí),而Med-PaLM答案的這一比例為92.6%,與臨床醫(yī)生生成的答案(92.9%)相當(dāng)。同樣,F(xiàn)lan-PaLM 29.7%的答案被評(píng)為可能導(dǎo)致有害結(jié)果,而Med-PaLM的這一比例為5.9%,這與臨床醫(yī)生生成的答案(5.7%)的結(jié)果相似。

Flan-PaLM 540B模型在MedQA(4個(gè)選項(xiàng))、MedMCQA和PubMedQA數(shù)據(jù)集上的性能超過(guò)了之前的一流水平(SOTA)。以前的一流水平來(lái)自Galactica20(MedMCQA)、PubMedGPT19(MedQA)和BioGPT21(PubMedQA)。每列上方顯示的是準(zhǔn)確率百分比。

研究者提出,隨著模型規(guī)模和指令提示的調(diào)整,理解力、知識(shí)回憶和推理能力得到提高,這表明大語(yǔ)言模型在醫(yī)學(xué)領(lǐng)域具有潛在用處。不過(guò),“盡管這些結(jié)果很有希望,但醫(yī)學(xué)領(lǐng)域很復(fù)雜。進(jìn)一步的評(píng)估是必要的,特別是在安全性、公平性和偏見(jiàn)方面。”

論文作者維韋克納塔拉揚(yáng)(Vivek Natarajan)博士表示:“我們希望醫(yī)生能夠信任這個(gè)項(xiàng)目。當(dāng)人們轉(zhuǎn)向互聯(lián)網(wǎng)獲取醫(yī)療信息時(shí),他們會(huì)遇到信息超載,因此他們可以從10種可能的診斷中選擇最壞的情況,并承受很多不必要的壓力。這種語(yǔ)言模型將提供簡(jiǎn)短的專家意見(jiàn),不帶偏見(jiàn),引用其來(lái)源并表達(dá)任何不確定性。”

此外,這個(gè)項(xiàng)目可以用于分診,了解人們的病情有多緊急,再讓他們排隊(duì)接受治療。“當(dāng)我們?nèi)狈I(yè)醫(yī)生時(shí),我們需要這個(gè)來(lái)提供幫助,這將使他們能夠騰出時(shí)間來(lái)完成自己的工作。這確實(shí)令人興奮,醫(yī)生們不必?fù)?dān)心人工智能會(huì)搶走他們的飯碗,因?yàn)檫@只會(huì)讓他們有更多的時(shí)間與病人相處。”

然而,巴斯大學(xué)教授詹姆斯達(dá)文波特(James Davenport)告訴《每日郵報(bào)》:“新聞稿描述了這篇論文如何推進(jìn)我們使用大型語(yǔ)言模型回答醫(yī)學(xué)問(wèn)題的知識(shí),就其本身而言是準(zhǔn)確的。但是房間里有一頭大象,這就是‘醫(yī)學(xué)問(wèn)題’和實(shí)際行醫(yī)之間的區(qū)別。行醫(yī)并不只是回答醫(yī)學(xué)問(wèn)題,如果純粹是回答醫(yī)學(xué)問(wèn)題,我們就不需要教學(xué)醫(yī)院,醫(yī)生也不需要在學(xué)術(shù)課程之后接受多年的培訓(xùn)。”

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港