三个少妇按摩中文字幕,岛国AV无码免费无禁网站,激情在线网站

谷歌《自然》論文：回答醫(yī)療咨詢，AI醫(yī)生可與人類醫(yī)生表現(xiàn)相當(dāng)

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2023-07-15 09:50:10 瀏覽：15777次

導(dǎo)讀：研究人員提出一個(gè)評(píng)估基準(zhǔn)來(lái)評(píng)測(cè)大語(yǔ)言模型在臨床知識(shí)方面的表現(xiàn)，在引入指令提示調(diào)整后，由此產(chǎn)生的模型Med-PaLM表現(xiàn)令人鼓舞：92.6%的長(zhǎng)篇答案符合科學(xué)共識(shí)，與臨床醫(yī)生生成的答案（92.9%）相當(dāng)；5.9%的答案被評(píng)為可能導(dǎo)致有害結(jié)果，與臨床醫(yī)生生成的答案...

研究人員提出一個(gè)評(píng)估基準(zhǔn)來(lái)評(píng)測(cè)大語(yǔ)言模型在臨床知識(shí)方面的表現(xiàn)，在引入指令提示調(diào)整后，由此產(chǎn)生的模型Med-PaLM表現(xiàn)令人鼓舞：92.6%的長(zhǎng)篇答案符合科學(xué)共識(shí)，與臨床醫(yī)生生成的答案（92.9%）相當(dāng)；5.9%的答案被評(píng)為可能導(dǎo)致有害結(jié)果，與臨床醫(yī)生生成的答案（5.7%）的結(jié)果相似。

“但是房間里有一頭大象，這就是‘醫(yī)學(xué)問(wèn)題’和實(shí)際行醫(yī)之間的區(qū)別。行醫(yī)并不只是回答醫(yī)學(xué)問(wèn)題，如果純粹是回答醫(yī)學(xué)問(wèn)題，我們就不需要教學(xué)醫(yī)院，醫(yī)生也不需要在學(xué)術(shù)課程之后接受多年的培訓(xùn)。”

大語(yǔ)言模型已展現(xiàn)出令人印象深刻的功能，但臨床應(yīng)用的門檻仍然很高。人們敢相信AI醫(yī)生嗎？如何評(píng)估AI問(wèn)診有效性？在回答這些問(wèn)題之前，醫(yī)學(xué)界急需一個(gè)評(píng)測(cè)標(biāo)準(zhǔn)來(lái)鑒定。

當(dāng)?shù)貢r(shí)間7月12日，Google和DeepMind的科研人員在《自然》雜志上發(fā)表一項(xiàng)研究，提出了MultiMed QA評(píng)估基準(zhǔn)，用于評(píng)測(cè)大語(yǔ)言模型在臨床知識(shí)方面的表現(xiàn)。結(jié)果研究人員發(fā)現(xiàn)，大語(yǔ)言模型構(gòu)建的AI醫(yī)生在很多方面與人類醫(yī)生相當(dāng)。

谷歌的研究人員表示，這項(xiàng)技術(shù)不會(huì)威脅到全科醫(yī)生的工作，但未來(lái)可能可以用于醫(yī)療求助熱線。

“醫(yī)學(xué)是一項(xiàng)人性化的事業(yè)，語(yǔ)言為臨床醫(yī)生、研究人員和患者之間的關(guān)鍵互動(dòng)提供了可能。然而，當(dāng)今用于醫(yī)學(xué)和醫(yī)療保健應(yīng)用的人工智能（AI）模型在很大程度上未能充分利用語(yǔ)言。”論文寫道，“這些模型雖然有用，但主要是單任務(wù)系統(tǒng)（例如用于分類、回歸或分割），缺乏表達(dá)性和交互能力。因此，當(dāng)今模型的功能與現(xiàn)實(shí)臨床工作流程中的預(yù)期之間存在不一致。”

MultiMed QA結(jié)合了涵蓋專業(yè)醫(yī)學(xué)、研究和消費(fèi)者查詢的6個(gè)現(xiàn)有醫(yī)學(xué)問(wèn)答數(shù)據(jù)集，以及包含3173個(gè)在線搜索醫(yī)學(xué)問(wèn)題的新數(shù)據(jù)集HealthSearchQA。研究者為模型的回答提出了一個(gè)人類評(píng)估框架，包括事實(shí)性、理解性、推理、可能的傷害和偏見(jiàn)幾個(gè)指標(biāo)。

MultiMed QA結(jié)合了涵蓋專業(yè)醫(yī)學(xué)、研究和消費(fèi)者查詢的6個(gè)現(xiàn)有醫(yī)學(xué)問(wèn)答數(shù)據(jù)集，以及包含3173個(gè)在線搜索醫(yī)學(xué)問(wèn)題的新數(shù)據(jù)集HealthSearchQA，對(duì)PaLM進(jìn)行了測(cè)試，并引入指令提示調(diào)整。

然后，研究人員對(duì)大語(yǔ)言模型PaLM以及其變體Flan-PaLM進(jìn)行了測(cè)試。通過(guò)結(jié)合提示策略，F(xiàn)lan-PaLM在每個(gè)MultiMedQA多項(xiàng)選擇數(shù)據(jù)集上都取得了較高的準(zhǔn)確度，包括在MedQA（美國(guó)醫(yī)療執(zhí)照考試類型問(wèn)題）上準(zhǔn)確率達(dá)67.6%，比之前最先進(jìn)的大語(yǔ)言模型還要高17%。

盡管Flan-PaLM在多項(xiàng)選擇題上表現(xiàn)強(qiáng)勁，但其對(duì)消費(fèi)者醫(yī)療問(wèn)題的回答卻暴露出關(guān)鍵差距。為了解決這個(gè)問(wèn)題，研究人員引入了指令提示調(diào)整，可以使用一些示例將大預(yù)言模型與新領(lǐng)域?qū)R。由此產(chǎn)生的模型Med-PaLM表現(xiàn)令人鼓舞。例如，臨床醫(yī)生小組認(rèn)為，F(xiàn)lan-PaLM只有61.9%的長(zhǎng)篇答案符合科學(xué)共識(shí)，而Med-PaLM答案的這一比例為92.6%，與臨床醫(yī)生生成的答案（92.9%）相當(dāng)。同樣，F(xiàn)lan-PaLM 29.7%的答案被評(píng)為可能導(dǎo)致有害結(jié)果，而Med-PaLM的這一比例為5.9%，這與臨床醫(yī)生生成的答案（5.7%）的結(jié)果相似。

Flan-PaLM 540B模型在MedQA（4個(gè)選項(xiàng)）、MedMCQA和PubMedQA數(shù)據(jù)集上的性能超過(guò)了之前的一流水平（SOTA）。以前的一流水平來(lái)自Galactica20（MedMCQA）、PubMedGPT19（MedQA）和BioGPT21（PubMedQA）。每列上方顯示的是準(zhǔn)確率百分比。

研究者提出，隨著模型規(guī)模和指令提示的調(diào)整，理解力、知識(shí)回憶和推理能力得到提高，這表明大語(yǔ)言模型在醫(yī)學(xué)領(lǐng)域具有潛在用處。不過(guò)，“盡管這些結(jié)果很有希望，但醫(yī)學(xué)領(lǐng)域很復(fù)雜。進(jìn)一步的評(píng)估是必要的，特別是在安全性、公平性和偏見(jiàn)方面。”

論文作者維韋克納塔拉揚(yáng)（Vivek Natarajan）博士表示：“我們希望醫(yī)生能夠信任這個(gè)項(xiàng)目。當(dāng)人們轉(zhuǎn)向互聯(lián)網(wǎng)獲取醫(yī)療信息時(shí)，他們會(huì)遇到信息超載，因此他們可以從10種可能的診斷中選擇最壞的情況，并承受很多不必要的壓力。這種語(yǔ)言模型將提供簡(jiǎn)短的專家意見(jiàn)，不帶偏見(jiàn)，引用其來(lái)源并表達(dá)任何不確定性。”

此外，這個(gè)項(xiàng)目可以用于分診，了解人們的病情有多緊急，再讓他們排隊(duì)接受治療。“當(dāng)我們?nèi)狈I(yè)醫(yī)生時(shí)，我們需要這個(gè)來(lái)提供幫助，這將使他們能夠騰出時(shí)間來(lái)完成自己的工作。這確實(shí)令人興奮，醫(yī)生們不必?fù)?dān)心人工智能會(huì)搶走他們的飯碗，因?yàn)檫@只會(huì)讓他們有更多的時(shí)間與病人相處。”

然而，巴斯大學(xué)教授詹姆斯達(dá)文波特（James Davenport）告訴《每日郵報(bào)》：“新聞稿描述了這篇論文如何推進(jìn)我們使用大型語(yǔ)言模型回答醫(yī)學(xué)問(wèn)題的知識(shí)，就其本身而言是準(zhǔn)確的。但是房間里有一頭大象，這就是‘醫(yī)學(xué)問(wèn)題’和實(shí)際行醫(yī)之間的區(qū)別。行醫(yī)并不只是回答醫(yī)學(xué)問(wèn)題，如果純粹是回答醫(yī)學(xué)問(wèn)題，我們就不需要教學(xué)醫(yī)院，醫(yī)生也不需要在學(xué)術(shù)課程之后接受多年的培訓(xùn)。”

谷歌《自然》論文：回答醫(yī)療咨詢，AI醫(yī)生可與人類醫(yī)生表現(xiàn)相當(dāng)
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2023-07-15 09:50:10 瀏覽：15777次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明