展會信息港展會大全

谷歌AI“醫(yī)生”態(tài)度更好,診斷更準確
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-01-30 19:18:23   瀏覽:4381次  

導讀:原文作者:Mariana Lenharo 研究人員表示,他們的AI系統(tǒng)或推動醫(yī)療資源的普及。 一個基于谷歌大型語言模型的對話機器人能收集模擬患者的病史,并給出各種診斷。來源:Tero Vesalainen/Getty 一個被訓練學習看病的人工智能(AI)系統(tǒng)在與模擬病人交談時可媲美...

原文作者:Mariana Lenharo

研究人員表示,他們的AI系統(tǒng)或推動醫(yī)療資源的普及。

一個基于谷歌大型語言模型的對話機器人能收集模擬患者的病史,并給出各種診斷。來源:Tero Vesalainen/Getty

一個被訓練學習“看病”的人工智能(AI)系統(tǒng)在與模擬病人交談時可媲美乃至超過人類醫(yī)生的表現(xiàn),并能根據(jù)患者病史給出可能的診斷結(jié)果[1]。

這個對話機器人基于谷歌(Google)開發(fā)的大型語言模型(LLM),在呼吸道疾病和心血管疾病等方面的診斷比有執(zhí)業(yè)資格的初級保健醫(yī)師更加準確。與人類醫(yī)生相比,該機器人在醫(yī)療對話中能獲取同等量的信息,而且更有同理心。

“據(jù)我們所知,這是首個以診斷對話和獲取病史為設(shè)計目標的對話式AI系統(tǒng)。”Google Health的臨床研究科學家、該研究[1]共同作者Alan Karthikesalingam說。該研究1月11日發(fā)布于arXiv預印本服務器,尚未經(jīng)過同行評審。

該對話機器人名為Articulate Medical Intelligence Explorer(簡稱AMIE),尚處于純實驗階段。它還未在有真實健康問題的人群中測試過,只在經(jīng)過訓練患者模仿者中測試過。Karthikesalingam說:“我們希望大家能謹慎謙遜地解讀結(jié)果。”

即使該機器人距離臨床應用仍很遠,但作者認為,它最終或能推動醫(yī)療護理的普及。這個工具能作為助手,但不應取代病人與醫(yī)生的交流,哈佛大學醫(yī)學院內(nèi)科醫(yī)生Adam Rodman說,“醫(yī)療絕不是收集信息這么簡單而是關(guān)于人與人的關(guān)系。”

學習干“細活”

意圖將LLM用于醫(yī)療領(lǐng)域的開發(fā)者很少研究過這類系統(tǒng)是否能模仿醫(yī)生采集患者病史的能力,并在此基礎(chǔ)上做出診斷。醫(yī)學生經(jīng)過長年累月的訓練才具備這種能力,Rodman說,“這是醫(yī)生需要掌握的最重要也最難的技能之一。”

開發(fā)者面對的一個挑戰(zhàn)是缺少作為訓練數(shù)據(jù)的真實世界醫(yī)療對話,位于加州山景城的Google Health的AI研究科學家、該研究共同作者Vivek Natarajan 說道。為了克服這個挑戰(zhàn),研究團隊設(shè)計了一種方法,讓這個對話機器人用它自己的“對話”進行訓練。

研究團隊先用現(xiàn)成的真實世界數(shù)據(jù)對基礎(chǔ)LLM進行了初輪微調(diào),這類數(shù)據(jù)包括電子病歷和醫(yī)療對話的轉(zhuǎn)錄文本。為進一步訓練該模型,團隊再讓這個LLM扮演有特定疾病的患者和想了解病史并做出診斷的富有同情心的醫(yī)生。

該團隊還讓這個模型扮演了另一個角色:一個給醫(yī)患對話打分并提出改進意見的評委。這些評語會被用來進一步訓練這個LLM,并生成改進后的對話。

為測試該系統(tǒng),研究團隊招募了訓練后能模擬病人的20人,讓他們同時與AMIE和20名有執(zhí)業(yè)資格的醫(yī)師進行基于文字的醫(yī)療咨詢,并且不知道和他們對話的是人還是機器。

這些模仿者模擬了149種臨床情景,并被要求對體驗進行評價。一組專家也對AMIE和人類醫(yī)師的表現(xiàn)進行打分。

AMIE得高分

在測試的全部6個醫(yī)療?浦,該機器人的診斷準確率均媲美或超越了人類醫(yī)生。在26個評估對話質(zhì)量的指標中,該機器人有24個指標的得分高于人類醫(yī)生,包括禮貌程度,對疾病和療法的解釋,給人感覺誠實,以及表達關(guān)心和關(guān)注。

Karthikesalingam說:“這絕不是說語言模型在了解病史方面比醫(yī)生要強。”他指出,研究中的初級保健醫(yī)生可能并不習慣和病人用文字溝通,這會影響他們的表現(xiàn)。

而LLM在這方面具有天然的優(yōu)勢,能快速給出結(jié)構(gòu)清晰而具體的回答,Karthikesalingam說,這讓它們能不知疲倦地照顧病人的需求。

“一視同仁”的對話機器人

他說,該研究接下來的重要一步是開展更具體的研究,分析可能存在的偏見,同時確保該系統(tǒng)能同等對待不同人群。這個谷歌團隊已經(jīng)在思考,如果在真正有健康問題的人群中測試該系統(tǒng)需要滿足哪些倫理要求。

杜克新加坡國立大學醫(yī)學院臨床AI科學家Daniel Ting也認為,對該系統(tǒng)進行偏見測試至關(guān)重要,這樣才能保證算法不會區(qū)別對待訓練數(shù)據(jù)中代表性不高的族群。

對話機器人用戶的隱私也是需要考量的重要問題,Ting說,“對于現(xiàn)在使用的很多商業(yè)大型語言模型平臺來說,我們?nèi)圆恢罃?shù)據(jù)究竟儲存在那里,也不知道這些數(shù)據(jù)是如何被分析的。”

原文以

Google AI has better bedside manner than human doctors and makes better diagnoses標題發(fā)表在2024年1月12日《自然》的新聞版塊上

nature

贊助本站

人工智能實驗室
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港