當前位置：人工智能實驗室> 人工智能應用 > AI醫(yī)生來了，你敢信它的診斷嗎

AI醫(yī)生來了，你敢信它的診斷嗎
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-08-22 08:59:07 瀏覽：11962次

導讀：近一年總是餓，吃得多，還瘦了。武漢市協(xié)和醫(yī)院麻醉醫(yī)生凌肯在電腦上敲下這句話�，F(xiàn)在他是一名患者，專門測試一位醫(yī)生的水平。請問您有沒有既往病史，例如糖尿...

“近一年總是餓，吃得多，還瘦了。”武漢市協(xié)和醫(yī)院麻醉醫(yī)生凌肯在電腦上敲下這句話�，F(xiàn)在他是一名患者，專門測試一位“醫(yī)生”的水平。

“請問您有沒有既往病史，例如糖尿并甲狀腺疾病等？家族中有沒有類似的病例？您有沒有藥物過敏史或手術(shù)史？”屏幕另一端的“醫(yī)生”回復他。

和凌肯對話的不是真人，而是一款名為MedGPT的大語言模型問診AI，由互聯(lián)網(wǎng)醫(yī)療公司醫(yī)聯(lián)開發(fā)。自ChatGPT發(fā)布以來，國內(nèi)外企業(yè)都先后投入到醫(yī)療大語言模型研發(fā)的浪潮中。騰訊、百度等大廠，華為、訊飛、商湯等科技公司，以及醫(yī)聯(lián)、春雨醫(yī)生等互聯(lián)網(wǎng)醫(yī)療企業(yè)，陸續(xù)公布在垂直類大模型方面的布局。

7月，谷歌公司的醫(yī)療問診AI Med-PalM的研究團隊在《自然》雜志發(fā)布了研究成果，經(jīng)臨床醫(yī)生評估，Med-PalM的長篇回答中有92.6％與科學共識一致。“AI醫(yī)生”的優(yōu)異表現(xiàn)也引發(fā)更多討論與擔憂：AI達到替代醫(yī)生的水平了嗎？怎樣保證AI的準確性？如果AI診斷出問題，誰來為錯誤負責？

凌肯和MedGPT的對話還在繼續(xù)。問過既往病史、家族史、過敏史后，“醫(yī)生”又詢問了體重減輕范圍、其他癥狀表現(xiàn)、睡眠質(zhì)量、飲食習慣、血壓等信息，最后開出一份檢查方案，要求凌肯檢查血糖、甲狀腺功能。凌肯將準備好的檢查結(jié)果輸入，十幾秒后，MedGPT給出自己的診斷：甲狀腺功能亢進癥答案是正確的。

圖/視覺中國

面對非醫(yī)療信息“會越聊越歪”

醫(yī)生們對AI早已不陌生。2017年，國內(nèi)首批醫(yī)療AI產(chǎn)品以科研合作的方式進入醫(yī)院，2018年起，這些產(chǎn)品陸續(xù)獲得國家藥監(jiān)局審批。截至今年5月底，國家藥監(jiān)局已批準59個醫(yī)療AI輔診軟件上市。上海長征醫(yī)院放射診斷科主任劉士遠曾表示，發(fā)展最為成熟的是肺結(jié)節(jié)和冠脈影像輔診兩類，骨科、腦科等AI輔診軟件還未被常規(guī)使用。

以心臟冠狀動脈CT血管造影，即冠脈CTA為例，一名患者做一次檢查產(chǎn)生上百張圖片，醫(yī)生需要在其中找出血管是否出現(xiàn)狹窄、斑塊。AI能將每例圖像的處理時間從45分鐘縮短到5分鐘。

在引入臨床決策支持系統(tǒng)（以下簡稱CDSS）的醫(yī)院里，AI還能幫醫(yī)護作臨床決策。CDSS是一種綜合分析醫(yī)學知識和患者信息，為醫(yī)務人員臨床診療提供多種幫助的計算機輔助信息系統(tǒng)。2020年4至5月期間，國家衛(wèi)健委醫(yī)院管理研究所對全國31個省份的1013所醫(yī)療機構(gòu)調(diào)研，其中19.6％的醫(yī)院有CDSS。

但這些產(chǎn)品并未對提升醫(yī)生的診斷水平有太多幫助。多位受訪醫(yī)生、規(guī)培醫(yī)師告訴《中國新聞周刊》，由于科室收治病人種類相對固定，處理流程成熟，基本不會使用CDSS作參考，遇到不確定的問題會直接咨詢上級醫(yī)生或科室討論。并且，現(xiàn)在的CDSS還很“死板”，在自動審查醫(yī)囑時，會對超說明書用藥“糾錯”。“但往往我們會堅持用藥。”一名三甲醫(yī)院規(guī)培醫(yī)師說。

國家衛(wèi)健委衛(wèi)生發(fā)展研究中心副主任游茂7月在全國醫(yī)療器械安全宣傳周暨人工智能標準宣貫會上表示，當前AI醫(yī)療領域的困境之一，在于技術(shù)發(fā)展同質(zhì)化嚴重，數(shù)據(jù)、算法的優(yōu)勢尚未得到體現(xiàn)。中國AI醫(yī)療器械95％的研究或產(chǎn)出都在醫(yī)學影像類，在“醫(yī)療機器人”“知識庫”“自然語言處理”等領域研究相對不足，關于“決策規(guī)則”的研究幾近空白。

“其實不是研究空白，是落地成產(chǎn)品有很多限制。” 一位研究醫(yī)療領域自然語言處理十年的高校學者告訴《中國新聞周刊》。她表示， X光機、CT設備、磁共振儀等影像類醫(yī)療器械是醫(yī)療機構(gòu)的硬需求，AI輔診軟件可搭載在影像設備上，相比處理文本數(shù)據(jù)的軟件更易進入醫(yī)療機構(gòu)。另外，影像數(shù)據(jù)較診療文本數(shù)據(jù)更獨立，更易脫敏，且公開的圖像數(shù)據(jù)庫更多，而公開的高質(zhì)量診療文本數(shù)據(jù)十分有限，這使得在“自然語言處理”等領域研究不足。

ChatGPT的出現(xiàn)，讓企業(yè)看到大語言模型給AI問診帶來的新機會。

醫(yī)聯(lián)創(chuàng)始人兼CEO王仕銳表示，醫(yī)聯(lián)此前也開發(fā)了包括口腔影像識別、精神科DTx數(shù)字療法等醫(yī)療AI類產(chǎn)品，但無法實現(xiàn)AI全流程診療。“當時遇到一個無法逾越的鴻溝自然語義的識別。”王仕銳說，大語言模型推出前，雖然知識圖譜等技術(shù)也能實現(xiàn)人機對話，但對話機器人的推理、上下文理解能力還不足，并難以做到普通人語言與醫(yī)學術(shù)語間的語義轉(zhuǎn)換。

MedGPT從今年1月開始研發(fā)，5月推出，參數(shù)達千億級別，定位是突破“人問機答”模式，能像真人醫(yī)生一樣主動多輪詢問患者癥狀等信息，推斷患者可能患病的類型，并開具檢驗檢查單�；颊咻斎霗z查數(shù)據(jù)后，AI可繼續(xù)讀取數(shù)據(jù)，并給出治療方案。

目前，MedGPT還未對公眾開放。參與內(nèi)測的凌肯用了一小時和MedGPT互動，拋出的問題包括麻醉是否會影響患者智商，甲狀腺功能亢進患者的完整診斷等。凌肯告訴《中國新聞周刊》，MedGPT問得很詳細，回復也較真人醫(yī)生更加親和，“但遠遠沒到取代醫(yī)生的地步”。

他解釋道，體驗過程中最突出的問題是，MedGPT不能很好地接收非醫(yī)療信息。若模擬真實看診過程中患者向醫(yī)生傾訴家庭情況等非醫(yī)療信息， MedGPT還做不到提煉其中的核心信息，“會越聊越歪”。王仕銳表示，患者的語言可以不夠簡潔，但只有回答AI提出的醫(yī)療問題，AI才能給出準確回應。

相比之下，春雨醫(yī)生布局更謹慎。5月，春雨醫(yī)生將大模型在線問診產(chǎn)品春雨慧問開放免費使用。不同于MedGPT開檢查單、給診斷，慧問在較少輪次問詢后會告知患者癥狀可能對應的多種疾病及對策，之后，以“如果您情況比較嚴重，建議您及時就醫(yī)，尋求專業(yè)醫(yī)生的幫助”為結(jié)束語。

“就像自動駕駛，很難一上來就做到完全自動駕駛，但我們是不是可以有自動停車、輔助倒車功能？這些功能本身也很好用，研發(fā)難度會低很多，對使用安全性的要求也會低很多。”對于暫時不做精準診斷和治療方案的原因，春雨CTO曾柏毅解釋說。

曾柏毅坦言，慧問更像是春雨在探索大模型運用場景過程中的一個實驗品，定位并不明確，“我們也想看市場里面用戶到底想要什么，愿意怎樣使用AI問診產(chǎn)品，會對AI提什么樣的問題。”后臺數(shù)據(jù)顯示，從5月上線到7月底，共有5000多人使用慧問，其中5％左右在使用過程中轉(zhuǎn)向了向真人醫(yī)生求助。曾柏毅稱，春雨在開發(fā)詢問過程更加詳細的AI問診產(chǎn)品，計劃用于真人醫(yī)生問診場景。

醫(yī)療大語言模型的另一落地模式是直接與醫(yī)院合作，和線下診療過程相結(jié)合。商湯智能產(chǎn)業(yè)研究院院長田豐對《中國新聞周刊》介紹，商湯與鄭州大學第一附屬醫(yī)院、上海交通大學醫(yī)學院附屬新華醫(yī)院合作，醫(yī)療大語言模型“大醫(yī)”的參數(shù)從十億到千億不等，已使用在一些醫(yī)院的隨訪過程中。田豐表示，基于大模型的隨訪系統(tǒng)比傳統(tǒng)的AI電話隨訪機器人，有更強理解力、更人性化的交互和更全面的信息收集能力。

7月6日，上海世博展覽館，2023世界人工智能大會上的中山眼科中心AI+醫(yī)療展區(qū)。圖/視覺中國

最難獲取的是真實的問診數(shù)據(jù)

如何讓問診AI少出錯甚至不出錯，是所有研發(fā)團隊要解決的首要難題。

大語言模型的本質(zhì)是通過統(tǒng)計分析預測對話中可能的下一個詞，存在生成不準確或誤導信息的可能性，但在嚴格要求準確性的醫(yī)療領域，AI的錯誤也意味著患者將承受風險。

2021年，密歇根大學醫(yī)學院研究人員發(fā)現(xiàn)，由美國電子健康記錄公司Epic Systems 研發(fā)的敗血癥AI預警系統(tǒng)沒能識別出67％的敗血癥住院患者，只識別出7％被醫(yī)生遺漏的敗血癥患者。Epic公司稱，漏檢與系統(tǒng)閾值有關，需要設置一個平衡患者假陰性與假陽性的警報閾值。

高質(zhì)量數(shù)據(jù)是保證準確性的基矗醫(yī)療大語言模型會被額外“投喂”醫(yī)學書籍、臨床診療指南、醫(yī)學論文等專業(yè)知識。其中最重要、也最難獲取的是優(yōu)秀的真實問診數(shù)據(jù)，既包括頂級專家對該疾病的診斷記錄，也包括患者身體特征、檢測數(shù)據(jù)、家族史、環(huán)境信息等多維度的信息，同時，還需要覆蓋各年齡層、性別、地域的患者。

多位受訪專家和從業(yè)者表示，已有問診數(shù)據(jù)尚不能完全滿足研發(fā)需求。國家遠程醫(yī)療與互聯(lián)網(wǎng)醫(yī)學中心醫(yī)學人工智能專家委員會主任委員、呼吸病學專家劉國梁告訴《中國新聞周刊》，即使能收集到目前醫(yī)院的臨床數(shù)據(jù)，其質(zhì)量也未達到能夠用于AI訓練的水平，需要專門去生產(chǎn)符合AI訓練標準的臨床問診數(shù)據(jù)。

更多的臨床經(jīng)驗可能未被記錄成文本。“特別是疑難病領域，很多知識是在醫(yī)生腦子里，甚至醫(yī)院里面可能也沒有，都是口口相傳。”曾柏毅說。

王仕銳介紹說，醫(yī)聯(lián)共使用三類真實問診數(shù)據(jù)，包括公開數(shù)據(jù)、醫(yī)聯(lián)獨有的問診數(shù)據(jù)，以及通過搭建專門的數(shù)據(jù)平臺收集的數(shù)據(jù)。對于第三類數(shù)據(jù)，醫(yī)聯(lián)從協(xié)會、醫(yī)院、專家處采集，“這一過程好像將石油從地底勘察并最終加工運輸?shù)接拖�，中間有漫長且復雜的工序。”

前述高校學者強調(diào)，數(shù)據(jù)質(zhì)量對研究非常重要，但前提是要保障數(shù)據(jù)安全。對數(shù)據(jù)的采集、篩選必須建立在保護數(shù)據(jù)安全的基礎上，個人信息脫敏，保護患者隱私是首要步驟。醫(yī)聯(lián)、春雨醫(yī)生和商湯均表示對數(shù)據(jù)進行了脫敏處理，并在使用前取得了患者同意。

除了數(shù)據(jù)，模型設計也能提升醫(yī)療AI的準確率。田豐說，商湯成立了一支近百人的醫(yī)學專家團隊，參與數(shù)據(jù)標注、模型訓練及測試，保證AI能夠完成多輪問診、不回答患者非醫(yī)療問題等。商湯還訓練了一套“智能評判系統(tǒng)”，對大語言模型輸出的答案進行評判，讓模型輸出更符合臨床專業(yè)要求以及人類價值觀的回答。

不過，再怎樣調(diào)試醫(yī)療AI，其本身存在一定局限性。劉國梁認為AI與真人醫(yī)生最根本的差異在于，二者在診療過程中的原則可能不相同。目前尚不能確定AI在診斷時，是以患者生命長度為重要衡量，還是以更好的生命質(zhì)量為先，抑或根本與人類福祉無關。一名優(yōu)秀的醫(yī)生能夠在關注患者治療方案的同時，照顧其情緒、花費、家庭情況，目前醫(yī)療AI還難以做到。

另外，醫(yī)療AI主要依靠患者的問診數(shù)據(jù)，缺少查體過程。一方面，軀體類疾病可能會影響患者的感覺，使其表述出來的感受與病情嚴重程度不相符；另一方面，不同疾病也有相似癥狀，只靠詢問很難得到準確結(jié)果。

北京大學人民醫(yī)院骨科主任醫(yī)師薛峰告訴《中國新聞周刊》，很多醫(yī)學問題尚未有明確答案，許多醫(yī)生也是依靠經(jīng)驗，達不到100％的準確率，更何況依靠人類經(jīng)驗來進行推理的AI，“現(xiàn)階段讓它來看病只是作為一種咨詢、一種輔助，最后判斷還是要交給真人醫(yī)生，AI還需持續(xù)學習和調(diào)優(yōu)”。

多位受訪從業(yè)者、專家均表示，AI并不可以、也不可能取代醫(yī)生，不應有處方權(quán)。一旦涉及診斷、開處方，必須有真人醫(yī)生參與其中，否則就會面對“AI看病看錯了，到底是AI負責，還是AI開發(fā)公司負責，抑或是購入AI產(chǎn)品的醫(yī)院或醫(yī)生負責”的難題。當AI與醫(yī)生意見不符合，比如患者希望按照AI建議做非常昂貴，但醫(yī)保不報銷的檢查，醫(yī)生覺得沒有必要時，也可能出現(xiàn)倫理問題。

據(jù)《華爾街日報》今年6月報道，在加州大學戴維斯分校醫(yī)學中心腫瘤科，護士梅麗莎畢比和癌癥患者打了15年交道。當AI預警系統(tǒng)提示她的一名患者有敗血癥時，她確信警報是錯的因為AI不知道，白血病患者也會表現(xiàn)出類似敗血癥的癥狀。

按照醫(yī)院規(guī)定，畢比可以在獲得醫(yī)生批準后推翻AI的診斷，但如果她錯了，她將面臨處分。最后，她只好按照AI的診斷給病人抽血檢查，即使這可能會讓病人進一步感染，也會讓其治療費用更高。

未來臨床實踐將怎樣保證醫(yī)生參與監(jiān)管AI？薛峰表示有兩種設想：一是仍然由醫(yī)生負責開處方，AI只負責前期詢問及信息收集；二是由AI開處方，但醫(yī)生需要審核治療方案，至少保證藥物無害并簽字，若出現(xiàn)問題，仍由簽字醫(yī)生負責。

全新的三方關系

6月末，醫(yī)聯(lián)在成都舉行了一場“雙盲實驗”，讓MedGPT與10位四川華西醫(yī)院的主治醫(yī)生一起對120余位患者進行診斷，來評測AI與真人醫(yī)生的一致性，最后由多位專家對91份有效病例審核。劉國梁與薛峰都參與了此次審核，二人表示MedGPT的效果比預期稍高，沒有出現(xiàn)太大錯誤，但也存在一些問題。

薛峰表示，MedGPT在面對復雜病情時的問診邏輯還很簡單。他解釋說，每一種疾病往往會有一組癥狀，單一癥狀對應的疾病可能有幾十種、上百種，而患者在表達主訴時往往只會說到其中一兩個最嚴重的癥狀。做排除診斷時，真人醫(yī)生能夠不斷就可能的關聯(lián)癥狀進行提問，最后根據(jù)患者回答作甄別，而MedGPT在關聯(lián)不同癥狀的全面性上還有不足。

王仕銳稱，醫(yī)聯(lián)的下一步除了提高準確率，還會整合多模態(tài)能力，彌補不能進行查體的缺陷。比如給MedGPT“裝眼睛”，以視頻方式做運動軌跡識別，解決骨科查體難題。谷歌在7月末推出新的通用生物醫(yī)療AI模型Med-PalM M，除了回答醫(yī)療問題，Med-PalM M還可檢查X光圖像，甚至掃描 DNA 序列是否存在突變。

擺在問診AI面前的問題，還有監(jiān)管。此前，國家藥監(jiān)局器審中心發(fā)布的《人工智能醫(yī)療器械注冊審查指導原則(征求意見稿)》等文件規(guī)定，基于醫(yī)療器械數(shù)據(jù)、使用人工智能技術(shù)實現(xiàn)其預期用途的醫(yī)療器械，需要經(jīng)藥監(jiān)局審批上市。醫(yī)療器械數(shù)據(jù)包含圖像數(shù)據(jù)、生理參數(shù)、體外診斷數(shù)據(jù)等，電子病歷、醫(yī)學檢查報告的結(jié)果文本等屬于非醫(yī)療器械數(shù)據(jù)。

以MedGPT為例，雖然主要依靠患者主訴信息，但是也會給患者開檢查報告，基于血糖、血壓等數(shù)據(jù)來推薦治療方案。王仕銳表示，在當下的監(jiān)管體系中難以界定其是否屬于醫(yī)療器械，對此類新型產(chǎn)品，相關部門可能會有新的監(jiān)管框架。

7月13日，國家網(wǎng)信辦聯(lián)合六部門公布《生成式人工智能服務管理暫行辦法》（下稱《辦法》）。《辦法》自2023年8月15日起施行，其中提到鼓勵生成式AI創(chuàng)新發(fā)展，并要求“具有輿論屬性或者社會動員能力”的產(chǎn)品，向公眾提供服務前，需開展安全評估，并履行算法備案�；谏墒紸I的問診產(chǎn)品是否要申請安全評估和算法備案，多家企業(yè)說法不一。前述學者表示，該《辦法》為醫(yī)療AI設定了合法合規(guī)的框架，但針對醫(yī)療AI的監(jiān)管如何實施，標準如何制定，《辦法》還未明確。

“標準化最關鍵的、最本質(zhì)的目的就是建立最佳秩序。”該學者說，為創(chuàng)新產(chǎn)品制定標準是一個緩慢的過程，到底怎么定、定多高需要不斷摸索。多位受訪從業(yè)者都表示從研發(fā)到進入臨床，醫(yī)療大語言模型還有很長一段路走，但也都認可AI一定是未來醫(yī)療格局的一分子。

AI可以使醫(yī)療模式轉(zhuǎn)向社區(qū)化、家庭醫(yī)生化。薛峰表示，門診中90％以上都是常見病，可以通過家庭醫(yī)生來解決，但目前醫(yī)療資源并不均衡，三甲醫(yī)院與基層醫(yī)院醫(yī)療水平相差過大，導致患者對社區(qū)醫(yī)院不信任。

薛峰說，若AI成為面向患者的家庭醫(yī)生，患者通過預先咨詢AI，可為醫(yī)療機構(gòu)減輕負擔，同時也增加對病情的初步了解，找準看病方向。“這樣的醫(yī)療模式有助于醫(yī)療規(guī)范化，減少過度醫(yī)療或醫(yī)療欺騙。”薛峰說。

在面向醫(yī)生的場景中，AI的作用可以更多。多位受訪專家表示，AI可以成為助手，幫助醫(yī)生學習疑難雜癥的前沿治療方案，減少誤診率，亦可參與醫(yī)學培訓，幫助年輕醫(yī)生及醫(yī)學能力不足的基層醫(yī)生成長。美國波士頓的一家醫(yī)療機構(gòu)已開始使用ChatGPT來培訓規(guī)培生。“因為醫(yī)學訓練有時候不存在對錯，而是鍛煉醫(yī)生的思維方式、結(jié)果解讀、溝通等，可以（用AI）單獨去訓練這些能力。”劉國梁說。

更直接的可能性是AI能使醫(yī)生從文書的工作中獲得解放。浙江某三甲醫(yī)院的一名規(guī)培醫(yī)師告訴《中國新聞周刊》，接收新病人時會花費不少時間寫首程診斷。今年2月開始，他嘗試讓ChatGPT幫他寫鑒別診斷，“因為有時候診斷都很明確了，還要絞盡腦汁去想鑒別診斷也挺煩。我會直接把問題拋給ChatGPT，告訴它我想寫某兩種疾病的簡潔診斷，它會給我列出好幾點。”

未來醫(yī)療到底會怎樣，微軟全球資深副總裁彼得李與兩位合著者在《超越想象的GPT醫(yī)療》中描繪了一種新的醫(yī)患關系：傳統(tǒng)醫(yī)學中醫(yī)生與患者是一對雙向關系，但現(xiàn)在我們應該轉(zhuǎn)向一種全新的三方關系，而AI是這個三角關系的第三支柱。

發(fā)于2023.8.21總第1105期《中國新聞周刊》雜志

雜志標題：大模型進入醫(yī)療領域：AI能替代醫(yī)生嗎？

作者：董慧