“正確地測(cè)試用于醫(yī)療環(huán)境的人工智能系統(tǒng)是一個(gè)復(fù)雜的多階段過程。盡管研究人員知道人工智能干預(yù)的理想臨床試驗(yàn)應(yīng)該是什么樣子,但在實(shí)踐中,測(cè)試這些技術(shù)是具有挑戰(zhàn)性的。”
人工智能(AI)被認(rèn)為有助于提高診斷和治療的效率。當(dāng)?shù)貢r(shí)間2024年8月21日,《自然》(Nature)雜志發(fā)布的一篇文章顯示,美國食品藥品監(jiān)督管理局(FDA)等監(jiān)管機(jī)構(gòu)已批準(zhǔn)數(shù)百種用于醫(yī)院或診所的人工智能醫(yī)療設(shè)備,但在2020年至2022年間,僅有65項(xiàng)人工智能干預(yù)的隨機(jī)對(duì)照試驗(yàn)發(fā)表。
“正確地測(cè)試用于醫(yī)療環(huán)境的人工智能系統(tǒng)是一個(gè)復(fù)雜的多階段過程。”文章寫道,“盡管研究人員知道人工智能干預(yù)的理想臨床試驗(yàn)應(yīng)該是什么樣子,但在實(shí)踐中,測(cè)試這些技術(shù)是具有挑戰(zhàn)性的。”
文章介紹,基于人工智能的醫(yī)療應(yīng)用程序通常被藥品監(jiān)管機(jī)構(gòu)(包括美國FDA和英國藥品和保健產(chǎn)品監(jiān)管機(jī)構(gòu))視為醫(yī)療器械。因此,審查和授權(quán)使用它們的標(biāo)準(zhǔn)往往不如藥物嚴(yán)格。只有一小部分高風(fēng)險(xiǎn)的設(shè)備需要臨床試驗(yàn)數(shù)據(jù)才能獲批。
“很多人認(rèn)為這個(gè)標(biāo)準(zhǔn)太低了。”文章寫道,美國賓夕法尼亞大學(xué)(the University of Pennsylvania)的重癥監(jiān)護(hù)醫(yī)生加里韋斯曼(Gary Weissman)審查FDA批準(zhǔn)的AI設(shè)備時(shí),發(fā)現(xiàn)10個(gè)設(shè)備中只有3個(gè)設(shè)備在授權(quán)書中引用了已發(fā)表的數(shù)據(jù),只有4個(gè)提到了安全性評(píng)估,沒有一個(gè)包括偏倚評(píng)估。“令人擔(dān)憂的是,這些設(shè)備真的影響臨床護(hù)理,而這關(guān)乎病人的生命。”他說。
“一種完美的算法可能失敗,因?yàn)槿祟愋袨榫哂锌勺冃詿o論是醫(yī)療專業(yè)人員還是接受治療的人。”文章寫道。
首先,人工智能系統(tǒng)的正確運(yùn)行取決于醫(yī)療保健專業(yè)人員與算法的互動(dòng)程度。美國梅奧診所(Mayo Clinic)測(cè)試了自己開發(fā)的檢測(cè)低射血分?jǐn)?shù)心臟病的算法,這個(gè)工具可以標(biāo)記那些疑似心力衰竭的高危人群,他們往往沒有被診斷出來。臨床試驗(yàn)表明,該算法確實(shí)提高了診斷率,但初級(jí)醫(yī)療保健人員希望得到進(jìn)一步的指導(dǎo),以了解如何與患者談?wù)撍惴ǖ陌l(fā)現(xiàn)。也就是說,人工智能應(yīng)用程序若廣泛推廣,應(yīng)當(dāng)包含與患者溝通的重要信息的要點(diǎn),以節(jié)省醫(yī)生在臨床上的溝通時(shí)間。
另一方面,臨床醫(yī)生接觸到大量人工智能生成的警告時(shí),可能產(chǎn)生“警報(bào)疲勞”,即當(dāng)臨床醫(yī)生接觸大量AI生成的警告時(shí),他們可能會(huì)對(duì)這些警告變得麻木,從而無法迅速反應(yīng)。
其次,AI臨床測(cè)試的結(jié)果難以在不同人群中推廣。英國伯明翰大學(xué)(University of Birmingham)人工智能和數(shù)字健康技術(shù)的臨床科學(xué)家劉曉軒說:“一個(gè)眾所周知的事實(shí)是,人工智能算法在處理與訓(xùn)練數(shù)據(jù)不同的數(shù)據(jù)時(shí)非常脆弱。只有當(dāng)臨床試驗(yàn)參與者代表了該工具將要用于的人群時(shí),才能安全地推斷結(jié)果。”
此外,那些基于擁有大量資源的醫(yī)院的數(shù)據(jù)進(jìn)行訓(xùn)練的算法,在資源較少的環(huán)境中應(yīng)用時(shí)可能表現(xiàn)不佳。文章舉例,谷歌健康開發(fā)的用于檢測(cè)糖尿病視網(wǎng)膜病變的算法,在泰國診所使用時(shí)性能顯著下降。一項(xiàng)觀察性研究顯示,泰國診所的照明條件導(dǎo)致低質(zhì)量的眼睛圖像,從而導(dǎo)致該算法有效性降低。
還有一個(gè)問題是患者同意。據(jù)文章介紹,目前,大多數(shù)醫(yī)療人工智能工具都幫助醫(yī)療保健專業(yè)人員進(jìn)行篩查、診斷或治療規(guī)劃,但患者可能不知道這些技術(shù)正在接受測(cè)試或經(jīng)常用于他們的護(hù)理中,目前沒有任何國家要求提供商披露這一點(diǎn)。
隨著越來越多的人工智能工具和公司進(jìn)入市場(chǎng),探索在醫(yī)學(xué)領(lǐng)域使用和評(píng)估人工智能系統(tǒng)的方法迫在眉睫。健康人工智能聯(lián)盟(the Coalition for Health AI)提議建立一個(gè)健康人工智能保證實(shí)驗(yàn)室網(wǎng)絡(luò)。該實(shí)驗(yàn)室將使用一套商定的原則,以集中的方式評(píng)估模型。其成員,醫(yī)療人工智能專家肖娜奧弗加德(Shauna Overgaard)說:“對(duì)大型組織來說,這(指自己測(cè)試醫(yī)療人工智能工具)已經(jīng)很困難了;對(duì)小型組織來說,難度會(huì)大得多。”
對(duì)此,美國杜克健康創(chuàng)新研究所(Duke Institute for Health Innovation)的臨床數(shù)據(jù)科學(xué)家馬克森達(dá)克(Mark Sendak)持反對(duì)意見:“每個(gè)環(huán)境都需要有自己的內(nèi)部能力和基礎(chǔ)設(shè)施來進(jìn)行測(cè)試,這種集中的方法并不理想。”他所在的健康人工智能伙伴關(guān)系組織則提倡為任何能夠在當(dāng)?shù)販y(cè)試人工智能模型的組織培養(yǎng)能力并提供技術(shù)援助。
參考資料:
1.https://www.nature.com/articles/d41586-024-02675-0
2.https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2790164
3.https://www.nature.com/articles/s41467-024-45355-3