揭秘生成式 AI 在医学诊断中的实力:与医生大比拼

《npj Digital Medicine》:A systematic review and meta-analysis of diagnostic performance comparison between generative AI and physicians

【字体: 时间:2025年03月24日 来源:npj Digital Medicine 12.4

编辑推荐:

  为评估生成式 AI(GenAI)诊断性能并与医生对比,研究人员开展系统回顾和荟萃分析,发现其准确性 52.1%,与非专家医生相当,有一定应用潜力。

  # 生成式 AI 在医学诊断领域的探索与突破:与医生的实力较量
在科技飞速发展的今天,人工智能(AI)逐渐渗透到各个领域,医学领域也不例外。生成式人工智能(GenAI)作为 AI 领域的新兴力量,近年来展现出了在医学诊断方面的巨大潜力。它能快速处理海量医学文献和患者信息,为诊断提供参考。然而,目前对于 GenAI 在医学诊断中的全面性能评估,以及它与医生诊断能力的对比,尚未有深入研究。这就好比在医学诊断的赛道上,GenAI 是一匹新入场的 “黑马”,但人们对它的实力究竟如何,能否与经验丰富的 “老将” 医生相媲美,还知之甚少。
为了填补这一空白,来自大阪 Metropolitan University、神户大学、京都大学等多所国外高校的研究人员展开了一项系统性回顾和荟萃分析研究。该研究成果发表在《npj Digital Medicine》上。

研究人员首先明确了研究目的,旨在全面评估 GenAI 模型在医疗保健领域的诊断能力,并将其诊断性能与医生进行比较。为此,他们制定了严谨的研究方案。

在研究方法上,研究人员制定了详细的检索策略。他们在多个电子数据库中搜索 2018 年 6 月至 2024 年 6 月期间发表的相关研究,筛选出验证 GenAI 模型用于诊断任务的文章。最终,从最初的 18371 项研究中,排除重复和不符合标准的研究后,纳入了 83 项研究进行荟萃分析。在数据提取环节,研究人员收集了包括第一作者、模型版本、模型任务、测试数据集类型、医学专业、准确性、样本量和 publication status 等信息。同时,他们还使用 PROBAST 工具评估论文的偏倚风险和适用性,并运用 R 软件中的 “metafor” 包进行统计分析,通过多变量随机效应元回归模型,对医学专业、模型任务、测试数据集类型、偏倚水平和 publication status 等因素进行调整,比较不同 GenAI 模型与医生的诊断准确性。

在研究结果部分,研究人员发现,纳入研究中最常评估的模型是 GPT-4 和 GPT 3.5。研究涉及多个医学专业,其中全科医学相关研究最多。在模型任务方面,自由文本任务占主导。关于测试数据集类型,多数研究涉及外部测试,但部分数据由于 GenAI 模型训练数据未知而无法确定。在质量评估中,大部分研究存在较高的偏倚风险。

经过荟萃分析,GenAI 模型的总体诊断准确率为 52.1%(95% CI:47.0 - 57.1%)。进一步分析发现,GenAI 模型与医生总体诊断性能无显著差异(医生准确率高 9.9% [95% CI:?2.3 - 22.0%],p = 0.10),与非专家医生诊断性能也无显著差异(非专家医生准确率高 0.6% [95% CI:?14.5 - 15.7%],p = 0.93),然而,GenAI 模型总体显著不如专家医生(准确率差异:15.8% [95% CI:4.4 - 27.1%],p = 0.007)。部分模型如 GPT-4、GPT-4o、Llama3 70B 等在与非专家医生的比较中,表现出略高的性能,但差异不显著。在不同医学专业方面,除了泌尿科和皮肤科,GenAI 模型在其他专业的有效性差异不显著。

在讨论环节,研究人员指出,尽管 GenAI 模型在医学应用中的准确率仅为 52%,但在某些临床场景中仍具有潜在价值。在资源有限的环境中,它可作为初步诊断工具,提高医疗服务的可及性和效率。在医学教育方面,GenAI 模型与非专家医生的可比性能为其融入医学培训提供了机会,可作为教学辅助工具,帮助医学生和住院医师模拟临床场景,提升学习体验。

然而,该研究也存在一定局限性。研究结果的普遍性需要谨慎考虑,异质性分析表明可能存在其他影响 GenAI 性能的因素未被纳入分析。此外,许多研究缺乏人口统计学信息,限制了研究结果在不同人群和地区的推广。在复杂的现实场景中,GenAI 模型的性能可能会下降。

总的来说,这项研究全面分析了 GenAI 在医学诊断中的能力和局限性。GenAI 模型虽不能完全替代专家医生,但在非专家场景中可作为有价值的辅助工具,同时在医学教育领域也具有广阔的应用前景。未来,需要进一步改进模型开发,开展更多严格的外部验证研究,以确保 GenAI 能更有效地融入临床实践,为医疗健康事业带来更多福祉。

濞戞挸顑堝ù鍥┾偓鐟邦槹瀹撳孩瀵奸敂鐐毄閻庢稒鍔掗崝鐔煎Υ婵犲洠鍋撳宕囩畺缂備礁妫滈崕顏呯閿濆牓妯嬮柟娲诲幘閵囨岸寮幍顔界暠闁肩瓔鍨虫晶鍧楁閸撲礁浠柕鍡楊儐鐢壆妲愰姀鐙€娲ゅù锝嗘礋閳ь剚淇虹换鍐╃閿濆牓妯嬮柛鎺戞閻庤姤绌遍崘顓犵闁诡喓鍔庡▓鎴︽嚒椤栨粌鈷栭柛娆愬灩楠炲洭鎯嶉弮鍌楁晙

10x Genomics闁哄倹婢橀幖顪渋sium HD 鐎殿喒鍋撻柛姘煎灠瀹曠喓绱掗崱姘姃闁告帒妫滄ご鎼佹偝閸モ晜鐣遍柛蹇嬪姀濞村棜銇愰弴鐘电煁缂佸本妞藉Λ鍧楀礆閸℃ḿ鈧粙鏁嶉敓锟�

婵炲棎鍨肩换瀣▔鐎n厽绁癟wist闁靛棗锕g粭澶愬棘椤撶偛缍侀柛鏍ㄧ墱濞堟厤RISPR缂佹稒鐩埀顒€顦伴悧鍝ヤ沪閳ь剟濡寸€n剚鏆╅悗娑欏姃閸旓拷

闁告娲滅划蹇涙嚄閻愬銈撮幖鏉戠箰閸欏棝姊婚妸銉d海閻犱焦褰冮悥锟� - 婵烇絽宕崣鍡樼閸℃鎺撶鎼达綆鍎戝☉鎾亾濞戞搩浜滃畷鐔虹磼閸℃艾鍔掗悗鍦仱閻涙瑧鎷嬮幑鎰靛悁闁告帞澧楅弳鐔煎箲椤斿灝绐涢柟璨夊倻鐟㈤柛娆樺灥椤宕犻弽顑帡寮搁敓锟�

濞戞挸顑堝ù鍥Υ婵犲嫮鐭庨柤宕囧仜閸炴挳鎽傜€n剚顏ら悹鎰╁妺缁ㄧ増鎷呭⿰鍐ㄧ€婚柡瀣姈閺岀喎鈻旈弴鐘虫毄閻庢稒鍔掗崝鐔煎Υ閿燂拷

相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 急聘职位
    • 高薪职位

    知名企业招聘

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号