大型语言模型在医学AI研究中的有效性:一项针对眼科医生的随机对照试验
《Cell Reports Medicine》:The effectiveness of large language models in medical AI research for physicians: A randomized controlled trial
【字体:
大
中
小
】
时间:2025年11月30日
来源:Cell Reports Medicine 10.6
编辑推荐:
本研究针对医生在医学AI研究中面临的技术壁垒问题,通过随机对照试验验证了大型语言模型(LLM)的辅助效果。研究发现,使用ChatGPT-3.5的干预组项目完成率从25.0%提升至87.5%,且41.2%的成功参与者能在无辅助情况下完成新项目。结果表明LLM可有效降低医学AI研究门槛,但需关注AI幻觉和依赖性风险。该研究为LLM在数字医学领域的应用提供了实证依据。
在数字医学快速发展的今天,人工智能(AI)技术为医疗领域带来了革命性的变革。然而,一个突出的矛盾日益显现:临床医生虽然掌握着宝贵的临床经验和洞察力,但在开展医学AI研究时却常常面临技术壁垒的阻碍。特别是对于年轻医生和资源有限的临床团队来说,缺乏编程技能、算法知识等多学科专业知识,使得他们难以将临床问题转化为可执行的AI研究项目。这种技术鸿沟不仅限制了医生参与医学AI研究的机会,也可能影响AI技术在临床实践中的有效转化。
为了破解这一难题,中山大学眼科中心的研究团队开展了一项创新性的随机对照试验,探索大型语言模型(LLM)在辅助医生进行医学AI研究方面的潜力。这项发表在《Cell Reports Medicine》的研究,招募了64名没有AI研究或编程经验的初级眼科医生,让他们在两周内完成一个"自动化白内障识别"的项目。研究人员通过严谨的试验设计,比较了使用ChatGPT-3.5的干预组和仅使用传统信息检索方法的对照组在项目完成情况、计划可行性、完成时间等多个维度的表现。
研究团队采用的主要技术方法包括:通过随机分组确保试验的公正性,使用裂隙灯图像数据集进行模型训练和验证,建立多学科专家委员会提供分级技术支持,采用德尔菲法收集有效使用LLM的建议,并通过问卷调查评估参与者对LLM的依赖倾向。所有分析均基于意向性治疗原则,确保结果的可靠性。
研究结果显示,LLM的辅助显著提高了医生的项目完成能力。干预组的总体项目完成率达到87.5%,远高于对照组的25.0%。更重要的是,在没有专家委员会协助的情况下,干预组仍有68.7%的参与者独立完成了项目,而对照组仅有3.1%。这一65.6%的差异具有显著的统计学意义,表明LLM能够有效帮助医生克服技术障碍。
在项目计划的质量方面,干预组也表现出明显优势。干预组项目计划的可行性评分中位数为3.0分,显著高于对照组的2.0分。78.1%的干预组参与者制定了可行的项目计划,而对照组仅有21.9%。这表明LLM不仅帮助医生执行项目,还能提升他们的项目规划能力。两组在报告可读性方面没有显著差异,说明LLM的辅助并没有牺牲研究报告的质量。
在效率方面,干预组表现出明显优势。完成项目的干预组参与者平均用时17.23小时,显著短于对照组的25.31小时。这种时间优势主要体现在项目计划设计和数据处理阶段,而在模型训练和报告撰写阶段两组差异不显著。这表明LLM主要通过提升前期规划效率来缩短整体项目时间。
在模型性能方面,两组完成者开发的AI算法都取得了较好的效果。干预组模型的准确率在0.891-0.991之间,AUC(曲线下面积)在0.966-0.998之间。对照组模型的准确率在0.873-0.996之间,AUC在0.947-1.000之间。两组在性能指标上没有显著统计学差异,说明LLM的辅助并没有以牺牲模型性能为代价。
为期两周的洗脱期后的附加试验进一步验证了LLM的效果。原本失败的对照组参与者在改用ChatGPT-3.5后,项目完成率提升至80.0%。而成功完成初始项目的干预组参与者,在无LLM辅助的新项目"自动化检测混浊晶体"中,仍有41.2%能够独立完成。这表明部分参与者通过LLM辅助真正掌握了医学AI研究的原理和方法。
然而,研究也揭示了LLM使用中的潜在风险。问卷调查显示,42.6%的参与者担心使用LLM可能导致简单复述答案而不理解关键知识点,40.4%的参与者担忧可能产生懒惰思维。此外,AI幻觉(即LLM生成虚假信息)也是需要关注的问题。针对这些问题,研究团队通过德尔菲法提炼出了"CPGI"指南,包括背景描述、问题明确、目标分解和迭代优化四个关键环节,为医生有效使用LLM提供了实用框架。
这项研究的结论强调,LLM能够有效帮助医生克服医学AI研究中的技术障碍,显著提高项目完成率和效率。特别是在资源有限的临床环境中,LLM为医生参与数字医学研究提供了新的可能性,有助于推动AI技术在医疗领域的民主化应用。然而,AI幻觉和依赖性风险需要引起重视,未来的研究应该进一步探索长期使用LLM的影响,并制定相应的使用规范和政策。
研究的创新之处在于首次通过随机对照试验的方法,实证验证了LLM在医学AI研究中的辅助效果,为这一新兴领域的应用提供了科学依据。同时,研究提出的CPGI指南为医生有效使用LLM提供了实用指导。这些发现不仅对眼科领域有重要意义,也为其他医学专科的AI研究提供了可借鉴的经验。随着LLM技术的不断发展,其在医学研究和临床实践中的应用前景值得期待。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号