-
生物通官微
陪你抓住生命科技
跳动的脉搏
生成式 AI 助力虚拟病人问诊:可行性探索与医学教育新曙光
【字体: 大 中 小 】 时间:2025年02月25日 来源:BMC Research Notes 2.8
编辑推荐:
为解决医学生病史采集训练资源有限、传统 VP 互动不真实等问题,韩国某学术医学中心研究人员开展生成式 AI 用于虚拟病人病史采集的可行性研究。结果显示该方法可行但有提升空间,推荐科研读者阅读,探索 AI 在医学教育的潜力。
在当今医疗教育领域,随着科技的飞速发展,人工智能(AI)技术逐渐崭露头角,吸引了众多研究者的目光。尤其是生成式人工智能技术,像大家熟知的 ChatGPT,更是引发了广泛关注。它在医疗教育中的应用潜力巨大,不少人都期待着它能为传统的医疗教育模式带来新的变革。
然而,理想很丰满,现实却有些骨感。虽然生成式 AI 在医疗教育的多个方面都展现出了可能性,但实际上,它的研究和实践才刚刚起步。目前,大部分相关研究和实践主要聚焦在利用 AI 进行医学知识评估,比如在医学执照考试中的应用。还有一部分是关于用 AI 自动生成考试题目。但在其他重要的医疗教育场景中,AI 的应用还远远不够成熟。
就拿医学生的医患互动训练来说,传统上,标准化病人(SPs)是常用的训练工具。标准化病人就像是经过特殊培训的 “演员”,他们能模拟真实病人的症状、体征和反应,帮助医学生练习与患者沟通、采集病史等技能。这种方式在一定程度上能够替代真实的临床患者接触,效果也还不错。可是,由于资源有限,医学生除了在一些重要的考核中能接触到标准化病人,平时练习的机会少之又少。
为了弥补这个不足,虚拟病人(VP)开始走进人们的视野。虚拟病人是一种利用计算机技术创建的模拟患者,医学生可以通过与它互动来练习临床技能。研究发现,虚拟病人对培养医学生的临床推理能力很有帮助。但早期基于非大语言模型(LLM)技术开发的传统虚拟病人存在不少问题,其中最明显的就是医患互动缺乏真实感。在与传统虚拟病人交流时,医学生往往只能从下拉菜单里选择预设好的问题来询问,就像是在玩固定套路的游戏,根本无法自由发挥,这和真实的医患交流相差甚远。
随着大语言模型和自然语言处理技术的发展,生成式 AI 迎来了新的机遇。它有望让医学生与虚拟病人的互动变得更加真实自然,就像和真正的患者对话一样。一些研究已经初步证明,生成式 AI 可以为医学生提供模拟患者体验,给出的答案大多比较合理,还能提供自动结构化反馈,用户体验也不错。但这并不意味着一切都完美无缺。AI 也有自己的 “小毛病”,比如容易产生幻觉,给出一些不合理、甚至错误的信息。而且在不同临床场景下,AI 的表现如何,能否普遍适用,目前还缺乏足够的研究。另外,AI 在医疗教育中能带来哪些可衡量的教育成果,相关证据也很匮乏。
在这样的背景下,为了探索生成式 AI 在医疗教育中的更多可能,韩国某学术医学中心人工智能医疗研究小组的研究人员开展了一项极具意义的研究。他们的研究成果发表在《BMC Medical Education》期刊上,论文题目是《Using generative artificial intelligence for virtual patients to practice history taking: a pilot feasibility study》 。这项研究旨在设计和开发一个利用生成式 AI 技术的虚拟病人程序,让医学生有更多机会通过和聊天机器人互动来练习采集病史的技能。同时,研究人员还通过分析聊天机器人给出的回答质量,来评估这种方法的可行性。
研究人员在这项研究中主要运用了以下关键技术方法:他们采用基于大语言模型的生成式 AI 技术,并借助韩国的 AI 平台 Naver HyperCLOVA X? 来实现虚拟病人与学生的交互。在开发过程中,通过不断进行内部测试,并利用医学专家编写的虚拟患者医学访谈脚本作为训练数据,对 AI 的回答进行微调优化。此外,研究人员邀请了专家进行评估,使用自行开发的包含相关性、准确性、流畅性、简洁性和有效性五个维度的问卷,采用五点李克特量表进行打分,以此来评价聊天机器人回答的质量。同时,运用话语分析的方法对聊天脚本进行分析,判断聊天机器人回答的合理性 。
下面来看看具体的研究结果。
对话内容产出:这次的试点测试收获了 96 对问答,聊天机器人总共生成了 177 个句子,字数达到 1325 个。从这些数据可以看出,聊天机器人在与学生的交流中,还是能 “说” 不少内容的。
不合理回答分析:在对聊天脚本进行话语分析时,研究人员发现聊天机器人给出的回答中,有 2.6%(34 个词)被认为不太合理。这些不合理回答主要分为三类:第一类是表达不清的回答,就像是说话没说完整,句子断断续续、重复或者只说了一部分,这类情况占比最多,有 1.7%(23 个词);第二类是幻觉,就是给出一些毫无意义、不准确甚至会误导人的信息,比如前面说自己在吃药,后面又说没吃,这类占 0.5%(7 个词);第三类是遗漏重要信息,比如没有完整回答医学生的问题,这类情况按句子数量算,占 0.3%(4 个句子)。
专家评价结果:参与评估的专家们对聊天机器人回答质量的总体评价还比较积极,平均得分达到了 3.96(标准差为 0.21)。具体来看,专家们认为回答在相关性(平均得分 4.50 ± 0.32)、有效性(平均得分 4.20 ± 0.40)和准确性(平均得分 4.10 ± 0.20)方面表现不错,在模拟医患交流的情境中比较靠谱。不过,专家们也指出,聊天机器人的回答在流畅性上还有所欠缺(平均得分 3.20,标准差为 0.60),和真实患者的回答相比,还是能听出一些 “机器感”。而且,专家们评价的一致性处于中等水平,组内相关系数(ICC)在 0.64 - 0.80 之间 。
从研究结论和讨论部分来看,这项研究意义重大。它表明基于大语言模型的生成式 AI 用于医学生练习采集病史是可行的。虽然聊天机器人的回答存在一些问题,但整体上还是比较合理的,这给未来在医疗教育中进一步应用生成式 AI 带来了希望。不过,为了让聊天机器人的回答更加真实自然,还需要不断改进。研究团队计划通过提供更多的训练数据来优化虚拟病人程序,让聊天机器人的回答更流畅。
此外,研究人员还在开发一个评估系统。这个系统能根据医学生与聊天机器人的完整聊天记录,分析他们遗漏的重要问题,并给出表现评分,为学生提供自动反馈。这一创新举措有望让虚拟病人程序的设计更加完善,模拟出更自然的医患对话场景。对于医学生来说,有了这个虚拟病人程序,他们不用再过度依赖标准化病人或真实患者,就能有更多机会练习采集病史的技能,还能通过 AI 技术获得结构化的反馈,提升自己的临床能力。而且,这个虚拟病人程序还可以和虚拟或增强现实环境相结合,让医学生在更真实的模拟场景中进行医患交流训练。
当然,这项研究也存在一些局限性。首先,这只是一个早期研究,主要是从教育者的角度评估了项目的可行性,还没有让医学生大规模参与。未来还需要开展更多研究,比如让医学生在不同场景下与聊天机器人互动,收集他们的反馈,了解这个项目的可用性以及学生的反应,同时评估学习效果。其次,这次试点只针对一种临床症状(泌尿系统问题)进行了研究,结果可能无法推广到其他临床情况。后续需要研究更多不同的临床场景,开发出涵盖更广泛病例的虚拟病人程序,同时还要探索如何更好地设置聊天机器人的提示和行为,让它在各种临床情境下都能有更好的表现。最后,目前 AI 平台多种多样,这次研究只用了一个平台,不同平台上 AI 的表现可能不一样。未来的研究需要探索这些研究结果在其他平台上是否同样适用,进一步提高 AI 在医疗教育中的应用效果。
总的来说,这项研究虽然只是一个开始,但它为生成式 AI 在医疗教育中的应用打开了一扇窗。随着研究的不断深入和技术的持续改进,相信在不久的将来,生成式 AI 会给医疗教育带来更多惊喜,培养出更优秀的医学人才。
下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究
10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!
知名企业招聘
今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号