生成式 AI 助力虚拟病人病史采集:可行性探索与医学教育新曙光

【字体: 时间:2025年02月25日 来源:BMC Research Notes 2.8

编辑推荐:

  为解决传统医学教育中病史采集练习资源受限、虚拟病人(VP)互动不真实等问题,韩国某学术医学中心研究人员开展生成式 AI 用于 VP 病史采集的可行性研究。结果显示可行但有提升空间,推荐科研读者阅读了解该创新教育方式。

  
在医学教育的广阔天地里,培养医学生与患者有效沟通、准确采集病史的能力,一直是重中之重。想象一下,未来的医生们,面对各种各样的患者,要是连患者的病情来龙去脉都问不清楚,那可怎么能做出正确的诊断和治疗呢?所以,病史采集这项技能,对于医学生来说,就像是游戏里的 “必备大招”,必须得牢牢掌握。

以前,医学生主要通过和标准化病人(SPs)互动来练习这项技能。标准化病人就像是经过特殊训练的 “演技派”,能模仿真实患者的症状和反应,帮助医学生积累经验。但这种方式有个大问题,由于资源有限,医学生和标准化病人互动的机会少之又少,除了一些重要的考核,很难再有机会通过这种方式练习。这就好比你想成为篮球高手,却总是没机会上场打球,那技术怎么能提高呢?

后来,虚拟病人(VP)出现了,它可以在一定程度上补充医学生与患者互动的不足,还能培养医学生的临床推理能力。可传统的虚拟病人也有自己的 “短板”,基于早期技术开发的它们,在医患互动方面缺乏真实感。打个比方,传统虚拟病人就像是个 “木头人”,学生只能从下拉菜单里选预设好的问题去询问,没办法自由发挥,这样的互动体验感很差,也不利于学生全面锻炼病史采集能力。

就在大家为这些问题发愁的时候,生成式人工智能(AI)技术带着它的 “超能力” 闪亮登场了。像 ChatGPT 这样的人工智能,凭借着强大的大语言模型(LLM)和自然语言处理能力,似乎为医学教育带来了新希望。它能实现更真实、自然的互动,就像给虚拟病人注入了 “灵魂”,让医学生和虚拟病人的对话变得更像和真实患者交流。不少研究也发现,生成式 AI 能提供模拟患者体验,给出大部分合理的答案,还能自动给出结构化反馈,用户体验也不错。

不过,生成式 AI 在医学教育领域,尤其是在帮助医学生练习病史采集方面,还处于起步阶段。一方面,大家不确定它生成的回答是否适合用于练习病史采集,毕竟 AI 有时会 “脑洞大开”,产生一些幻觉,给出一些不符合实际情况的答案,或者带有偏见。另一方面,目前关于 AI 在医学教育中可衡量的教育成果的证据还很少,而且聊天机器人在不同临床场景中的通用性也有待探索。这就好比 AI 是一辆刚造出来的新车,大家知道它有潜力,但不知道它在各种复杂路况下能不能跑得稳、跑得好。

在这样的背景下,韩国某学术医学中心人工智能医疗研究小组的研究人员,为了解决这些难题,在《BMC Medical Education》期刊上发表了一篇名为《Design and development of a virtual patient program using generative artificial intelligence technology: a pilot feasibility study》的论文。他们想看看,用生成式 AI 技术设计开发虚拟病人程序,帮助医学生练习病史采集,到底可不可行。

为了开展这项研究,研究人员主要用到了以下几个关键技术方法:他们借助基于大语言模型的生成式 AI 技术,选择了韩国的 AI 平台 Naver HyperCLOVA X? 来打造虚拟病人。在开发过程中,通过不断进行内部测试,用专家编写的虚拟患者医疗访谈脚本作为训练数据,对 AI 的回答进行微调。另外,他们邀请了包括 AI 专家和医学教育者在内的 5 位研究人员,让他们扮演医学生和虚拟病人互动,之后用专门设计的问卷对 AI 的回答质量进行评价。同时,还运用了话语分析的方法,对互动脚本进行深入分析。

下面咱们来看看研究结果。在这次的初步测试中,研究人员开发了一个有泌尿系统问题的虚拟病人案例。测试一共产生了 96 对问答,聊天机器人总共生成了 177 个句子,1325 个单词。

研究人员先对聊天机器人的回答进行了话语分析。结果发现,在这 1325 个单词里,有 34 个(占 2.6%)被认为不太合理。这些不合理的回答又被分成了三类:第一类是表达不清的答案,就像说话断断续续、重复啰嗦一样,有 23 个单词属于这一类,占比 1.7%;第二类是幻觉,这类回答包含一些荒谬、不准确或者容易误导人的信息,比如之前说自己在吃药,后来又说没吃,有 7 个单词属于这种情况,占 0.5%;第三类是遗漏重要信息,比如没有完整回答医学生的问题,这部分虽然没有具体的单词数,但有 4 处这样的情况,占 0.3%。

接着,5 位研究人员用问卷对 AI 回答的质量进行了评价。从整体来看,大家对 AI 回答的质量评价比较积极,平均得分是 3.96 分(标准差为 0.21)。具体来说,在相关性方面,得分是 4.50 ± 0.32 分,这说明 AI 的回答和患者的病情相关度挺高;在有效性上,得分是 4.20 ± 0.40 分,表明这些回答在模拟医患交流场景中比较有效;准确性方面,得分 4.10 ± 0.20 分,说明回答的准确度也不错。不过,在流畅度上,AI 的表现就没那么好了,得分只有 3.20 ± 0.60 分,大家觉得和真实人的回答相比,AI 的回答流畅度还有提升空间。而且,研究人员之间评价的一致性处于中等水平,组内相关系数(ICC)在 0.64 - 0.80 之间。

从这次研究的结果来看,研究人员得出结论:使用基于大语言模型的生成式 AI 进行虚拟病人病史采集练习是可行的。虽然聊天机器人的回答存在一些小问题,但总体上比较合理,得到了研究人员的认可。这一结论意义重大,它为医学教育中使用生成式 AI 技术提供了初步的可行性依据。以前大家对 AI 在这方面的应用还心存疑虑,现在这个研究就像一颗 “定心丸”,让人们看到了 AI 在医学教育领域的潜力。

不过,研究人员也很清楚,这项研究还存在一些局限性。首先,这只是一个早期研究,主要是从教育者的角度评估了项目的可行性,还没有让医学生参与进来。未来还需要进一步研究这个项目在实际使用中的效果,比如医学生对它的接受程度、使用体验,以及对他们病史采集能力提升的实际帮助。最好能开展长期研究,看看学生在不同场景下和聊天机器人互动一段时间后,学习效果怎么样,AI 的能力有没有随着时间进步。

其次,这次只是用了一个泌尿系统问题的虚拟病人案例进行测试,不能代表其他临床案例的情况。毕竟医学领域的病症多种多样,就像一个庞大复杂的迷宫。所以,还需要研究不同临床场景下 AI 工具的适用性,开发出涵盖更多临床案例的虚拟病人项目。而且开发这样的项目很耗费资源,研究人员建议医学院校之间加强合作,一起分享资源,打造一个全面的虚拟病人案例库。

最后,现在市面上有很多 AI 平台,这次研究只用了其中一个。不同平台的 AI 回答质量可能不一样,以后的研究还得看看这次的研究结果能不能推广到其他平台,怎样让 AI 在不同平台上都能有更好的表现。

总的来说,这项研究虽然有不足,但它就像一盏明灯,为医学教育和生成式 AI 技术的结合指明了方向。随着研究的不断深入和技术的持续进步,相信在未来,生成式 AI 会在医学教育中发挥更大的作用,帮助培养出更多优秀的医生,为人们的健康保驾护航。

涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒

10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�

娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功

鍗曠粏鑳炴祴搴忓叆闂ㄥぇ璁插爞 - 娣卞叆浜嗚В浠庣涓€涓崟缁嗚優瀹為獙璁捐鍒版暟鎹川鎺т笌鍙鍖栬В鏋�

涓嬭浇銆婄粏鑳炲唴铔嬬櫧璐ㄤ簰浣滃垎鏋愭柟娉曠數瀛愪功銆�

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号