ChatGPT-4o 化身虚拟患者:解锁实习医生临床能力评估与提升新密码?

【字体: 时间:2025年02月21日 来源:BMC Medical Education 2.7

编辑推荐:

  为解决传统标准化病人资源受限等问题,Ayd?n Adnan Menderes University 的研究人员以 ChatGPT-4o 模拟患者开展实习医生临床能力研究。结果显示其有应用潜力但存技术问题。该研究对医学教育意义重大,推荐一读。

  
在当今医疗领域,人工智能(AI)的发展可谓日新月异。自 20 世纪 50 年代英国数学家和逻辑学家艾伦?图灵提出 “机器能思考吗” 这一问题,并设计出 “图灵测试” 后,AI 便开启了它的进化之旅。到如今,像 ChatGPT 这样强大的大语言模型不断涌现,ChatGPT - 4.0 更是凭借其出色的语言理解能力、丰富的知识储备、强大的编码功能以及处理长文本和口头交流的能力,在医疗行业展现出巨大的潜力,尤其在诊断、决策和数据分析等方面。

与此同时,标准化病人(SP)在临床教育中一直占据着重要地位。它通过模拟真实的临床场景,让医学生在可控的环境中锻炼临床技能、临床推理(CR,即评估和解释患者数据以做出准确诊断和治疗决策的能力)、决策能力、沟通能力和诊断能力,避免了与真实患者直接互动可能带来的风险。临床病例管理(CCM)涵盖的临床推理、问题解决(PS,包括识别和解决关键医疗问题)、危机管理(CM,在高压情况下需要快速决策、领导和协调)等能力,对于医生在医疗环境中做出明智决策、解决复杂问题和有效应对危机至关重要。

然而,传统 SP 的使用存在一些难题。获取 SP 资源往往需要耗费大量的时间、人力和成本,而且随着医学院校学生数量的不断增加,学生与 SP 进行一对一练习并获得个性化反馈的机会变得越来越有限,这对临床训练的效果产生了一定的影响。为了解决这些问题,虚拟标准化病人应运而生,它具有创新、灵活、易获取、成本效益高和用户友好等优点,为临床训练提供了新的解决方案。早期研究表明,生成式 AI 模型能够在各种场景中模拟标准化病人,有助于支持学生的临床推理、决策和问题解决技能,还能提供性能分析和反馈。

在这样的背景下,来自 Ayd?n Adnan Menderes University 的研究人员为了深入探究相关问题,在《BMC Medical Education》期刊上发表了题为 “Evaluating intern physicians’ clinical case management competencies using ChatGPT - 4o as a virtual standardized patient: a mixed - methods study” 的论文。他们旨在评估实习医生在临床病例管理(包括问题解决、临床推理、危机管理)方面的能力,并探索 ChatGPT - 4o 作为评估这些能力的可行工具的影响和潜力。

研究人员采用了多种技术方法来开展这项研究。他们运用了同步三角测量设计,这是一种混合方法,同时收集和分析定量数据(如通过观察和自我评估调查得到的数据)和定性数据(如访谈和观察记录),并在解释结果时进行对比。在数据收集方面,使用了三种工具:一是自行开发的自我评估调查,通过专家反馈和预试验确保其有效性,用于评估参与者的能力;二是半结构化访谈表格,收集参与者对实践的看法;三是半结构化观察表格,由两位研究人员对相关能力进行评分,且评分者间信度达到了 83.33%,符合标准。此外,还利用了 ChatGPT - 4o 来开发临床病例,根据土耳其常见疾病(高血压和布鲁氏菌病),结合研究目标和难度水平,生成病例并经过多轮审核和调整。在数据分析阶段,对于符合正态分布的数据,采用皮尔逊相关分析;对于非正态分布的数据,则运用卡方检验和 Kruskal - Wallis 检验等非参数检验方法,同时使用内容分析法对定性数据进行分析。

下面来看看具体的研究结果:

  • 参与者特征:研究共涉及 21 名参与者(8 名女性,13 名男性),平均年龄 24 ± 1.03 岁。在学习资源偏好上,17 人选择互联网,15 人选择课堂笔记,14 人选择教科书等。分析发现,性别与学习资源偏好存在一定关联,所有女性参与者都选择了教科书。而且,偏好某些资源(如助手、讲师)的参与者更倾向于依赖课堂笔记。
  • RQ1:分析实习医生自我感知(PS - S、CR - S、CM - S)和观察到的表现(PS - O、CR - O 和 CM - O)与性别、动机和学习偏好之间的关联。结果显示,性别与能力得分并无显著关联,但选择医学专业的意愿、对选择的满意度以及学习资源偏好(如互联网使用、同伴支持)与问题解决、临床推理和危机管理能力存在显著关联。例如,自愿选择医学专业的参与者在 PS - O 和 CR - O 上得分更高;对专业选择满意的参与者在调查中的问题解决、临床推理和危机管理得分呈正相关。
  • RQ2:探究实习医生对各种变量的自我感知(PS - S、CR - S、CM - S)与实践表现(PS - O、CR - O、CM - O)之间的关系。通过皮尔逊相关分析发现,观察得分和调查得分之间没有直接关系,但各项能力之间存在显著关联。比如,临床推理(CR - O)和问题解决(PS - O)能力之间存在很强的正相关;危机管理(CM - O)与问题解决(PS - O)、临床推理(CR - O)也有强正相关;自我评估的能力中,问题解决(PS - S)与临床推理(CR - S)、危机管理(CM - S)同样强相关。此外,研究还发现参与者自我评估与实际表现存在显著差距,可能是因为实习医生经验不足,受邓宁 - 克鲁格效应影响。
  • RQ3:了解参与者对实施过程的看法。在问题解决方面,16 人提到自己能力不足;临床推理方面,有人觉得自己能力不足,也有人分享了系统的方法;危机管理方面,10 人表示有时间压力,9 人感觉能力足够,9 人认为能力不足。总体而言,参与者认为此次实践对学术有帮助,但也指出了存在的问题。
  • RQ4:研究人员观察到参与者的 PS、CR 和 CM 能力大多被评为良好或中等,约一半人存在时间管理问题。技术方面,语音聊天中最常见的问题是 “不同语言回复”,还有服务器错误等;文本聊天中存在语言误解、名词拼写或解释错误等情况。

研究结论和讨论部分指出,ChatGPT - 4o 成功模拟了患者互动,为实习医生提供了一个安全的实践环境,有助于他们锻炼临床病例管理能力,而且成本效益高、易于获取。尽管存在技术挑战,如语言处理问题、服务器过载等,但它在医学教育中的潜力不可忽视。通过这项研究,发现了实习医生在自我评估方面存在的问题,强调了提高自我评估准确性的重要性。同时,研究还为医学教育提供了有价值的参考,表明将 AI 工具融入传统教学方法,能够丰富课程内容,帮助医学生更好地发展核心能力。不过,研究也存在一定的局限性,比如样本量相对较小,可能影响研究结果的普遍性;只关注了两种常见病例,可能增加了参与者的压力。未来的研究可以扩大样本量,纳入更多样化的病例,并评估 AI 模拟的长期效果,进一步探索如何更好地将这些工具融入医学课程。这项研究为医学教育领域引入 AI 工具提供了重要的参考,为未来的医学教育发展指明了方向,有望推动医学教育不断创新和进步。

婵炴垶鎸搁鍫澝归崶鈹惧亾閻熼偊妲圭€规挸瀛╃€靛ジ鏁傞悙顒佹瘎闁诲孩绋掗崝鎺楀礉閻旂厧违濠电姴娲犻崑鎾愁潩瀹曞洨鐣虹紓鍌欑濡粓宕曢鍛浄闁挎繂鐗撳Ο瀣煙濞茶骞橀柕鍥ㄥ哺瀵剟骞嶉鐣屾殸闂佽偐鐡旈崹铏櫠閸ф顥堥柛鎾茬娴狀垶鏌曢崱妤婂剱閻㈩垱澹嗗Σ鎰板閻欌偓濞层倕霉閿濆棙绀嬮柍褜鍓氭穱铏规崲閸愨晝顩烽柨婵嗙墦濡鏌涢幒鎴烆棡闁诲氦濮ょ粚閬嶅礃椤撶姷顔掗梺璇″枔閸斿骸鈻撻幋锔藉殥妞ゆ牗绮岄埛鏍煕濞嗘劕鐏╂鐐叉喘閹秹寮崒妤佹櫃

10x Genomics闂佸搫鍊瑰姗€骞栭—娓媠ium HD 閻庢鍠掗崑鎾绘煕濮樼厧鐏犵€规洜鍠撶槐鎺楀幢濮橆剙濮冮梺鍛婂笒濡粍銇旈幖浣瑰仢闁搞儮鏅滈悾閬嶆煕韫囧濮€婵炴潙妫滈妵鎰板即閻樼數鐓佺紓浣告湰濡炶棄螞閸ф绀嗛柛鈩冡缚閳ь兛绮欓弫宥夋晸閿燂拷

濠电偛妫庨崹鑲╂崲鐎n偆鈻旈悗锝庡幗缁佺櫉wist闂侀潧妫楅敃锝囩箔婢舵劕妫樻い鎾跺仜缂嶄線鏌涢弽銊у⒈婵炲牊鍘ISPR缂備焦绋掗惄顖炲焵椤掆偓椤︿即鎮ч崫銉ゆ勃闁逞屽墴婵″鈧綆鍓氶弳鈺呮倵濞戞瑥濮冮柛鏃撴嫹

闂佸憡顨嗗ú婊呭垝韫囨稒鍤勯柣鎰嚟閵堟挳骞栭弶鎴犵闁告瑥妫濆濠氬Ω閵夛絼娴烽柣鐘辩劍瑜板啴鎮ラ敓锟� - 濠电儑绲藉畷顒勫矗閸℃ḿ顩查柛鈩冾嚧閹烘挾顩烽幖杈剧秵閸庢垵鈽夐幘顖氫壕婵炴垶鎼╂禍婊冪暦閻旇櫣纾奸柛鈩冭壘閸旀帡鎮楅崷顓炰槐闁绘稒鐟ч幏瀣箲閹伴潧鎮侀梺鍛婂笧婢ф寮抽悢鐓庣妞ゆ柨鐏濈粣娑㈡煙鐠ㄥ鍊婚悷銏ゆ煕濞嗘ê鐏ユい顐㈩儔瀹曠娀寮介顐e浮瀵悂鏁撻敓锟�

婵炴垶鎸搁鍫澝归崶顒€违濠电姴瀚惌搴ㄦ煠瀹曞洤浠滈柛鐐存尦閹藉倻鈧綆鍓氶銈夋偣閹扳晛濡虹紒銊у閹峰懎饪伴崘銊р偓濠氭煛鐎n偄濮堥柡宀€鍠庨埢鏃堝即閻樿櫕姣勯柣搴㈢⊕閸旀帡宕濋悢鐓幬ラ柨鐕傛嫹

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号