编辑推荐:
为解决电子病历(EMR)生成耗时、易出错及临床应用效率低等问题,研究人员开展 Prompt 驱动 ChatGPT 用于 EMR 生成的研究。结果显示 GPT-4 性能更优,且相关应用可提升诊疗效率。这为优化临床工作流程提供新途径。
在当今数字化医疗蓬勃发展的时代,电子病历(EMR)已成为临床诊疗中不可或缺的一环。它就像一本详细的 “健康日记”,记录着患者的症状、病史、诊断和治疗过程,为医生提供了全面了解患者病情的重要依据,在风险评估、疾病诊断和治疗决策等方面发挥着关键作用。然而,这本 “健康日记” 的编写过程却并不轻松。传统的 EMR 生成需要医生进行全面的体格检查和细致的病史采集,这不仅耗费大量时间,还容易出现人为错误。而且,不同医生的记录习惯和临床经验参差不齐,使得 EMR 的质量和实用性大打折扣。此外,现有的 EMR 系统操作繁琐,查找信息困难,导致医生花费大量时间在翻阅病历上,加重了工作负担,进而引发医生疲劳,降低了医疗服务的效率和质量。
为了攻克这些难题,来自南京医科大学附属癌症医院等多机构的研究人员,聚焦于大语言模型(LLMs)在医疗领域的应用,开展了一项极具创新性的研究。他们旨在探索如何利用 Prompt 工程优化 Prompt 驱动的 ChatGPT,实现从医患问诊信息中自动生成高质量的 EMR,为临床诊疗流程的优化提供新方案。该研究成果发表在《npj Digital Medicine》上,为医疗行业带来了新的曙光。
研究人员采用了一系列关键技术方法:首先,从南京医科大学附属癌症医院、江苏省人民医院和南京医科大学附属无锡人民医院等多个医疗中心,收集了 103 例包括肺结节、食管癌、心脏病和骨科疾病患者的多学科 EMR,并将其转化为伪自述格式,用于后续研究。其次,选用了 ChatGPT 的两个版本(GPT-3.5 和 GPT-4),将其集成到
poe.com平台进行实验。此外,根据平台提示原则设计了 5 组复杂度不同的 Prompt,用于引导 LLMs 生成 EMR。最后,运用 BERTscore、ROUGE 等量化指标,结合临床专家基于七维指标(7DI)的定性评估,对生成的 EMR 进行全面评价 。
下面来详细看看研究结果:
- 核心任务:肺结节电子病历的自动生成:研究重点关注基于伪自述生成肺结节患者的 EMR。结果表明,GPT-4 在准确性和一致性方面均优于 GPT-3.5。在众多 Prompt 中,Prompt-4 表现突出,在 BERTscore 指标上,召回率达到 0.74 ± 0.0,精度为 0.71 ± 0.02,F1 分数为 0.73 ± 0.02;在 ROUGE 指标中,Prompt-4 的 ROUGE-2 得分最高,为 0.13 ± 0.05 。经临床专家使用 7DI 评分系统评估,GPT-4 生成的文本总体评价更高,平均 7DI 得分为 28.20 ± 2.36。其中,Prompt-4、Prompt-5 等生成的文本被多位专家评为高质量。
- 泛化性分析:为评估 LLMs 在不同医学领域的泛化能力,研究人员对食管癌、心脏病和骨科等多学科病例进行了 EMR 生成测试。在食管癌病例中,GPT-4 同样表现出色,使用 Prompt-4 时,BERTscore 召回率达 0.80 ± 0.03,ROUGE-2 召回率为 0.25 ± 0.09 ,临床评估中 Prompt-3 驱动的 GPT-4 生成的 EMR 7DI 得分最高。骨科病例里,Prompt-4 驱动的 GPT-4 模型各项指标表现优异,BERTscore 召回率为 0.71 ± 0.03,精度 0.66 ± 0.03,F1 分数 0.68 ± 0.02 。在心脏病数据集上,虽然部分指标因样本量限制差异不显著,但临床专家对 Prompt-4 和 Prompt-5 评价良好,证明其在心脏病相关 EMR 生成中的可用性。
- 过渡场景有助于提高临床医生效率:研究人员基于 Prompt-4 和 Prompt-5 开发了两个系统,以展示 LLM 驱动的 EMR 在实际临床中的应用。一个是利用 Prompt-5 构建的聊天机器人,可通过交互式问答生成 EMR;另一个是基于 Prompt-4 集成语音识别技术的系统,能在患者就诊前自动收集病史。通过对 10 例患者问答语音记录生成 EMR 的测试,发现该系统生成的 EMR 与伪自述生成的 EMR 在 7DI 得分上无显著差异,证明了系统的稳定性。同时,使用预生成 EMR 的系统后,初级临床医生的问诊时间显著缩短,从 9.56 + 4.97min 降至 7.41 ± 4.74 min,且效率可与高级医生相媲美(9.56 ± 4.97 min vs 7.65 ± 4.19 min) ,凸显了 Prompt 驱动的 LLMs 在优化问诊流程方面的临床价值。
研究结论和讨论部分指出,该研究验证了 Prompt 驱动的 LLMs 在生成结构化 EMR 方面的潜力,尤其是 GPT-4 在多项指标上优于 GPT-3.5,且复杂 Prompt 可提升生成文本质量。同时,特定学科的 Prompt 在多学科场景中也具有有效性,显示出其在不同临床场景的应用潜力。研究开发的两个实际应用系统,为优化临床工作流程、提高诊疗效率提供了新工具。然而,研究也存在一定局限性,如样本量相对较小,需要在更大数据集和更多专科进行验证;对于特定临床场景,Prompt 还需进一步优化;生成的 “主诉” 部分质量有待提高;基于 ChatGPT 平台存在数据隐私和安全问题;研究主要集中在中文场景,多语言验证尚待开展。
尽管如此,这项研究为未来医疗领域应用 LLMs 提供了重要参考,有望推动临床诊疗模式的变革。它让医生从繁琐的病历书写中解脱出来,有更多时间和精力关注患者的诊断和治疗,提高医疗服务的质量和效率,为改善患者的就医体验和健康结局带来了新的希望。相信在未来,随着技术的不断完善和研究的深入,大语言模型在医疗领域将发挥更大的作用,为全球医疗健康事业做出重要贡献。