AI赋能抗菌药物管理:大语言模型精准分类抗菌与非抗菌药物的能力评估与抗菌药物管理项目应用前景

《Antimicrobial Stewardship & Healthcare Epidemiology》:Evaluation of large language models for antimicrobial classification: implications for antimicrobial stewardship programs

【字体: 时间:2025年12月02日 来源:Antimicrobial Stewardship & Healthcare Epidemiology

编辑推荐:

  为破解抗菌药物管理(AS)流程中“海量药品人工分类耗时费力且易错”的痛点,研究团队首次系统评估4款公开大语言模型(LLM)对7 239条真实世界药品条目的抗菌/非抗菌分类效能。经“无指导初筛—20%纠错反馈—再分类”两阶段交叉验证,Gemini 2.5 Flash与Claude Sonnet 4准确率跃升至99.6%与99.4%,错误率分别下降69.2%与33.3%,而ChatGPT-3.5与Copilot(GPT-4o)仍低于82%。结果证实顶尖LLM可在1小时内完成原本需23小时的人工任务,为AS自动化、实时监测及跨机构数据标准化提供了可扩展、低成本的AI解决方案,同时警示模型间性能差异巨大,临床部署必须持续验证与人工监督。

  
抗菌药物管理(Antimicrobial Stewardship, AS)的核心目标是在保证疗效的前提下减少抗菌药物滥用,从而延缓抗菌药物耐药性(Antimicrobial Resistance, AMR)的蔓延。然而,现实世界的AS团队常被“脏数据”绊住脚步:不同医院、不同门诊的电子病历里,药品名称写法千奇百怪——品牌名、通用名、缩写、剂量、剂型、拼写错误甚至中英文混排,动辄上万条记录。传统人工逐条判读“是否属于抗菌药物”不仅耗时十几个小时,还容易因疲劳或标准不一而出错,成为AS数据分析的“第一块绊脚石”。有没有可能让AI像资深药师一样“一眼”识别?这正是美国费里斯州立大学药学院Minji Sohn团队想要回答的问题。
研究者们盯上了风头正劲的大语言模型(Large Language Models, LLM)。与早期关键词匹配的规则引擎不同,LLM凭借上下文语义理解,理论上能自动识别“Augmentin”其实是阿莫西林-克拉维酸复方抗生素,而“ sulfasalazine ”虽含磺胺结构却用于治疗炎症性肠病、并非抗菌药。然而,LLM在真实临床大数据中的抗菌分类表现从未被系统验证,更无人知晓“给一点反馈”能否让模型瞬间“开窍”。带着这些疑问,作者开展了首个面向AS场景的LLM抗菌分类能力评估。
论文2025年9月投稿、11月在线发表于《Antimicrobial Stewardship & Healthcare Epidemiology》。研究设计简洁却严谨:两阶段交叉验证。第一阶段“裸考”:4款可免费访问的LLM——ChatGPT-3.5、Microsoft Copilot(GPT-4o)、Anthropic Claude Sonnet 4、Google Gemini 2.5 Flash——在无任何外部知识库提示下,对7 239条去标识化药品条目进行四分类:Antibiotic、Antifungal、Antiviral、Non-antimicrobial。第二阶段“开卷”:研究者把第一阶段20%的误判案例连同正确答案做成“纠错小样”,让LLM在同一聊天线程内重新分类整个数据集,考察其“举一反三”能力。人工参考标准由3名PharmD学生在药师导师指导下逐条核对UpToDate Lexidrug与Micromedex,耗时约23小时。
关键技术方法
  1. 真实世界数据集:来自密歇根州多中心门诊处方的CHARM项目,7 239条唯一药品文本。
  2. 两阶段LLM分类:先零样本(zero-shot)再20%错误反馈再分类(feedback-informed)。
  3. 性能指标:Accuracy、macro-F1、PPV、NPV、Recall、Specificity、ERR(Error Reduction Rate)及处理时间;置信区间用bootstrap 2 000次重采样;组间比较采用McNemar检验并Holm-Bonferroni校正。
研究结果
Baseline Performance(Phase 1)
  • Claude Sonnet 4与Gemini 2.5 Flash即展现“学霸”水准:准确率分别为99.1%与98.7%,macro-F1达97.9%与98.2%。
  • ChatGPT-3.5与Copilot仅75.4%与74.7%,且“漏检”惊人:Recall仅44.0%与39.1%,近一半真正的抗菌药被误判为非抗菌药。
  • 速度反差巨大:Copilot 42秒、ChatGPT-3.5 47秒完成整批上传;Gemini因单次500条限制需18分钟;Claude因250条限制耗时58分钟,但仍远快于人工23小时。
Feedback-Informed Reclassification(Phase 2)
  • 所有模型准确率均显著提高(p<0.001)。Gemini以99.6%拔得头筹,Claude紧随其后99.4%;二者macro-F1分别升至98.9%与98.8%。
  • 错误削减幅度:Gemini ERR 69.2%,Claude 33.3%,ChatGPT-3.5与Copilot仅23.2%与20.0%。
  • 典型“顿悟”案例:Gemini初判抗寄生虫药albendazole为抗生素,反馈后纠正;未在20%反馈样本中的methenamine亦被同步纠正为抗生素,显示LLM具备一定泛化能力。
Error Pattern Analysis
即便最强模型Gemini最终仍错27条,主要“坑”有三:
  1. 抗寄生虫药(anthelmintics、amebicides)被误标抗生素,占34.5%;
  2. 疫苗(rotavirus、zoster)因“预防微生物”被错划为抗病毒,占24.1%;
  3. 含磺胺骨架但无抗感染适应证的sulfasalazine被当抗生素,占17.2%。提示LLM仍易受“名字像”或“结构像”的表面线索干扰。
结论与讨论
研究首次证实,在零样本条件下,Claude Sonnet 4与Gemini 2.5 Flash即可达到>99%的抗菌分类准确率,经小样本反馈后错误率再降1/3至2/3,足以替代AS流程中耗时费力的初始数据清洗环节,使药师把精力投入更高价值的临床干预与解读。处理速度即使最慢的58分钟也仅为人工的1/20,且可24小时不间断运行,为跨机构实时抗菌药物监测、标准化命名及后续剂量-疗程提取奠定可扩展的AI基础。
但作者同时敲响警钟:不同模型、不同版本性能差异巨大,ChatGPT-3.5与Copilot高 precision 低 recall 的“漏检”特征在AS场景不可接受;LLM可能“望名生义”把疫苗、抗寄生虫药甚至消毒药boric acid误判为抗菌药,需通过提示词工程或本地知识库持续校正。更重要的是,公开网页版LLM尚不满足HIPAA要求,任何含患者信息的文本必须在医院私有云或本地API环境内调用。未来研究需比较成本-效益、探索Med-Gemini等医学专用模型,并建立版本锁定与再验证机制,确保AI在抗菌药物管理中的安全、可追溯与可解释。
一句话总结:顶尖大语言模型已能在1小时内、以>99%准确率完成原本需23小时的抗菌药物分类“脏活”,为抗菌药物管理自动化打开大门,但“模型选对、提示给准、人工盯紧”仍是临床落地的三重保险。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号