-
生物通官微
陪你抓住生命科技
跳动的脉搏
生成式AI与大型语言模型在减少药物相关伤害中的应用:范围综述与前景展望
《npj Digital Medicine》:A scoping review on generative AI and large language models in mitigating medication related harm
【字体: 大 中 小 】 时间:2025年03月30日 来源:npj Digital Medicine 12.4
编辑推荐:
本期推荐:AI如何破解用药安全难题?新加坡团队系统评估GenAI/LLM在药物相互作用识别、临床决策支持与药物警戒中的表现,发现模型虽在ADR分类等任务中表现优异,但存在"幻觉"问题且缺乏前瞻性验证。这项发表于《npj Digital Medicine》的研究为AI医疗安全应用划定技术路线图,揭示从实验室到临床的转化瓶颈。
新加坡杜克-国大医学院等机构的研究团队通过系统分析2012-2024年间3988篇文献,首次对GenAI和大型语言模型(LLM)在药物安全领域的应用进行全景式评估。这项发表在《npj Digital Medicine》的研究揭示,当前技术主要聚焦三大方向:药物相互作用(DDI)预测、临床决策支持及药物警戒自动化。研究表明,生成对抗网络(GAN)在DDI预测中表现惊艳(准确率最高达96.1%),而LLM在药物重整等任务中展现出"零样本学习"的独特优势。但令人担忧的是,所有研究均停留在回顾性验证阶段,且存在模型偏见、数据时效性等关键缺陷,距离临床落地仍有距离。
研究团队采用PRISMA-ScR指南构建方法论框架,通过PubMed等4大数据库检索,最终纳入30项符合标准的研究。技术路线涵盖:基于GAN的数据增强方法处理药物警戒中的小样本问题;BERT等预训练模型进行生物医学实体识别;GPT-4等LLM的零样本学习能力评估;以及多模态框架整合电子健康记录(EHR)与社交媒体数据。性能验证采用AUROC(受试者工作特征曲线下面积)等指标,并与Lexicomp等专业数据库及临床药师判断进行对照。
在"药物相互作用分类与预测"部分,GAN架构的DGANDDI模型在二元分类任务中创下99.26%的AUROC纪录,远超传统方法。但令人意外的是,通用型LLM表现参差不齐:微软Bing AI以78.8%准确率领先,而ChatGPT-4特异性显著偏低(κ=0.01-0.264)。研究者指出,简单提示策略导致的"幻觉"现象是主要瓶颈,建议采用检索增强生成(RAG)技术改进。
关于"临床决策支持工具"的评估呈现戏剧性反差:GPT-4在苯二氮卓类药物减量案例中与专家判断高度吻合(总体符合率91.3%),但在老年疼痛管理场景却暴露系统性偏见——模型倾向于过度停用止痛药。剂量计算网页应用虽获88.38分的可用性评分,但其算法黑箱问题引发对医疗责任的担忧。更严峻的是,GPT-4回答药物咨询的临床相关性评分中位数仅4.8分(10分制),提示当前技术尚难替代专业药师。
在"药物警戒任务"方面,采用变分自编码器(VAE)的DeepSAVE框架展现出处理海量社交媒体数据的优势,在800起事件分析中F值领先传统方法。LightNER模型通过小样本学习实现61.42%的F1值,证明跨领域知识迁移的可行性。最具临床转化潜力的是GPT-4辅助药物评估研究,其生成的85%摘要通过FDA专家认证,为缩短审评周期提供新思路。
这项里程碑式研究首次系统绘制GenAI在用药安全领域的技术图谱,揭示出两大突破性发现:GAN在数据稀缺场景的卓越表现,以及LLM的通用任务处理能力。但作者团队强调,当前技术存在三重鸿沟——缺乏前瞻性验证、标准化评估体系及伦理审查框架。特别是发现LLM在疼痛管理等场景存在潜在危害性偏见,敲响临床部署的警钟。
研究提出的"认知减负"理念颇具启发性:将LLM定位于处方审核预警、医疗文书摘要等辅助角色,而非替代临床判断。未来方向包括构建专家标注的多族裔数据集、开发实时监测系统,以及探索GAN生成罕见ADR训练数据。正如通讯作者Nan Liu指出:"这项研究不是终点,而是AI医疗安全应用的起跑线——只有当技术严谨性与临床实用性达到平衡,才能真正实现'零用药错误'的愿景。"
知名企业招聘
今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号