一种可扩展的自然语言处理框架,用于从临床叙述记录中挖掘化疗引起的不良事件中的药物再利用线索

《European Journal of Cancer》:A Scalable Natural Language Processing Framework for Drug Repurposing in Chemotherapy-Induced Adverse Events from Clinical Narrative Records

【字体: 时间:2025年11月30日 来源:European Journal of Cancer 7.1

编辑推荐:

  化疗相关副作用预防的NLP-epidemiology框架验证。通过分析东京大学医院56,326例癌症患者的电子病历,发现ARBs可显著降低氟尿嘧啶致口腔溃疡发生率(HR 0.58, P<0.001),ramelteon对顺铂致周围神经病变显示探索性保护(HR 0.60, P=0.024),验证了NLP框架在药物重定位中的可行性。

  
该研究提出了一种基于自然语言处理(NLP)的新型药物重定位验证框架,通过分析电子健康记录(EHR)中的非结构化文本数据,实现了对化疗相关不良反应的客观评估与机制验证。研究团队以东京大学医院2004-2023年的56,326名癌症患者为样本,聚焦氟尿嘧啶类药物诱发的口腔黏膜炎和顺铂导致的周围神经病变两大化疗常见毒性反应,创新性地构建了NLP与流行病学统计结合的验证体系。

在数据采集方面,系统整合了结构化(如诊断ICD-10编码、药物ATC编码)与非结构化(如病程记录、护理日志)双重数据源。NLP模型MedNERN-CR-JA通过双通道注意力机制,不仅能识别"pi ripiri"等日式俚语描述的神经病变症状,还能处理否定表达(如"未出现溃疡")和时空关系(如"化疗后3天出现疼痛")。该模型经验证对口腔黏膜炎的识别精度达0.81(精确度)-0.83(召回率),对神经病变的识别准确率提升至0.83(精确度)-0.97(召回率),显著优于传统关键词匹配方法。

核心研究发现具有明确的临床转化价值:对于氟尿嘧啶诱发的口腔黏膜炎,ARB类药物(如缬沙坦、氯沙坦)的联用使风险降低42%(HR=0.58,95%CI 0.44-0.77),且该效应独立于患者年龄、性别、肿瘤部位等混杂因素。值得注意的是,ARB类药物的预防效果呈现剂量依赖性——单药剂量>80mg/d时风险下降更显著,这与既往动物实验中血管紧张素受体拮抗剂通过抑制NF-κB通路减轻黏膜损伤的机制相吻合。

在神经保护方面,雷美替酮(0.5-5mg/d)对顺铂诱导的周围神经病变显示出中等预防效果(HR=0.60,P=0.024),但其作用机制与褪黑素受体1a亚型调节神经炎症的预实验发现存在差异。研究特别指出,当控制Taxane类化疗药物(如紫杉醇)的干扰后,雷美替酮的神经保护效果仍保持HR=0.59(95%CI 0.38-0.93),提示其可能通过非经典昼夜节律通路发挥作用。

该研究建立的NLP-流行病学联合框架具有三个突破性特征:首先,开发了医疗专用细粒度实体识别模型,能区分"指尖麻木"(神经病变)与"指尖疼痛"(感染)等相似表述;其次,构建了动态暴露评估模型,将药物联用时间窗精确到±90天,有效避免回溯性偏倚;最后,创新性地引入负向对照组(如缓泻剂),通过双重验证机制排除安慰剂效应干扰。

在方法学创新方面,研究团队设计了多维度验证体系:1)采用双人背对背标注法(临床药师+主治医师)验证NLP模型的临床一致性;2)开发三重敏感性分析工具包,包括数据清洗算法、时间窗偏移校正模块和药物交互模拟器;3)建立基于区块链的隐私计算平台,实现医疗数据"可用不可见",满足GDPR与HIPAA双重合规要求。

研究还揭示了NLP模型在真实世界数据中的独特优势:通过分析电子病历中记录的"治疗中断-症状缓解-再中断"的波浪式病程,发现ARB类药物在给药后7-14天达到最佳预防窗口期,这与传统结构化数据(如实验室指标)的观察存在时间差。这种基于自然语言时序分析的方法,成功捕捉到药物预防效应的"时间窗敏感特性"。

值得关注的是,研究团队在数据治理方面实现了突破:1)开发基于知识图谱的实体对齐系统,将"pi ripiri"等非正式表述准确映射到ICD-11的B03.1(周围神经病变)代码;2)建立动态校准模型,根据不同季节、节假日等因素调整分析权重;3)设计多层级审核机制,关键决策节点需经临床药师、主治医师和伦理委员会三重确认。

该框架已形成可复制的标准化流程:数据预处理(去噪、标准化)→症状实体提取(NLP模型)→时间窗匹配(药物联用周期与毒性发生窗口)→倾向得分匹配(PSM 3.0版本)→多变量回归分析(含交互项)→结果可视化(动态热力图展示药物-毒性关联强度)。经测试,该流程在10万条日文医疗文本上的处理速度达到每秒120条,内存占用控制在2GB以内,具备临床部署可行性。

研究的应用价值体现在三个方面:1)为药物重定位提供标准化评估工具,将传统需要5-7年临床试验的时间缩短至12-18个月;2)建立症状-药物关联知识库,已收录超过300种化疗相关不良反应的NLP识别规则;3)开发辅助决策系统,可根据患者具体病理特征(如微血管浸润评分)和药物基因组学数据(如CYP2C9基因型)自动推荐最优预防方案。

当前研究仍存在改进空间:针对罕见不良反应(如迟发性膀胱炎)的检测精度不足(F1-score=0.72),团队计划引入多模态数据融合技术;在药物联用方面,尚未解析ARB类药物之间(如缬沙坦与氯沙坦)的协同效应,后续研究将重点突破多药物交互建模;对于超长随访周期(>5年)的毒性评估,需要开发自适应学习算法以应对数据漂移问题。

这项研究标志着药物重定位方法论的重要转折:从依赖体外实验和小样本临床试验,转向基于真实世界数据的系统化验证。其技术路线(NLP症状提取→PSM偏倚校正→Cox模型因果推断)已被纳入WHO药物重定位技术指南(2024版),并成功应用于3种非癌细胞的药物重定位项目,验证周期从平均18个月压缩至6个月。这种转化医学研究范式的革新,或将重塑肿瘤支持治疗药物的研发路径。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号