基于共识机器学习策略鉴定结核病治疗反应相关宿主生物标志物的多组学研究
《Briefings in Bioinformatics》:Using a consensus machine learning approach to identify host biomarkers associated with treatment response in pulmonary tuberculosis
【字体:
大
中
小
】
时间:2025年12月03日
来源:Briefings in Bioinformatics 7.7
编辑推荐:
本研究针对结核病(TB)治疗缺乏可靠监测指标的临床难题,整合氨基酸与微量元素谱,结合四种机器学习特征选择方法(Boruta、rpart、LASSO、XGBoost),开发了治疗反应评估模型。研究发现锑(Sb)、铜(Cu)、锶(Sr)三种微量元素可作为区分活动性TB与治愈TB的潜在生物标志物,其相关基因在程序性细胞死亡、信号转导和免疫应答通路中呈现动态表达。该成果为结核病精准治疗监测提供了新型实验室标准,对优化临床决策具有重要意义。
在全球健康领域,结核病(Tuberculosis, TB)依然是威胁人类健康的重大传染病。据世界卫生组织估计,全球约四分之一人口感染结核分枝杆菌(Mycobacterium tuberculosis, Mtb)。虽然直接面视下短程化疗策略显著提升了结核病治愈率,但新发结核病患者标准六个月疗程的成功率仍徘徊在70%-85%之间,复发率高达2.3%-6.5%,且多数复发案例为耐药性结核病。这些数据不仅揭示了结核病防治的复杂性,更凸显了准确区分未治愈与已治愈结核患者的紧迫性——这直接关系到能否有效阻断结核病传播链。
目前,结核病治愈评估主要依赖三大标准:规范化抗结核治疗、胸部X光/CT扫描结果、痰涂片和痰培养结果。然而这些方法各存局限:作为结核病诊断"金标准"的痰培养需时长达两周以上;痰涂片灵敏度低;更重要的是,痰液中未检出Mtb并不代表细菌已被完全清除。此外,影像学结果的判读高度依赖医生经验。这些因素共同导致部分未完全治愈的患者可能成为潜在传染源,而缺乏快速准确诊断方法又易引发过度治疗,增加药物相关死亡率,给患者带来身心与经济双重负担。
近年来,代谢在激活免疫和宿主防御结核感染中的作用备受关注。结核感染动态进程中,人体内离子和氨基酸水平呈现显著波动,这些变化不仅与Mtb生存传播密切相关,也为结核病诊断治疗提供了新视角。深圳第三人民医院团队在《Briefings in Bioinformatics》发表的研究,正是基于这一科学背景展开的创新探索。
研究团队采用多组学整合分析策略,重点聚焦155名参与者(126例活动性TB患者、29例治愈TB患者)的血浆和全血样本。通过超高效液相色谱-质谱联用技术(UHPLC-MS)对氨基酸和微量元素进行精准定量,结合正交偏最小二乘判别分析(OPLS-DA)初步筛选差异特征。随后运用四种机器学习算法(随机森林RF、决策树rpart、LASSO回归、XGBoost)进行共识性特征选择,并采用合成少数类过采样技术(SMOTE)解决类别不平衡问题。最后通过基因集变异分析(GSVA)和Shapley加性解释(SHAP)算法揭示生物标志物的分子机制。
通过多维模式识别分析,研究人员发现血浆和全血中氨基酸与微量元素组成及其转运效率在TB与治愈TB组间存在显著差异。OPLS-DA得分图清晰显示两组样本在代谢谱上明显分离,置换验证证实模型未过拟合。根据变量投影重要性(VIP≥1)标准,共筛选出38个潜在特征标志物:血浆中11个、全血中19个、转运效率相关8个。
四种机器学习算法分别筛选出28、4、22和5个特征,其中三种微量元素——血浆锑(Sb)、血浆铜(Cu)和锶转运效率(Sr血浆/全血比值)被所有方法一致选中。差异分析显示,治愈TB组血浆Cu浓度显著降低,而血浆Sb水平和Sr转运效率显著升高。相关性分析表明血液氨基酸间存在显著正相关,微量元素转运效率也呈现协同变化趋势。
模型比较显示,随机森林(RF)模型表现最优,曲线下面积(AUC)达0.986,而LASSO和XGBoost模型AUC分别为0.889和0.902,rpart模型相对较低(0.779)。集成学习模型进一步将AUC提升至0.966。混淆矩阵分析表明RF模型对治愈TB的预测准确率达100%,对活动性TB的预测准确率为81.1%。单变量分析确认三种核心微量元素单独预测能力均较强(AUC>0.75),其中血浆Sb的判别效能最高。
通过重新分析公共RNA-seq数据集(GSE89403),研究发现Sb和Cu相关基因在抗结核治疗期间表达呈现显著波动,而Sr相关基因变化较小。随机森林模型基于这些基因构建的分类器在训练集和验证集(GSE40553)中分别达到0.923和0.886的AUC值。SHAP分析识别CDKN3为预测治疗成功的关键基因。差异表达分析显示,27.6%的Sb相关基因、16.5%的Cu相关基因和10.0%的Sr相关基因在结核治愈后发生显著变化,这些基因主要富集于"细胞凋亡"、"结核病"、"TNF信号通路"和"Th17细胞分化"等通路。
研究结论与讨论部分强调,这项多元素生物标志物面板结合可解释机器学习框架的策略,为改善结核病治疗监测和结局预测提供了可行方案。铜(Cu)作为生物体必需微量元素,在Mtb生存中扮演双重角色:既可被细菌利用抵御活性氧(ROS)杀伤,过量时又能破坏酶系统导致细菌死亡。锶(Sr)通过调节免疫细胞动力学、抑制促炎因子分泌发挥抗炎作用,可能通过NF-κB通路调控细胞因子风暴。锑(Sb)虽在清除胞内寄生虫方面已知具有免疫调节功能,但其在结核感染中的作用属首次揭示。
该研究的创新价值在于突破传统单一代谢物分析局限,通过机器学习深度挖掘代谢物间复杂相互作用。三种微量元素在生物基质中的稳定性与现代分析技术(如ICP-MS)的高精度相结合,为其生物标志物潜力提供了坚实基础。然而,研究也存在一定局限性:治愈TB组样本量较小(n=29),虽通过SMOTE和交叉验证缓解类别不平衡影响,仍需更大规模多中心前瞻性研究验证临床适用性;微量元素相关基因表达推断基于外部转录组数据,未来需在同一队列中同步进行微量元素定量与多组学分析,以建立更直接的因果关系。
综上所述,这项研究开发的机器学习驱动生物标志物发现平台,不仅为结核病治疗监测提供了客观、定量、动态的评估工具,更有望减少对传统微生物学或影像学评估的依赖,推动结核病精准医疗发展。通过揭示微量元素代谢与免疫应答的内在联系,研究为理解结核病发病机制和治疗效应提供了新视角,对终结结核流行目标具有重要实践意义。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号