TAPB:基于干预性去偏框架缓解药物-靶点相互作用预测中的靶点先验偏倚
《Nature Communications》:TAPB: an interventional debiasing framework for alleviating target prior bias in drug-target interaction prediction
【字体:
大
中
小
】
时间:2025年12月03日
来源:Nature Communications 15.7
编辑推荐:
本研究针对药物-靶点相互作用(DTI)预测中存在的靶点先验偏倚问题,提出了一种干预性去偏框架TAPB。通过氨基酸随机化、混淆因子对齐模块和干预训练,该研究首次从因果推断角度实现了P(Y|D,do(T))的后门调整计算。实验表明TAPB在多个数据集上显著提升模型泛化能力,为药物重定位提供了更可靠的预测工具。
在药物研发领域,准确预测药物与靶点之间的相互作用(DTI)是加速药物重定位的关键环节。然而,现有基于序列的DTI预测模型在BioSNAP和BindingDB等主流数据集上存在严重偏倚问题。传统研究多将这种偏倚归因于"药物偏倚",但最新研究发现,"靶点先验偏倚"才是影响预测准确性的主要因素。这种偏倚源于训练数据中靶点标签分布的不平衡,导致模型倾向于记忆靶点的标签趋势而非学习真实的相互作用机制。
为了攻克这一难题,浙江师范大学、电子科技大学等机构的研究团队在《Nature Communications》上发表了题为"TAPB: an interventional debiasing framework for alleviating target prior bias in drug-target interaction prediction"的研究论文。该研究创新性地提出了TAPB框架,通过因果推断方法有效缓解靶点先验偏倚,显著提升了DTI预测的准确性和泛化能力。
研究团队采用了几项关键技术方法:首先利用ESM-2预训练模型提取蛋白质序列特征,构建靶点混淆因子字典;其次设计氨基酸随机化策略,包括70%残基随机删除和20%特征突变,破坏虚假相关性;最后通过混淆因子对齐模块(CAM)和多头交叉注意力(MHCA)机制,实现基于后门调整的干预训练计算P(Y|D,do(T))。研究使用了BioSNAP、BindingDB、Davis和Human四个公开数据集,涵盖域内、跨域和冷分割等多种评估场景。
研究首先将DTI预测形式化为二元分类任务,采用双塔架构处理SMILES(Simplified Molecular Input Line Entry System)和氨基酸序列输入。特征编码阶段使用CNN、ResNet、GCN、LSTM和BERT等编码器,特征融合采用BAN(Bilinear Attention Network)或Transformer等聚合器,最终通过分类头预测P(Y|D,T)。
通过t-SNE可视化分析发现,与传统的"药物偏倚"假设相反,模型在(T,R)输入下表现出明显的正类聚类,而在(D,R)输入下分布相对随机。这一现象在BindingDB和BioSNAP数据集的域内和跨域分割中均得到验证,表明"靶点偏倚"是主要问题。
研究提出了"先验趋势"的量化方法,通过排列检验证实靶点在训练集中存在显著的标签分布偏差。反事实数据集实验进一步验证了先验趋势与预测偏倚之间的因果关系,当靶点先验趋势较高时,模型会出现明显的偏倚预测。
TAPB框架包含三个核心组件:氨基酸随机化破坏虚假相关性,混淆因子字典C通过K-means聚类ESM-2特征构建,混淆因子对齐模块(CAM)建立Xt→C→T路径。干预训练通过后门调整计算P(Y|D,do(T)),理论推导确保因果效应的准确估计。
研究在四个数据集六种设置下评估模型性能,使用AUROC(Area Under the Receiver Operating Characteristic Curve)、AUPRC(Area Under the Precision-Recall Curve)等指标。TAPB与MolTrans、TransformerCPI、DrugBAN等基线模型对比,超参数通过交叉验证优化。
在BioSNAP域内分割中,TAPB相比次优基线PSICHIC在AUROC、AUPRC、准确率等指标上提升2-3%。在Davis数据集上表现尤为突出,AUPRC提升达7.4%。即使在以"药物偏倚"为主的Human数据集冷分割中,TAPB仍保持竞争优势。
TAPB在跨域场景下展现卓越泛化能力,在BindingDB跨域分割中AUROC达到0.676,显著优于采用域自适应技术(CDAN)的DrugBAN-da。这表明TAPB通过消除虚假相关性,能够更好地适应分布外目标。
消融实验验证了各组件贡献:ESM-2编码器提升特征表示能力;氨基酸随机化防止靶点记忆;MLM(Masked Language Modeling)损失增强药物表示;干预训练模块协同作用带来显著性能增益。残基随机删除的通用性在TransformerCPI和DrugBAN上得到验证。
通过注意力可视化,TAPB在分子和氨基酸水平提供结合位点洞察。以Aloisine A(PDB ID:1UNG)和Elaidamide(PDB ID:1KQU)为例,模型准确识别氢键相互作用关键残基,与实验测定的结合位点高度一致。多头注意力机制揭示不同相互作用模式,为药物设计提供指导。
本研究系统性地识别并解决了DTI预测中的"靶点先验偏倚"问题。从因果视角将靶点先验趋势视为混淆因子,提出理论严谨的干预性去偏框架。TAPB的创新性在于将因果推断与深度学习相结合,通过可实现的干预训练计算因果效应。
研究的意义不仅在于提升了DTI预测性能,更在于为生物信息学领域的偏倚问题提供了新的解决思路。"先验趋势"的概念可扩展到药物功能基团、靶点子序列等更广泛的偏倚来源。未来工作将探索多模态数据增强代理变量质量,优化调整集选择策略,进一步提升因果效应估计的统计效率。
尽管TAPB在结合位点预测中表现出色,但注意力机制在不同头间的低一致性提示可能存在潜在偏倚。这反映了生物复杂系统中因果推理的挑战,也为后续研究指明了方向。随着因果推断理论与深度学习技术的深度融合,DTI预测有望在药物重定位和发现中发挥更大价值。
研究构建结构因果模型(SCM, Structural Causal Model)描述DTI中的因果关系。传统模型存在后门路径T←Xt→Y,导致伪相关。TAPB通过引入混淆因子字典C,建立Xt→C→T路径,阻断混淆效应。
该策略包含残基随机删除(70%)和特征突变(20%)两部分。随机删除降低计算成本,特征突变通过替换为氨基酸字典中的随机特征,破坏序列模式与标签间的虚假关联。
通过后门调整公式P(Y|D,do(T))=ΣiP(Y|D,T,ci)P(ci)计算因果效应。MHCA(Multi-Head Cross Attention)的独立交互机制支持所有混淆条件概率的并行估计,确保计算效率。总损失函数结合二元分类损失和MLM损失,优化模型参数。
该研究通过理论创新与方法突破,为DTI预测领域提供了新的范式,标志着因果推断在生物信息学中的应用进入新阶段。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号