SNPeBoT：精准预测转录因子等位基因特异性结合的创新工具

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年03月11日 来源：BMC Bioinformatics 2.9

编辑推荐：

　　为解决转录因子结合模式及位点变化影响认知局限问题，研究人员开发 SNPeBoT 模型，其预测准确性高，有助于疾病研究。

转录因子结合预测的新突破：SNPeBoT 的诞生

在生命的微观世界里，基因表达的调控就像一场精密的交响乐，而转录因子（Transcription Factor，TF）则是其中关键的指挥家。它们能与 DNA 特定序列结合，协同增强子、沉默子或绝缘子元件，精准调节相关基因的表达，在生物体的发育阶段、细胞周期以及不同细胞类型中，掌控着基因表达的差异。然而，DNA 非编码调控区域的单核苷酸多态性（Single Nucleotide Polymorphism，SNP）就像是乐谱中的意外变奏，一旦出现在 TF 结合位点，就可能改变 TF 的结合能力，影响基因表达，进而引发疾病。

目前，虽然已有工具可预测 SNP 对 TF 结合的影响，但它们存在诸多问题。对于普通用户来说，一些工具安装或使用门槛高；深度学习模型还需要大量训练数据进行微调，而这些数据并非总是唾手可得。此外，现有工具还存在很多等位基因特异性结合（Allele Specific Binding，ASB）事件未被识别的情况。为了突破这些困境，来自西班牙庞培法布拉大学（Universitat Pompeu Fabra）的研究人员 Patrick Gohl 和 Baldo Oliva 开展了一项重要研究，成果发表在《BMC Bioinformatics》上。

研究的技术方法

研究人员开发了一种基于深度学习的模型 ——SNPeBoT（Single Nucleotide Polymorphism effect on Binding of Transcription Factors），用于预测 SNP 对 TF 结合的影响。在数据处理上，ASB 训练数据来自 ADASTRA 中汇编的染色质免疫沉淀测序（Chromatin Immunoprecipitation sequencing，ChIP-seq）实验，经过多轮筛选和处理，最终得到 18211 个可用数据点。同时，从 Catalog of Inferred Sequence Binding Preferences（CISBP）数据库获取 E-score 值和 TF 位置权重矩阵（Position Weight Matrix，PWM）。

模型构建方面，使用卷积神经网络（Convolutional Neural Network，CNN），以（8,4,1）的特征矩阵作为输入，经过卷积层、池化层、批归一化等一系列操作，最终通过 “softmax” 激活函数输出 “gain”“loss”“no - change” 三种预测结果。为了评估模型性能，研究人员将其与 MotifbreakR 和 atSNP 等现有工具进行对比，通过计算预测准确率、ASB 召回率以及受试者工作特征曲线下面积（Area Under the Curve，AUC）等指标进行综合评价。

研究结果

模型性能测试：在最初训练的 CNN 模型进行保留测试时，未应用事后过滤器，模型准确率达到 81%，ASB 召回率为 62%。当对未在训练中出现的 SNP 进行预测时，准确率为 80%，ASB 召回率为 61%；对训练中未涉及的 TF 结合的 SNP 进行预测时，准确率达 83%，这表明模型具有良好的泛化能力。应用事后过滤器后，SNPeBoT 的最高准确率提升至 85%，尽管 ASB 召回率有所下降，但仍有五个阈值的结果在预测准确率和 ASB 召回率上表现出色。
与其他工具的对比：在 9 种不同阈值下，SNPeBoT 在准确率和 ASB 召回率上均优于仅基于 PWM 比较的方法，这说明 SNPeBoT 能挖掘出 FIMO 扫描亲和力变化所忽略的信息。与 MotifbreakR 和 atSNP 相比，SNPeBoT 在不同阈值下都能取得更高的准确率和 ASB 召回率。在最佳性能阈值下，SNPeBoT 的准确率和 ASB 召回率均为最高，在二元预测（仅考虑 gain 和 loss）中，其 AUC 值也高于其他两种工具。
不同 TF 家族的预测表现：当按照 TF 家族对测试数据进行分组时，SNPeBoT 在不同家族中的表现有所差异，其中 bZIP 和 HLH 家族的预测结果最佳。
泛化能力测试：在 Enhanced Yeast 1 Hybrid（eY1H）实验数据上测试 SNPeBoT 的泛化能力，其预测准确率为 70%，ASB 召回率为 56%；仅考虑模型预测为 ASB（gain 或 loss）的情况时，准确率可达 88%。不过，由于大量假阴性的存在，其在 eY1H 数据上的表现较 ChIP-seq 数据有所下降。

研究结论与意义

SNPeBoT 在分析 SNP 对 TF 结合的影响方面，相比现有工具，显著提高了预测准确率，能够识别更多的 ASB 事件。这一成果有助于深入了解人类疾病潜在的调控机制，为疾病病因研究和全基因组关联研究（Genome Wide Association Study，GWAS）数据处理提供了有力的支持。此外，SNPeBoT 的网络服务器和独立版本的可用性，极大地方便了研究人员使用，推动了相关领域的研究进展。

未来，研究人员计划进一步拓展 SNPeBoT 的功能，如纳入更多与 TF 结合相关的信息，减少对实验数据的依赖，并利用其验证 GWAS 与疾病病因的关联，有望为生命科学和医学研究带来更多突破。可以说，SNPeBoT 就像一把精准的钥匙，正在逐步打开基因调控与疾病关联研究的新大门，为我们揭示生命微观世界更多的奥秘，为未来的疾病诊断和治疗提供更坚实的理论基础和技术支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号