编辑推荐:
为解决转录因子结合模式及位点变化影响认知局限问题,研究人员开发 SNPeBoT 模型,其预测准确性高,有助于疾病研究。
转录因子结合预测的新突破:SNPeBoT 的诞生
在生命的微观世界里,基因表达的调控就像一场精密的交响乐,而转录因子(Transcription Factor,TF)则是其中关键的指挥家。它们能与 DNA 特定序列结合,协同增强子、沉默子或绝缘子元件,精准调节相关基因的表达,在生物体的发育阶段、细胞周期以及不同细胞类型中,掌控着基因表达的差异。然而,DNA 非编码调控区域的单核苷酸多态性(Single Nucleotide Polymorphism,SNP)就像是乐谱中的意外变奏,一旦出现在 TF 结合位点,就可能改变 TF 的结合能力,影响基因表达,进而引发疾病。
目前,虽然已有工具可预测 SNP 对 TF 结合的影响,但它们存在诸多问题。对于普通用户来说,一些工具安装或使用门槛高;深度学习模型还需要大量训练数据进行微调,而这些数据并非总是唾手可得。此外,现有工具还存在很多等位基因特异性结合(Allele Specific Binding,ASB)事件未被识别的情况。为了突破这些困境,来自西班牙庞培法布拉大学(Universitat Pompeu Fabra)的研究人员 Patrick Gohl 和 Baldo Oliva 开展了一项重要研究,成果发表在《BMC Bioinformatics》上。
研究的技术方法
研究人员开发了一种基于深度学习的模型 ——SNPeBoT(Single Nucleotide Polymorphism effect on Binding of Transcription Factors),用于预测 SNP 对 TF 结合的影响。在数据处理上,ASB 训练数据来自 ADASTRA 中汇编的染色质免疫沉淀测序(Chromatin Immunoprecipitation sequencing,ChIP-seq)实验,经过多轮筛选和处理,最终得到 18211 个可用数据点。同时,从 Catalog of Inferred Sequence Binding Preferences(CISBP)数据库获取 E-score 值和 TF 位置权重矩阵(Position Weight Matrix,PWM)。
模型构建方面,使用卷积神经网络(Convolutional Neural Network,CNN),以(8,4,1)的特征矩阵作为输入,经过卷积层、池化层、批归一化等一系列操作,最终通过 “softmax” 激活函数输出 “gain”“loss”“no - change” 三种预测结果。为了评估模型性能,研究人员将其与 MotifbreakR 和 atSNP 等现有工具进行对比,通过计算预测准确率、ASB 召回率以及受试者工作特征曲线下面积(Area Under the Curve,AUC)等指标进行综合评价。
研究结果
- 模型性能测试:在最初训练的 CNN 模型进行保留测试时,未应用事后过滤器,模型准确率达到 81%,ASB 召回率为 62%。当对未在训练中出现的 SNP 进行预测时,准确率为 80%,ASB 召回率为 61%;对训练中未涉及的 TF 结合的 SNP 进行预测时,准确率达 83%,这表明模型具有良好的泛化能力。应用事后过滤器后,SNPeBoT 的最高准确率提升至 85%,尽管 ASB 召回率有所下降,但仍有五个阈值的结果在预测准确率和 ASB 召回率上表现出色。
- 与其他工具的对比:在 9 种不同阈值下,SNPeBoT 在准确率和 ASB 召回率上均优于仅基于 PWM 比较的方法,这说明 SNPeBoT 能挖掘出 FIMO 扫描亲和力变化所忽略的信息。与 MotifbreakR 和 atSNP 相比,SNPeBoT 在不同阈值下都能取得更高的准确率和 ASB 召回率。在最佳性能阈值下,SNPeBoT 的准确率和 ASB 召回率均为最高,在二元预测(仅考虑 gain 和 loss)中,其 AUC 值也高于其他两种工具。
- 不同 TF 家族的预测表现:当按照 TF 家族对测试数据进行分组时,SNPeBoT 在不同家族中的表现有所差异,其中 bZIP 和 HLH 家族的预测结果最佳。
- 泛化能力测试:在 Enhanced Yeast 1 Hybrid(eY1H)实验数据上测试 SNPeBoT 的泛化能力,其预测准确率为 70%,ASB 召回率为 56%;仅考虑模型预测为 ASB(gain 或 loss)的情况时,准确率可达 88%。不过,由于大量假阴性的存在,其在 eY1H 数据上的表现较 ChIP-seq 数据有所下降。
研究结论与意义
SNPeBoT 在分析 SNP 对 TF 结合的影响方面,相比现有工具,显著提高了预测准确率,能够识别更多的 ASB 事件。这一成果有助于深入了解人类疾病潜在的调控机制,为疾病病因研究和全基因组关联研究(Genome Wide Association Study,GWAS)数据处理提供了有力的支持。此外,SNPeBoT 的网络服务器和独立版本的可用性,极大地方便了研究人员使用,推动了相关领域的研究进展。
未来,研究人员计划进一步拓展 SNPeBoT 的功能,如纳入更多与 TF 结合相关的信息,减少对实验数据的依赖,并利用其验证 GWAS 与疾病病因的关联,有望为生命科学和医学研究带来更多突破。可以说,SNPeBoT 就像一把精准的钥匙,正在逐步打开基因调控与疾病关联研究的新大门,为我们揭示生命微观世界更多的奥秘,为未来的疾病诊断和治疗提供更坚实的理论基础和技术支持。
娑撳娴囩€瑰宓庢导锔炬暩鐎涙劒鍔熼妴濠団偓姘崇箖缂佸棜鍎禒锝堥樋閹活厾銇氶弬鎵畱閼筋垳澧块棃鍓佸仯閵嗗甯扮槐銏狀洤娴f洟鈧俺绻冩禒锝堥樋閸掑棙鐎芥穱鍐箻閹劎娈戦懡顖滃⒖閸欐垹骞囬惍鏃傗敀
10x Genomics閺傛澘鎼isium HD 瀵偓閸氼垰宕熺紒鍡氬劒閸掑棜椴搁悳鍥╂畱閸忋劏娴嗚ぐ鏇犵矋缁屾椽妫块崚鍡樼€介敍锟�
濞嗐垼绻嬫稉瀣祰Twist閵嗗﹣绗夐弬顓炲綁閸栨牜娈慍RISPR缁涙盯鈧鐗哥仦鈧妴瀣暩鐎涙劒鍔�
閸楁洜绮忛懗鐐寸ゴ鎼村繐鍙嗛梻銊ャ亣鐠佹彃鐖� - 濞e崬鍙嗘禍鍡毿掓禒搴n儑娑撯偓娑擃亜宕熺紒鍡氬劒鐎圭偤鐛欑拋鎹愵吀閸掔増鏆熼幑顔垮窛閹貉傜瑢閸欘垵顫嬮崠鏍掗弸锟�
娑撳娴囬妴濠勭矎閼崇偛鍞撮摂瀣鐠愩劋绨版担婊冨瀻閺嬫劖鏌熷▔鏇犳暩鐎涙劒鍔熼妴锟�