SNPeBoT:精准预测转录因子等位基因特异性结合的创新工具

【字体: 时间:2025年03月11日 来源:BMC Bioinformatics 2.9

编辑推荐:

  为解决转录因子结合模式及位点变化影响认知局限问题,研究人员开发 SNPeBoT 模型,其预测准确性高,有助于疾病研究。

  

转录因子结合预测的新突破:SNPeBoT 的诞生

在生命的微观世界里,基因表达的调控就像一场精密的交响乐,而转录因子(Transcription Factor,TF)则是其中关键的指挥家。它们能与 DNA 特定序列结合,协同增强子、沉默子或绝缘子元件,精准调节相关基因的表达,在生物体的发育阶段、细胞周期以及不同细胞类型中,掌控着基因表达的差异。然而,DNA 非编码调控区域的单核苷酸多态性(Single Nucleotide Polymorphism,SNP)就像是乐谱中的意外变奏,一旦出现在 TF 结合位点,就可能改变 TF 的结合能力,影响基因表达,进而引发疾病。
目前,虽然已有工具可预测 SNP 对 TF 结合的影响,但它们存在诸多问题。对于普通用户来说,一些工具安装或使用门槛高;深度学习模型还需要大量训练数据进行微调,而这些数据并非总是唾手可得。此外,现有工具还存在很多等位基因特异性结合(Allele Specific Binding,ASB)事件未被识别的情况。为了突破这些困境,来自西班牙庞培法布拉大学(Universitat Pompeu Fabra)的研究人员 Patrick Gohl 和 Baldo Oliva 开展了一项重要研究,成果发表在《BMC Bioinformatics》上。

研究的技术方法

研究人员开发了一种基于深度学习的模型 ——SNPeBoT(Single Nucleotide Polymorphism effect on Binding of Transcription Factors),用于预测 SNP 对 TF 结合的影响。在数据处理上,ASB 训练数据来自 ADASTRA 中汇编的染色质免疫沉淀测序(Chromatin Immunoprecipitation sequencing,ChIP-seq)实验,经过多轮筛选和处理,最终得到 18211 个可用数据点。同时,从 Catalog of Inferred Sequence Binding Preferences(CISBP)数据库获取 E-score 值和 TF 位置权重矩阵(Position Weight Matrix,PWM)。
模型构建方面,使用卷积神经网络(Convolutional Neural Network,CNN),以(8,4,1)的特征矩阵作为输入,经过卷积层、池化层、批归一化等一系列操作,最终通过 “softmax” 激活函数输出 “gain”“loss”“no - change” 三种预测结果。为了评估模型性能,研究人员将其与 MotifbreakR 和 atSNP 等现有工具进行对比,通过计算预测准确率、ASB 召回率以及受试者工作特征曲线下面积(Area Under the Curve,AUC)等指标进行综合评价。

研究结果

濡ょ姷鍋涢悘婵嬪箟閿燂拷 免费获取QuantiNova定量试剂试用资格
  1. 模型性能测试:在最初训练的 CNN 模型进行保留测试时,未应用事后过滤器,模型准确率达到 81%,ASB 召回率为 62%。当对未在训练中出现的 SNP 进行预测时,准确率为 80%,ASB 召回率为 61%;对训练中未涉及的 TF 结合的 SNP 进行预测时,准确率达 83%,这表明模型具有良好的泛化能力。应用事后过滤器后,SNPeBoT 的最高准确率提升至 85%,尽管 ASB 召回率有所下降,但仍有五个阈值的结果在预测准确率和 ASB 召回率上表现出色。
  2. 与其他工具的对比:在 9 种不同阈值下,SNPeBoT 在准确率和 ASB 召回率上均优于仅基于 PWM 比较的方法,这说明 SNPeBoT 能挖掘出 FIMO 扫描亲和力变化所忽略的信息。与 MotifbreakR 和 atSNP 相比,SNPeBoT 在不同阈值下都能取得更高的准确率和 ASB 召回率。在最佳性能阈值下,SNPeBoT 的准确率和 ASB 召回率均为最高,在二元预测(仅考虑 gain 和 loss)中,其 AUC 值也高于其他两种工具。
  3. 不同 TF 家族的预测表现:当按照 TF 家族对测试数据进行分组时,SNPeBoT 在不同家族中的表现有所差异,其中 bZIP 和 HLH 家族的预测结果最佳。
  4. 泛化能力测试:在 Enhanced Yeast 1 Hybrid(eY1H)实验数据上测试 SNPeBoT 的泛化能力,其预测准确率为 70%,ASB 召回率为 56%;仅考虑模型预测为 ASB(gain 或 loss)的情况时,准确率可达 88%。不过,由于大量假阴性的存在,其在 eY1H 数据上的表现较 ChIP-seq 数据有所下降。

研究结论与意义

SNPeBoT 在分析 SNP 对 TF 结合的影响方面,相比现有工具,显著提高了预测准确率,能够识别更多的 ASB 事件。这一成果有助于深入了解人类疾病潜在的调控机制,为疾病病因研究和全基因组关联研究(Genome Wide Association Study,GWAS)数据处理提供了有力的支持。此外,SNPeBoT 的网络服务器和独立版本的可用性,极大地方便了研究人员使用,推动了相关领域的研究进展。
未来,研究人员计划进一步拓展 SNPeBoT 的功能,如纳入更多与 TF 结合相关的信息,减少对实验数据的依赖,并利用其验证 GWAS 与疾病病因的关联,有望为生命科学和医学研究带来更多突破。可以说,SNPeBoT 就像一把精准的钥匙,正在逐步打开基因调控与疾病关联研究的新大门,为我们揭示生命微观世界更多的奥秘,为未来的疾病诊断和治疗提供更坚实的理论基础和技术支持。

婵炴垶鎸搁鍫澝归崶鈹惧亾閻熼偊妲圭€规挸瀛╃€靛ジ鏁傞悙顒佹瘎闁诲孩绋掗崝鎺楀礉閻旂厧违濠电姴娲犻崑鎾愁潩瀹曞洨鐣虹紓鍌欑濡粓宕曢鍛浄闁挎繂鐗撳Ο瀣煙濞茶骞橀柕鍥ㄥ哺瀵剟骞嶉鐣屾殸闂佽偐鐡旈崹铏櫠閸ф顥堥柛鎾茬娴狀垶鏌曢崱妤婂剱閻㈩垱澹嗗Σ鎰板閻欌偓濞层倕霉閿濆棙绀嬮柍褜鍓氭穱铏规崲閸愨晝顩烽柨婵嗙墦濡鏌涢幒鎴烆棡闁诲氦濮ょ粚閬嶅礃椤撶姷顔掗梺璇″枔閸斿骸鈻撻幋锔藉殥妞ゆ牗绮岄埛鏍煕濞嗘劕鐏╂鐐叉喘閹秹寮崒妤佹櫃

10x Genomics闂佸搫鍊瑰姗€骞栭—娓媠ium HD 閻庢鍠掗崑鎾绘煕濮樼厧鐏犵€规洜鍠撶槐鎺楀幢濮橆剙濮冮梺鍛婂笒濡粍銇旈幖浣瑰仢闁搞儮鏅滈悾閬嶆煕韫囧濮€婵炴潙妫滈妵鎰板即閻樼數鐓佺紓浣告湰濡炶棄螞閸ф绀嗛柛鈩冡缚閳ь兛绮欓弫宥夋晸閿燂拷

濠电偛妫庨崹鑲╂崲鐎n偆鈻旈悗锝庡幗缁佺櫉wist闂侀潧妫楅敃锝囩箔婢舵劕妫樻い鎾跺仜缂嶄線鏌涢弽銊у⒈婵炲牊鍘ISPR缂備焦绋掗惄顖炲焵椤掆偓椤︿即鎮ч崫銉ゆ勃闁逞屽墴婵″鈧綆鍓氶弳鈺呮倵濞戞瑥濮冮柛鏃撴嫹

闂佸憡顨嗗ú婊呭垝韫囨稒鍤勯柣鎰嚟閵堟挳骞栭弶鎴犵闁告瑥妫濆濠氬Ω閵夛絼娴烽柣鐘辩劍瑜板啴鎮ラ敓锟� - 濠电儑绲藉畷顒勫矗閸℃ḿ顩查柛鈩冾嚧閹烘挾顩烽幖杈剧秵閸庢垵鈽夐幘顖氫壕婵炴垶鎼╂禍婊冪暦閻旇櫣纾奸柛鈩冭壘閸旀帡鎮楅崷顓炰槐闁绘稒鐟ч幏瀣箲閹伴潧鎮侀梺鍛婂笧婢ф寮抽悢鐓庣妞ゆ柨鐏濈粣娑㈡煙鐠ㄥ鍊婚悷銏ゆ煕濞嗘ê鐏ユい顐㈩儔瀹曠娀寮介顐e浮瀵悂鏁撻敓锟�

婵炴垶鎸搁鍫澝归崶顒€违濠电姴瀚惌搴ㄦ煠瀹曞洤浠滈柛鐐存尦閹藉倻鈧綆鍓氶銈夋偣閹扳晛濡虹紒銊у閹峰懎饪伴崘銊р偓濠氭煛鐎n偄濮堥柡宀€鍠庨埢鏃堝即閻樿櫕姣勯柣搴㈢⊕閸旀帡宕濋悢鐓幬ラ柨鐕傛嫹

相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 急聘职位
    • 高薪职位

    知名企业招聘

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号