SNPeBoT:精准预测转录因子等位基因特异性结合的创新工具

【字体: 时间:2025年03月11日 来源:BMC Bioinformatics 2.9

编辑推荐:

  为解决转录因子结合模式及位点变化影响认知局限问题,研究人员开发 SNPeBoT 模型,其预测准确性高,有助于疾病研究。

  

转录因子结合预测的新突破:SNPeBoT 的诞生

在生命的微观世界里,基因表达的调控就像一场精密的交响乐,而转录因子(Transcription Factor,TF)则是其中关键的指挥家。它们能与 DNA 特定序列结合,协同增强子、沉默子或绝缘子元件,精准调节相关基因的表达,在生物体的发育阶段、细胞周期以及不同细胞类型中,掌控着基因表达的差异。然而,DNA 非编码调控区域的单核苷酸多态性(Single Nucleotide Polymorphism,SNP)就像是乐谱中的意外变奏,一旦出现在 TF 结合位点,就可能改变 TF 的结合能力,影响基因表达,进而引发疾病。
目前,虽然已有工具可预测 SNP 对 TF 结合的影响,但它们存在诸多问题。对于普通用户来说,一些工具安装或使用门槛高;深度学习模型还需要大量训练数据进行微调,而这些数据并非总是唾手可得。此外,现有工具还存在很多等位基因特异性结合(Allele Specific Binding,ASB)事件未被识别的情况。为了突破这些困境,来自西班牙庞培法布拉大学(Universitat Pompeu Fabra)的研究人员 Patrick Gohl 和 Baldo Oliva 开展了一项重要研究,成果发表在《BMC Bioinformatics》上。

研究的技术方法

研究人员开发了一种基于深度学习的模型 ——SNPeBoT(Single Nucleotide Polymorphism effect on Binding of Transcription Factors),用于预测 SNP 对 TF 结合的影响。在数据处理上,ASB 训练数据来自 ADASTRA 中汇编的染色质免疫沉淀测序(Chromatin Immunoprecipitation sequencing,ChIP-seq)实验,经过多轮筛选和处理,最终得到 18211 个可用数据点。同时,从 Catalog of Inferred Sequence Binding Preferences(CISBP)数据库获取 E-score 值和 TF 位置权重矩阵(Position Weight Matrix,PWM)。
模型构建方面,使用卷积神经网络(Convolutional Neural Network,CNN),以(8,4,1)的特征矩阵作为输入,经过卷积层、池化层、批归一化等一系列操作,最终通过 “softmax” 激活函数输出 “gain”“loss”“no - change” 三种预测结果。为了评估模型性能,研究人员将其与 MotifbreakR 和 atSNP 等现有工具进行对比,通过计算预测准确率、ASB 召回率以及受试者工作特征曲线下面积(Area Under the Curve,AUC)等指标进行综合评价。

研究结果

  1. 模型性能测试:在最初训练的 CNN 模型进行保留测试时,未应用事后过滤器,模型准确率达到 81%,ASB 召回率为 62%。当对未在训练中出现的 SNP 进行预测时,准确率为 80%,ASB 召回率为 61%;对训练中未涉及的 TF 结合的 SNP 进行预测时,准确率达 83%,这表明模型具有良好的泛化能力。应用事后过滤器后,SNPeBoT 的最高准确率提升至 85%,尽管 ASB 召回率有所下降,但仍有五个阈值的结果在预测准确率和 ASB 召回率上表现出色。
  2. 与其他工具的对比:在 9 种不同阈值下,SNPeBoT 在准确率和 ASB 召回率上均优于仅基于 PWM 比较的方法,这说明 SNPeBoT 能挖掘出 FIMO 扫描亲和力变化所忽略的信息。与 MotifbreakR 和 atSNP 相比,SNPeBoT 在不同阈值下都能取得更高的准确率和 ASB 召回率。在最佳性能阈值下,SNPeBoT 的准确率和 ASB 召回率均为最高,在二元预测(仅考虑 gain 和 loss)中,其 AUC 值也高于其他两种工具。
  3. 不同 TF 家族的预测表现:当按照 TF 家族对测试数据进行分组时,SNPeBoT 在不同家族中的表现有所差异,其中 bZIP 和 HLH 家族的预测结果最佳。
  4. 泛化能力测试:在 Enhanced Yeast 1 Hybrid(eY1H)实验数据上测试 SNPeBoT 的泛化能力,其预测准确率为 70%,ASB 召回率为 56%;仅考虑模型预测为 ASB(gain 或 loss)的情况时,准确率可达 88%。不过,由于大量假阴性的存在,其在 eY1H 数据上的表现较 ChIP-seq 数据有所下降。

研究结论与意义

SNPeBoT 在分析 SNP 对 TF 结合的影响方面,相比现有工具,显著提高了预测准确率,能够识别更多的 ASB 事件。这一成果有助于深入了解人类疾病潜在的调控机制,为疾病病因研究和全基因组关联研究(Genome Wide Association Study,GWAS)数据处理提供了有力的支持。此外,SNPeBoT 的网络服务器和独立版本的可用性,极大地方便了研究人员使用,推动了相关领域的研究进展。
未来,研究人员计划进一步拓展 SNPeBoT 的功能,如纳入更多与 TF 结合相关的信息,减少对实验数据的依赖,并利用其验证 GWAS 与疾病病因的关联,有望为生命科学和医学研究带来更多突破。可以说,SNPeBoT 就像一把精准的钥匙,正在逐步打开基因调控与疾病关联研究的新大门,为我们揭示生命微观世界更多的奥秘,为未来的疾病诊断和治疗提供更坚实的理论基础和技术支持。

婵犵數鍋為崹鍫曞箰閹间緡鏁勯柛顐g贩瑜版帒鐐婇柍瑙勫劤娴滈箖鏌i悢鐓庝喊婵℃彃婀遍埀顒冾潐閹稿摜鈧稈鏅濋埀顒勬涧閵堟悂寮崒鐐村€锋い鎺嶇劍閻﹀酣姊虹拠鎻掝劉缂佸甯″畷婵嬪箳濡も偓缁€澶愭煟閺冨倸甯舵潻婵囩節閻㈤潧孝婵炶尙濞€瀹曟垿骞橀幇浣瑰兊閻庤娲栧ú銊╂偩閾忓湱纾介柛灞剧懅椤︼附淇婇锝囩煉鐎规洘娲熼、鏃堝川椤栵絾绁梻浣瑰缁诲倿鎮ч幘婢勭喓鈧綆鍠楅悡娆愮箾閼奸鍤欐鐐达耿閺屾洟宕堕妸銉ユ懙閻庢鍣崜鐔肩嵁瀹ュ鏁婇柣锝呮湰濞堟悂姊绘担钘変汗闁烩剝妫冨畷褰掓惞椤愶絾鐝烽梺绉嗗嫷娈曟い銉ョ墦閺屾盯骞橀懠顒夋М婵炲濯崹鍫曞蓟閺囥垹骞㈡俊銈咃工閸撻亶鏌i姀鈺佺仭濠㈢懓妫楀嵄闁圭増婢橀~鍛存煟濞嗗苯浜惧┑鐐茬湴閸婃洟婀侀梺鎸庣箓濡瑧绮堢€n喗鐓冪憸婊堝礈濮橆厾鈹嶉柧蹇氼潐瀹曟煡鏌涢幇銊︽珖妞も晝鍏橀弻銊モ攽閸℃瑥鈪靛┑鈽嗗灠椤戝寮诲☉銏犵闁瑰鍎愬Λ锟犳⒑鐠囧弶鍞夊┑顔哄€楃划姘舵焼瀹ュ懐顦ㄥ銈嗘尵婵兘顢欓幒妤佲拺閻犲洠鈧櫕鐏侀梺鍛婃煥妤犳悂鍩㈤幘璇茬闁挎棁妫勫▓銉ヮ渻閵堝棛澧紒顔肩焸閸╂盯寮介鐔哄幈濠电偛妫欓崝鏇㈡倶閳哄偆娈介柣鎰级閸犳﹢鏌熼姘毙х€殿噮鍣e畷鎺懳旀担瑙勭彃

10x Genomics闂傚倷绀侀幖顐﹀磹閻熼偊鐔嗘慨妞诲亾妤犵偞鐗犻垾鏂裤€掓刊鐖剈m HD 闂佽瀛╅鏍窗閹烘纾婚柟鍓х帛閻撴洘鎱ㄥΟ鐓庡付闁诲繒濮烽埀顒冾潐濞叉粓宕伴幘鑸殿潟闁圭儤顨呴獮銏℃叏濮楀棗澧┑顔煎暣濮婃椽宕ㄦ繝鍌滅懆濠碘槅鍋呯划宥夊Φ閺冨牆绠瑰ù锝囨嚀娴犮垽姊洪幖鐐插姉闁哄懏绮撻幃楣冩焼瀹ュ棛鍘遍棅顐㈡搐椤戝懏鎱ㄩ埀顒€鈹戦悙瀛樼稇婵☆偅绮撴俊鐢稿箛閺夊灝宓嗛梺缁樶缚閺佹悂鎮℃担铏圭=濞达絽鎲″﹢鐗堜繆閻愯埖顥夐摶鐐烘煕瑜庨〃鍛矆閸℃稒鐓曢柍鈺佸暈缂傛岸鏌嶈閸忔稓鍒掑▎鎾虫瀬鐎广儱顦伴弲鎼佹煥閻曞倹瀚�

濠电姷鏁搁崑娑樜涙惔銊ュ瀭闁兼祴鏅滃畷鏌ユ倵閿濆骸浜為柍缁樻閹鏁愭惔鈥崇缂備椒鑳跺▍澧俰st闂傚倷绶氬ḿ褍螞濡ゅ懏鏅濋柨婵嗘川缁犳柨顭块懜闈涘婵☆偅蓱閵囧嫰骞樼捄杞扮捕缂傚倸绉崇欢姘跺蓟濞戙垹鍐€闁靛ě鍐f嫛婵犵數鍋涢悧濠囧储椤ョSPR缂傚倸鍊烽悞锔剧矙閹烘鍎庢い鏍仜閻掑灚銇勯幒鍡椾壕濡炪倧缂氶崡鎶藉箖瑜斿畷顐﹀Ψ閵堝棗濯伴梻渚€鈧偛鑻晶鏉戔攽閳ユ剚鍤熼柍褜鍓ㄧ紞鍡涘礈濮樿泛姹查柍鍝勬噺閸婂灚绻涢幋鐐垫噧濠殿喖鍟撮弻娑㈠籍閹炬潙顏�

闂傚倷绀侀幉锟犮€冮崱妞曞搫饪伴崨顓炵亰闂婎偄娲︾粙鎺楀吹閸曨垱鐓熼柟閭﹀墻閸ょ喖鏌曢崼鐔稿唉妤犵偞鐗犲鍫曞箣閻樻鍞堕梻浣告啞閻熴儱螞濠靛棭娼栧┑鐘宠壘鎯熼梺闈涱檧缁茬厧霉閻戣姤鐓熼柣妯夸含閸斿秶鎲搁弶鍨殻闁诡喓鍎甸弫鎾绘晸閿燂拷 - 濠电姷鏁搁崕鎴犲緤閽樺鏆︽い鎺戝閻鏌涢埄鍐$細妞も晜鐓¢弻娑㈠焺閸愭儳姣€闂佸湱鍎ら幐楣冦€呴悜钘夌閺夊牆澧界粔鐢告煕鎼淬垹鐏ラ柍钘夘樀楠炴﹢顢涘顐㈩棜婵犵數鍋為崹鍫曞箹閳哄倻顩叉繝濠傚暟閺嗭箓鏌i弮鍥仩缁炬儳銈搁弻娑㈠焺閸愵厼顥濋梺鍛婃⒐鐢繝骞冨Δ鍛嵍妞ゆ挾鍋樺Σ鎰版⒑缂佹ḿ鈯曢柣鐔濆洤绠悗锝庡枛缁犳煡鏌熸导瀛樻锭闁诡喕绶氬娲川婵犲倻顑傛繝鈷€鍕垫疁鐎殿喗濞婇幃銏ゆ偂鎼达綆鍞规俊鐐€栭弻銊╂倶濠靛牏鐜绘繛鎴欏灪閻撴瑩鎮归妸銉Ц闁稿﹤顭烽幃鐑藉閵堝棛鍘卞┑鐐叉閿氶柣蹇嬪劜閵囧嫰顢曢姀鈺佸壎閻庤娲滄繛鈧€殿喕绮欓、鏍敃閿濆懏璇為悗娈垮枟閹倿寮幘缁樻櫢闁跨噦鎷�

婵犵數鍋為崹鍫曞箰閹间緡鏁勯柛顐g贩瑜版帒鐐婃い鎺嗗亾鏉╂繃绻濋悽闈浶㈤悗姘煎櫍閹本鎯旈妸锔惧幘閻庤娲栧ú銈嗙濠婂牊鐓曢柣鎰摠鐏忥箓鏌熼挊澶娾偓濠氬焵椤掑﹦绉甸柛鎾村哺椤㈡棃濡舵径瀣化闂佽澹嬮弲娑欎繆閾忓湱纾奸柕濞у喚鏆梺鐟板槻閹冲酣銈导鏉戠闁靛ě鈧崑鎾寸節濮橆厾鍘搁柣搴秵閸嬪嫭鎱ㄩ崼銉︾厸鐎光偓閳ь剟宕版惔銊ョ厺闁哄啫鐗嗛崡鎶芥煟濡寧鐝慨锝呭閺岋絾鎯旈姀鈶╁闂佸憡姊圭敮鈥崇暦濠靛鍋勯柣鎾冲閵夆晜鐓ラ柣鏇炲€圭€氾拷

相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 急聘职位
    • 高薪职位

    知名企业招聘

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号