编辑推荐:
为解决序列比对难题,研究人员开发无比对系统发育估计方法 Peafowl,结果表明其具竞争力,有重要意义。
在生物学的神秘领域中,物种的进化历程就像一幅错综复杂的拼图,系统发育树(phylogenetic tree)则是拼凑这幅拼图的关键工具,它能直观展现物种间的进化关系。以往,构建系统发育树的主流方法是基于序列比对,然而这种方法就像一个 “麻烦精”。在处理长序列和基因组重排等复杂事件时,它不仅耗时费力,还特别占内存,就像让蜗牛去参加马拉松,速度慢且效率低。而且,寻找最优的多序列比对(Multiple Sequence Alignment,MSA)是个计算难题,随着序列长度增加,可能的比对数量呈指数级增长,这无疑给研究人员增加了巨大的挑战。更糟糕的是,当基因组序列存在重排事件时,基于比对的方法会受到很大干扰,难以构建出准确的系统发育树。
为了突破这些困境,来自孟加拉国工程技术大学计算机科学与工程系的研究人员 Tasfia Zahin、Md. Hasin Abrar 等人开展了一项极具创新性的研究。他们提出了一种基于最大似然法的无比对系统发育树构建技术,并将其应用于软件 Peafowl(Phylogeny Estimation through Alignment Free Optimization With Likelihood)中。相关研究成果发表在《BMC Bioinformatics》上。
在研究方法上,研究人员主要采用了以下关键技术:首先,利用 Jellyfish 工具生成输入序列中的 k-mer(长度为 k 的连续子序列)列表,且支持正反向互补计数模式,让用户自主选择如何处理反向互补序列。然后,根据 k-mer 在序列中的存在与否构建二进制矩阵,通过哈希表来高效记录 k-mer 与物种的对应关系。接着,为了挑选出最适合构建系统发育树的 k-mer 长度,研究人员利用熵(entropy)的概念,计算不同 k-mer 长度对应的二进制矩阵的累积熵,选择熵值最大时对应的 k-mer 长度(记为kentropy?)。最后,将对应kentropy?的二进制矩阵输入到广泛使用的最大似然系统发育估计工具 RAxML 中,利用已有的二进制性状替代模型 BINGAMMA 来构建系统发育树。
在研究结果方面:
- 数据集与基准测试:研究人员使用了 7 个真实数据集来评估 Peafowl 的性能,包括 7 个灵长类数据集、果蝇数据集以及 AFproject 中的 5 个数据集。主要的性能评估指标是罗宾逊 - 福尔兹(Robinson Foulds,RF)距离及其归一化值(nRF),nRF 值越小,说明估计树与参考树越一致。
- k-mer 长度的选择:研究发现,在 7 个灵长类数据集和果蝇数据集中,nRF 距离最低值往往出现在熵值最高的kentropy?处。例如在 7 个灵长类数据集中,当 k 等于 9 时,nRF 距离达到最小值 0,同时熵值最大。
- 灵长类和果蝇数据集的结果:在 7 个灵长类数据集中,Peafowl 与 andi、Multi-SpaM、FFP 等方法正确重建了参考树,而 Mash、Skmer、co-phylog 等方法在重建灵长类进化关系时出现错误。在果蝇数据集中,Peafowl、Skmer 和 phylonium 获得了最低的 nRF 距离,Peafowl 和 Skmer 生成的树与参考树仅在一个分支上存在差异。
- 基于基因组的系统发育分析:在 AFproject 的基于基因组的系统发育数据集中,Peafowl 在 25 个鱼类数据集上表现出色,与 Mash 和 FSWM 一起获得了最低的 nRF 距离 0.05。但在 29 个大肠杆菌 / 志贺氏菌和 14 个植物数据集上,Peafowl 的表现不如其他方法。
- 水平基因转移(Horizontal Gene Transfer,HGT)分析:在包含大量基因组重排和水平基因转移的耶尔森菌数据集上,Peafowl 在规范计数模式下 nRF 值为 1,表现不佳。然而,当采用非规范计数模式时,Peafowl 重建的树与参考树完全相同。在 27 个大肠杆菌 / 志贺氏菌数据集上,Peafowl 的 nRF 距离为 0.17,而 co-phylog、andi 和 phylonium 等方法表现更优。
- 运行时间和内存使用:研究人员在 AMD Ryzen 9 7950X 16 核处理器、64GB 内存的机器上运行所有数据集,总结了不同数据集的运行时间和峰值内存使用情况。
研究结论和讨论部分表明,Peafowl 作为一种无比对的系统发育估计方法,成功避开了多序列比对的复杂性,结合了最大似然估计在系统发育树构建中的优点。它在部分数据集上表现出色,生成的树与参考树的 nRF 距离最低。而且在特定模式下,Peafowl 能够准确重建受到基因组重排影响的数据集的系统发育树。不过,Peafowl 也存在一些局限性,比如在物种差异较大或序列存在大量缺失区域时表现不佳,目前只能处理已组装的序列或基因组,估计的分支长度不够准确,运行速度也比基于距离的无比对方法慢。但这些不足也为未来的研究指明了方向,有望进一步改进和完善该方法。这项研究为系统发育分析领域提供了新的思路和方法,推动了无比对系统发育估计技术的发展,对深入理解物种进化关系具有重要意义。
婵犵數鍋為崹鍫曞箰閹间緡鏁勯柛顐g贩瑜版帒鐐婇柍瑙勫劤娴滈箖鏌i悢鐓庝喊婵℃彃婀遍埀顒冾潐閹稿摜鈧稈鏅濋埀顒勬涧閵堟悂寮崒鐐村€锋い鎺嶇劍閻﹀酣姊虹拠鎻掝劉缂佸甯″畷婵嬪箳濡も偓缁€澶愭煟閺冨倸甯舵潻婵囩節閻㈤潧孝婵炶尙濞€瀹曟垿骞橀幇浣瑰兊閻庤娲栧ú銊╂偩閾忓湱纾介柛灞剧懅椤︼附淇婇锝囩煉鐎规洘娲熼、鏃堝川椤栵絾绁梻浣瑰缁诲倿鎮ч幘婢勭喓鈧綆鍠楅悡娆愮箾閼奸鍤欐鐐达耿閺屾洟宕堕妸銉ユ懙閻庢鍣崜鐔肩嵁瀹ュ鏁婇柣锝呮湰濞堟悂姊绘担钘変汗闁烩剝妫冨畷褰掓惞椤愶絾鐝烽梺绉嗗嫷娈曟い銉ョ墦閺屾盯骞橀懠顒夋М婵炲濯崹鍫曞蓟閺囥垹骞㈡俊銈咃工閸撻亶鏌i姀鈺佺仭濠㈢懓妫楀嵄闁圭増婢橀~鍛存煟濞嗗苯浜惧┑鐐茬湴閸婃洟婀侀梺鎸庣箓濡瑧绮堢€n喗鐓冪憸婊堝礈濮橆厾鈹嶉柧蹇氼潐瀹曟煡鏌涢幇銊︽珖妞も晝鍏橀弻銊モ攽閸℃瑥鈪靛┑鈽嗗灠椤戝寮诲☉銏犵闁瑰鍎愬Λ锟犳⒑鐠囧弶鍞夊┑顔哄€楃划姘舵焼瀹ュ懐顦ㄥ銈嗘尵婵兘顢欓幒妤佲拺閻犲洠鈧櫕鐏侀梺鍛婃煥妤犳悂鍩㈤幘璇茬闁挎棁妫勫▓銉ヮ渻閵堝棛澧紒顔肩焸閸╂盯寮介鐔哄幈濠电偛妫欓崝鏇㈡倶閳哄偆娈介柣鎰级閸犳﹢鏌熼姘毙х€殿噮鍣e畷鎺懳旀担瑙勭彃
10x Genomics闂傚倷绀侀幖顐﹀磹閻熼偊鐔嗘慨妞诲亾妤犵偞鐗犻垾鏂裤€掓刊鐖剈m HD 闂佽瀛╅鏍窗閹烘纾婚柟鍓х帛閻撴洘鎱ㄥΟ鐓庡付闁诲繒濮烽埀顒冾潐濞叉粓宕伴幘鑸殿潟闁圭儤顨呴獮銏℃叏濮楀棗澧┑顔煎暣濮婃椽宕ㄦ繝鍌滅懆濠碘槅鍋呯划宥夊Φ閺冨牆绠瑰ù锝囨嚀娴犮垽姊洪幖鐐插姉闁哄懏绮撻幃楣冩焼瀹ュ棛鍘遍棅顐㈡搐椤戝懏鎱ㄩ埀顒€鈹戦悙瀛樼稇婵☆偅绮撴俊鐢稿箛閺夊灝宓嗛梺缁樶缚閺佹悂鎮℃担铏圭=濞达絽鎲″﹢鐗堜繆閻愯埖顥夐摶鐐烘煕瑜庨〃鍛矆閸℃稒鐓曢柍鈺佸暈缂傛岸鏌嶈閸忔稓鍒掑▎鎾虫瀬鐎广儱顦伴弲鎼佹煥閻曞倹瀚�
濠电姷鏁搁崑娑樜涙惔銊ュ瀭闁兼祴鏅滃畷鏌ユ倵閿濆骸浜為柍缁樻閹鏁愭惔鈥崇缂備椒鑳跺▍澧俰st闂傚倷绶氬ḿ褍螞濡ゅ懏鏅濋柨婵嗘川缁犳柨顭块懜闈涘婵☆偅蓱閵囧嫰骞樼捄杞扮捕缂傚倸绉崇欢姘跺蓟濞戙垹鍐€闁靛ě鍐f嫛婵犵數鍋涢悧濠囧储椤ョSPR缂傚倸鍊烽悞锔剧矙閹烘鍎庢い鏍仜閻掑灚銇勯幒鍡椾壕濡炪倧缂氶崡鎶藉箖瑜斿畷顐﹀Ψ閵堝棗濯伴梻渚€鈧偛鑻晶鏉戔攽閳ユ剚鍤熼柍褜鍓ㄧ紞鍡涘礈濮樿泛姹查柍鍝勬噺閸婂灚绻涢幋鐐垫噧濠殿喖鍟撮弻娑㈠籍閹炬潙顏�
闂傚倷绀侀幉锟犮€冮崱妞曞搫饪伴崨顓炵亰闂婎偄娲︾粙鎺楀吹閸曨垱鐓熼柟閭﹀墻閸ょ喖鏌曢崼鐔稿唉妤犵偞鐗犲鍫曞箣閻樻鍞堕梻浣告啞閻熴儱螞濠靛棭娼栧┑鐘宠壘鎯熼梺闈涱檧缁茬厧霉閻戣姤鐓熼柣妯夸含閸斿秶鎲搁弶鍨殻闁诡喓鍎甸弫鎾绘晸閿燂拷 - 濠电姷鏁搁崕鎴犲緤閽樺鏆︽い鎺戝閻鏌涢埄鍐$細妞も晜鐓¢弻娑㈠焺閸愭儳姣€闂佸湱鍎ら幐楣冦€呴悜钘夌閺夊牆澧界粔鐢告煕鎼淬垹鐏ラ柍钘夘樀楠炴﹢顢涘顐㈩棜婵犵數鍋為崹鍫曞箹閳哄倻顩叉繝濠傚暟閺嗭箓鏌i弮鍥仩缁炬儳銈搁弻娑㈠焺閸愵厼顥濋梺鍛婃⒐鐢繝骞冨Δ鍛嵍妞ゆ挾鍋樺Σ鎰版⒑缂佹ḿ鈯曢柣鐔濆洤绠悗锝庡枛缁犳煡鏌熸导瀛樻锭闁诡喕绶氬娲川婵犲倻顑傛繝鈷€鍕垫疁鐎殿喗濞婇幃銏ゆ偂鎼达綆鍞规俊鐐€栭弻銊╂倶濠靛牏鐜绘繛鎴欏灪閻撴瑩鎮归妸銉Ц闁稿﹤顭烽幃鐑藉閵堝棛鍘卞┑鐐叉閿氶柣蹇嬪劜閵囧嫰顢曢姀鈺佸壎閻庤娲滄繛鈧€殿喕绮欓、鏍敃閿濆懏璇為悗娈垮枟閹倿寮幘缁樻櫢闁跨噦鎷�
婵犵數鍋為崹鍫曞箰閹间緡鏁勯柛顐g贩瑜版帒鐐婃い鎺嗗亾鏉╂繃绻濋悽闈浶㈤悗姘煎櫍閹本鎯旈妸锔惧幘閻庤娲栧ú銈嗙濠婂牊鐓曢柣鎰摠鐏忥箓鏌熼挊澶娾偓濠氬焵椤掑﹦绉甸柛鎾村哺椤㈡棃濡舵径瀣化闂佽澹嬮弲娑欎繆閾忓湱纾奸柕濞у喚鏆梺鐟板槻閹冲酣銈导鏉戠闁靛ě鈧崑鎾寸節濮橆厾鍘搁柣搴秵閸嬪嫭鎱ㄩ崼銉︾厸鐎光偓閳ь剟宕版惔銊ョ厺闁哄啫鐗嗛崡鎶芥煟濡寧鐝慨锝呭閺岋絾鎯旈姀鈶╁闂佸憡姊圭敮鈥崇暦濠靛鍋勯柣鎾冲閵夆晜鐓ラ柣鏇炲€圭€氾拷