《Journal of Molecular Evolution》:EasyDIVER?+?: An Advanced Tool for Analyzing High Throughput Sequencing Data from In Vitro Evolution of Nucleic Acids or Amino Acids
编辑推荐:
在体外进化研究中,分析核酸或氨基酸体外进化产生的高通量测序(HTS)数据面临诸多挑战,现有工具难以满足需求。研究人员开发了 EasyDIVER+ 工具,它集处理、分析和可视化功能于一体,为肽和蛋白质数据的生物信息学分析带来重大进展,有助于推动体外进化研究。
在生命科学的探索旅程中,体外进化技术如同神奇的魔法棒,能帮助科学家们发现具有特定功能的核酸和肽序列。然而,随着高通量测序(HTS)技术的广泛应用,海量的数据如潮水般涌来,让研究人员陷入了数据处理与分析的困境。在肽选择的研究场景里,现有的生物信息学工具显得捉襟见肘,它们缺乏针对此类数据的特异性,使得研究人员在面对复杂数据集时,犹如在迷宫中徘徊,找不到有效的分析路径。
为了突破这一困境,来自多个研究机构的科研人员携手开展了深入研究。其中,Blue Marble Space Institute of Science、University of California、Stanford University、University of California、University of Minnesota 等机构的研究人员共同发力,开发出了一款名为 EasyDIVER+ 的先进工具。这一研究成果发表在《Journal of Molecular Evolution》上,为生物信息学领域带来了新的曙光。
在研究过程中,研究人员主要运用了以下关键技术方法:首先,利用 PANDAseq 软件对原始的双端、解复用 Illumina 测序读段文件(FASTQ 格式)进行合并处理;其次,根据用户提供的引物序列对组装后的序列进行修剪;再者,针对氨基酸数据,运用从美国国家生物技术信息中心(NCBI)提取的 27 种替代遗传密码将核苷酸序列翻译成氨基酸序列;最后,通过计算富集值、误差估计以及可视化分析等手段,对数据进行全面深入的分析。
研究结果
数据处理 :EasyDIVER+ 沿用了原始 EasyDIVER 工具的处理流程,对双端 Illumina 读段文件进行合并、质量过滤、接头修剪等操作,生成去重计数文件和序列长度分布文件。同时,对于氨基酸数据,还会进行翻译和基于密码子冗余的进一步去重处理,并生成详细的日志文件记录处理信息。
富集分析 :这是 EasyDIVER+ 相较于原始工具的重大突破。当输入的文件对应于连续轮次的体外选择测序数据时,用户可以指定文件分析的时间顺序,并将每个文件按样本类型(即预选择、后选择或阴性对照)进行分类。基于此,EasyDIVER+ 能够计算每个独特序列在连续选择轮次中的富集指标,同时提供读计数的 95% 置信区间,并为每个序列分配一个在所有样本中一致的唯一名称,方便跟踪和识别。
序列命名 :为了解决在众多文件中难以直观识别和跟踪特定序列的问题,EasyDIVER+ 采用 Base58 编码方法为每个序列分配独特的短名称。该名称在整个选择实验的所有文件中保持一致,有效提高了数据处理和分析的效率。
误差估计 :由于测序数据存在不确定性,如采样误差、PCR 扩增偏差、测序错误和文库制备的可变性等,EasyDIVER+ 运用 Bootstrapping 方法估计序列计数的 95% 置信区间,从而为频率和富集指标提供统计范围,帮助用户判断数据的可靠性。
图形用户界面 :EasyDIVER+ 集成了基于 PyQt5 的图形用户界面(GUI),用户可以方便地输入处理和分析参数。同时,它还提供了一个基于 Plotly Python 库开发的图形生成器,用户可以通过定制化的图表直观地探索处理后的数据,如调整读计数、频率等截止值,实现对数据的聚焦分析。
研究结论与讨论
EasyDIVER+ 在原始 EasyDIVER 工具的基础上进行了全面升级,为体外进化实验中的高通量测序数据分析提供了一个功能强大、操作简便的平台。它有效解决了肽选择研究中数据处理和分析的难题,能够同时处理核酸和肽数据,并通过富集分析、误差估计等功能,为研究人员提供了更深入、更准确的数据分析结果。
此外,其图形用户界面和交互式图形生成器大大降低了使用门槛,使不同计算水平的研究人员都能轻松上手,便于直观地理解和解释数据,深入探究序列在选择轮次中的动态变化。这一工具的出现,显著提高了高通量测序数据分析的效率和可及性,为体外进化领域的研究提供了有力支持,推动了该领域的进一步发展,有望助力科学家们在核酸和肽功能研究方面取得更多突破。
闂備胶鎳撻悘姘跺箲娴h櫣鐭堥柨鐕傛嫹
濠电偞鍨堕幐鎼侇敄閸緷褰掑炊閳规儳浜鹃柣鐔煎亰濡插湱鈧鎸哥€涒晝鈧潧銈搁弫鍌炴倷椤掍焦鐦庨梺璇插缁嬫帡宕濋幒妤€绀夐柣鏃傚帶杩濇繝鐢靛Т濞茬娀宕戦幘鎰佹僵鐎规洖娲ㄩ悾铏圭磽閸屾瑧顦︽俊顐g矒瀹曟洟顢旈崨顖f祫闂佹寧绻傞悧鎾澄熺€n喗鐓欐繛鑼额嚙楠炴﹢鏌曢崶銊ュ摵鐎殿噮鍓熼獮宥夘敊閻e本娈搁梻浣藉亹閻℃棃宕归搹顐f珷闁秆勵殕椤ュ牓鏌涢幘鑼槮濞寸媭鍨堕弻鏇㈠幢濡ゅ﹤鍓遍柣銏╁灡婢瑰棗危閹版澘顫呴柣娆屽亾婵炲眰鍊曢湁闁挎繂妫欑粈瀣煃瑜滈崜姘┍閾忚宕查柛鎰ㄦ櫇椤╃兘鏌ㄥ┑鍡欏ⅵ婵☆垰顑夐弻娑㈠箳閹寸儐妫¢梺璇叉唉婵倗绮氶柆宥呯妞ゆ挾濮烽鎺楁⒑鐠団€虫灁闁告柨楠搁埢鎾诲箣閿旇棄娈ュ銈嗙墬缁矂鍩涢弽顓熺厱婵炲棙鍔曢悘鈺傤殽閻愬弶鍠橀柟顖氱Ч瀵噣宕掑Δ浣规珒
10x Genomics闂備礁鎼崐鐟邦熆濮椻偓楠炴牠鈥斿〒濯爄um HD 闁诲孩顔栭崰鎺楀磻閹剧粯鐓曟慨妯煎帶閻忕姷鈧娲滈崰鎾舵閹烘骞㈡慨姗嗗墮婵啴姊洪崨濠傜瑨婵☆偅绮嶉妵鏃堝箹娴g懓浠㈤梺鎼炲劗閺呮粓鎮鹃柆宥嗙厱闊洤顑呮慨鈧┑鐐存綑濡粓濡甸幇鏉垮嵆闁绘ḿ鏁搁悡浣虹磽娴e憡婀版俊鐐舵铻為柛褎顨呯粈鍡涙煕閳╁啞缂氶柍褜鍏涚划娆撳极瀹ュ鏅搁柨鐕傛嫹
婵犵數鍋涘Λ搴ㄥ垂閼测晜宕查悗锝庡亞閳绘棃鎮楅敐搴″箺缂佷胶娅墂ist闂備線娼уΛ妤呮晝閿濆洨绠斿鑸靛姇濡ɑ銇勯幘璺轰粶缂傚秳绶氶弻娑㈠冀閵娧冣拡濠电偛鐗婇崢顥窱SPR缂傚倷鐒︾粙鎺楁儎椤栫偛鐒垫い鎺嗗亾妞わ缚鍗抽幃褔宕妷銈嗗媰闂侀€炲苯澧村┑鈥愁嚟閳ь剨缍嗛崜姘跺汲閳哄懏鍊垫繛鎴炵懃婵啴鏌涢弮鎾村
闂備礁鎲¢〃鍡椕哄⿰鍛灊闊洦绋掗崵鍕煟閹邦剦鍤熼柕鍫熸尦楠炴牠寮堕幋鐘殿唶闂佸憡鐟ュΛ婵嗩潖婵犳艾惟闁靛绲煎ù鐑芥煟閻樿京鍔嶇憸鏉垮暣閹儵鏁撻敓锟� - 婵犵數鍎戠徊钘夌暦椤掑嫬鐭楅柛鈩冡缚椤╂煡鏌涢埄鍐惧毀闁圭儤鎸鹃々鐑藉箹鏉堝墽绉甸柛搴㈠灥閳藉骞橀姘濠电偞鍨堕幖鈺傜濠婂啰鏆﹂柣鏃囨绾惧ジ鏌涢埄鍐闁告梹甯¢幃妤呭捶椤撶偘妲愰梺缁樼⊕閻熝囧箯鐎n喖绠查柟浼存涧閹線姊洪崨濠傜濠⒀勵殜瀵娊鎮㈤悡搴n唹濡炪倖鏌ㄩ悘婵堢玻濞戙垺鐓欓悹銊ヮ槸閸婂鎮烽姀銈嗙厱婵炲棙锚閻忋儲銇勯銏╁剶鐎规洜濞€瀵粙顢栭锝呮诞鐎殿喗鎮傞弫鎾绘晸閿燂拷
濠电偞鍨堕幐鎼侇敄閸緷褰掑炊椤掆偓杩濇繝鐢靛Т鐎氼噣鎯屾惔銊︾厾鐎规洖娲ゆ禒婊堟煕閻愬瓨灏﹂柟钘夊€婚埀顒婄秵閸撴岸顢旈妶澶嬪仯闁规壋鏅涙俊铏圭磼閵娧冾暭闁瑰嘲鎳庨オ浼村礃閵娧€鍋撴繝姘厸閻庯綆鍋勬慨鍫ユ煛瀹€鈧崰搴ㄥ煝閺冨牆鍗抽柣妯挎珪濮e嫰鏌f惔銏⑩姇闁告梹甯″畷婵嬫偄閻撳宫銉╂煥閻曞倹瀚�