热点论文！Nature Methods指出了高通量测序中的一个重要错误源头

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

最新研究提高了高通量测序中分子定量的准确性

【字体：大中小】 时间：2024年04月30日 来源：生物通

编辑推荐：

　　牛津大学纳菲尔德骨科、风湿病学和肌肉骨骼科学系(NDORMS)的一个研究小组开发了一种新方法，可以显著提高RNA测序的准确性。他们指出短读和长读RNA测序中不准确定量的主要来源，并引入了“majority vote”纠错的概念，从而大大提高了RNA分子计数的准确性。

牛津大学纳菲尔德骨科、风湿病学和肌肉骨骼科学系(NDORMS)的一个研究小组开发了一种新方法，可以显著提高RNA测序的准确性。他们指出短读和长读RNA测序中不准确定量的主要来源，并引入了“majority vote”纠错的概念，从而大大提高了RNA分子计数的准确性。

研究重点：

过往科学家没有重视的PCR循环是很多精准测序当中的一个重要错误源头；
新研究发明了一种新型的同源三聚体的分子生物标记法来达到精准测序的目的。研究人员报告了再批量测序和单细胞测序下的99%和98%的测序精度。这称之为几乎逼近绝对精准定量的测序水平。这是该领域目前最为精准的纠错测序技术。

短读和长读RNA测序目前主要存在的问题

遗传物质的准确测序在现代生物学中是至关重要的，特别是对于理解和解决与遗传异常有关的疾病方面。然而，目前的方法遇到了很大的限制。

论文一作Jianfeng Sun博士解释道：“短读长测序技术在常规RNA测序中的精度是很高的，然而其在单细胞RNA测序中的精度根据不同的测序条件设置忽高忽低。比如，将PCR体外扩增次数增高后再去测序的精度其实并不高。长读长RNA测序目前在单细胞和常规RNA测序中的精度均比短读长要低一些。因为测序平台在不断推陈出新，所以目前在一般情况下开展的测序精度不会出现过低的情况。

但是，无论短读长还是长读长测序中只要出现一定量的错误，那么这可能就会潜在地影响数据分析的质量，从而可能潜在地影响生物研究结论。

所以最主要的问题还是精度问题。

另外，短读长测序的价格要比长读长低很多。但是长读长的价格普遍还是居高不下。如何在测序精度和价格之间寻找平衡是其中一个重要的议题。”

创新新方法

这项具有里程碑意义的研究由牛津大学计算生物学副教授Adam Cribbs和Jianfeng Sun领导完成，他们开发了一种创新的方法，用于纠正高通量测序中广泛出现的PCR扩增错误。

研究发表在《自然方法》(Nature Methods)杂志上，指出PCR人工产物是定量不准确的主要原因，这解决长期以来在生成准确的RNA分子绝对计数方面所面临的挑战，这对基因组学研究的各种应用至关重要。

在这篇文章中，研究人员重点研究了特异性分子标记(Unique Molecular Identifiers, UMIs，生物通注)，这是一种随机的寡核苷酸序列，用于消除PCR扩增过程中引入的偏差。虽然UMIs已被广泛应用于测序方法，但该研究表明，PCR错误可能会破坏分子定量的准确性，特别是在不同的测序平台上。

Sun说:“PCR扩增对于大多数RNA测序技术来说都是必不可少的，但它可能会引入误差，损害数据的完整性。我们通过使用同源三聚体核苷酸块合成UMI条形码来解决这个问题，增强了纠错能力，实现了近乎绝对的RNA分子定量，显著提高了分子计数的准确性。”

“测序一般需要使用聚合酶链式反应（PCR）对分子序列进行扩增。PCR扩增后的分子进入测序池子后会影响正确的分子计数。所以待测分子需要用一些分子序列条形码对其进行身份标记，在PCR扩增后进行剔除。但是PCR这个过程会引入错误，称为PCR错误。如果条形码也错了，PCR扩增的分子的正确识别可能就会遇到困难，所以可能会破坏分子定量的准确性。在不同的测序平台上，PCR错误的影响是很不同的。例如，在短读测序平台，错误率并不高。但是基于电信号识别碱基从而测序的牛津纳米孔测序会相对高。”

“majority vote”方法

同源三聚体是由三个相同碱基组成的核苷酸序列，如AAA、CCC、GGG。通过评估同源三聚体核苷酸相似性，研究人员可以通过“majority vote”方法检测和纠正错误(图1)。

图1:显示同源三聚体UMI majority vote错误纠正的示意图。我们用同源三聚体核苷酸块(由AAA、CCC、GGG、TTT组成的组合)构建了UMIs。通过评估三聚体核苷酸的相似性，通过“majority vote”系统识别和纠正删除、插入或替代的错误，选择最常见的核苷酸。

“‘majority vote’纠错这一概念具体是指使用多数投票法对同源三聚体中的错误测序的碱基进行纠错。比如，同源三聚体AAA在测序后变成了AGA，那么就可以使用多数投票法将其投票为A。不同的同源三聚体均可以按照这样的方式进行一一纠错，最后形成一条连续的序列，” Sun补充说。

濠德板€楁慨鐑藉磻濞戙垺鍊舵繝闈涱儏缁犵喖鏌ㄩ悤鍌涘 参与安捷伦微孔板产品问卷调研并申请试用有大礼！

该研究表明，在分析差异表达基因和转录本(DEGs和DETs)时，同源三聚体UMIs在减少假阳性折叠富集方面明显优于传统单体UMIs。这种增强对于DEGs或DETs的准确识别和定量至关重要，特别是在批量测序方法中。此外，在单细胞测序中，通常需要广泛的PCR扩增，同源三聚体UMIs已被证明可以有效减轻PCR人工产物的影响，从而大大提高测序数据的可靠性。

“通过构建同源核苷块的UMIs，我们的目标是提高短读和长读测序的纠错能力，这是我们对提高测序技术应用的承诺，”Cribbs说。

意义深远

这项研究具有深远的意义。通过纠正UMIs中的PCR误差，极大地提高了各种测序应用中的分子定量准确性。它是大量RNA、单细胞RNA和DNA测序研究人员的重要工具，可以实现准确的基因表达和分子谱分析。增强的UMI纠错不仅减少了假阳性的发生率，而且还提供了多种诊断应用，特别是在需要对样本进行纵向分析的情况下。

Sun解释说：“UMI纠错是PCR纠错的其中一种方式。如果UMI纠错情况得到改善，那么PCR错误的分子计数就会变好。这样PCR扩展的分子被错误归入原始待测分子的可能性就低，所以假阳性就低。从而，分子表达量测准了之后就会帮助后续的疾病诊断（判断表达量是否异常等），并且可能会增加更多的诊断应用的可能性（例如，疾病诊断中的假阴性问题，使用测序错误较少精度高的表达数据做鉴定会帮助排除出现假阴性的鉴定结果，可靠度高应用存在的可能性就越高）。在纵向研究中，不同的样本或是实验重复之间存在的差异有可能很大。普通的纠错方法在底/高错误率的情况下鲁棒性可能差异比较大。然而我们在不同的样本或是实验重复中得到的鲁棒性是比较强的，也证明了该方法在应用阶段的稳定性。”

这篇论文目前是《Nature Methods》有数据追踪以来与同期发表文章相比最受欢迎的文章，排名第1，而且在所有期刊当中发表的同期可追踪的202,746篇文章中网络热度位居1962名（详情请看https://www.nature.com/articles/s41592-024-02168-y/metrics）。

同时该文章也吸引了各媒体的报道，牛津大学也详细报道了这项研究：

https://www.ox.ac.uk/news/2024-02-08-new-research-improves-accuracy-molecular-quantification-high-throughput-sequencin

原文标题：

Correcting PCR amplification errors in unique molecular identifiers to generate accurate numbers of sequencing molecules

作者简介：

Jianfeng Sun

POSTDOCTORAL RESEARCH ASSOCIATE IN SINGLE-CELL SEQUENCING ANALYSIS

I obtained my Ph.D. (Nov. 2017 - Feb. 2021) in deep learning-based structural biology from the Technical University of Munich, Germany. Since Jul. 2021, I have been a postdoctoral researcher in Prof. Cribbs' lab in NDORMS at the University of Oxford. My main responsibility is the improvement of long-read sequencing accuracy with computational approaches as well as the analysis of single-cell sequencing data. Besides, my other research interests are systems biology and structural biology. I am fascinated by deciphering intricate biological networks by capitalizing on computational modeling algorithms, which show promise to illuminate the mechanisms of biomolecules.

婵犵數鍋為崹鍫曞箰閹间緡鏁勯柛顐ｇ贩瑜版帒鐐婇柍瑙勫劤娴滈箖鏌ｉ悢鐓庝喊婵℃彃婀遍埀顒冾潐閹稿摜鈧稈鏅濋埀顒勬涧閵堟悂寮崒鐐村€锋い鎺嶇劍閻﹀酣姊虹拠鎻掝劉缂佸甯″畷婵嬪箳濡も偓缁€澶愭煟閺冨倸甯舵潻婵囩節閻㈤潧孝婵炶尙濞€瀹曟垿骞橀幇浣瑰兊閻庤娲栧ú銊╂偩閾忓湱纾介柛灞剧懅椤︼附淇婇锝囩煉鐎规洘娲熼、鏃堝川椤栵絾绁梻浣瑰缁诲倿鎮ч幘婢勭喓鈧綆鍠楅悡娆愮箾閼奸鍤欐鐐达耿閺屾洟宕堕妸銉ユ懙閻庢鍣崜鐔肩嵁瀹ュ鏁婇柣锝呮湰濞堟悂姊绘担钘変汗闁烩剝妫冨畷褰掓惞椤愶絾鐝烽梺绉嗗嫷娈曟い銉ョ墦閺屾盯骞橀懠顒夋М婵炲濯崹鍫曞蓟閺囥垹骞㈡俊銈咃工閸撻亶鏌ｉ姀鈺佺仭濠㈢懓妫楀嵄闁圭増婢橀～鍛存煟濞嗗苯浜惧┑鐐茬湴閸婃洟婀侀梺鎸庣箓濡瑧绮堢€ｎ喗鐓冪憸婊堝礈濮橆厾鈹嶉柧蹇氼潐瀹曟煡鏌涢幇銊︽珖妞も晝鍏橀弻銊モ攽閸℃瑥鈪靛┑鈽嗗灠椤戝寮诲☉銏犵闁瑰鍎愬Λ锟犳⒑鐠囧弶鍞夊┑顔哄€楃划姘舵焼瀹ュ懐顦ㄥ銈嗘尵婵兘顢欓幒妤佲拺閻犲洠鈧櫕鐏侀梺鍛婃煥妤犳悂鍩㈤幘璇茬闁挎棁妫勫▓銉ヮ渻閵堝棛澧紒顔肩焸閸╂盯寮介鐔哄幈濠电偛妫欓崝鏇㈡倶閳哄偆娈介柣鎰级閸犳﹢鏌熼姘毙х€殿噮鍣ｅ畷鎺懳旀担瑙勭彃

10x Genomics闂傚倷绀侀幖顐﹀磹閻熼偊鐔嗘慨妞诲亾妤犵偞鐗犻垾鏂裤€掓刊鐖剈m HD 闂佽瀛╅鏍窗閹烘纾婚柟鍓х帛閻撴洘鎱ㄥΟ鐓庡付闁诲繒濮烽埀顒冾潐濞叉粓宕伴幘鑸殿潟闁圭儤顨呴獮銏℃叏濮楀棗澧┑顔煎暣濮婃椽宕ㄦ繝鍌滅懆濠碘槅鍋呯划宥夊Φ閺冨牆绠瑰ù锝囨嚀娴犮垽姊洪幖鐐插姉闁哄懏绮撻幃楣冩焼瀹ュ棛鍘遍棅顐㈡搐椤戝懏鎱ㄩ埀顒€鈹戦悙瀛樼稇婵☆偅绮撴俊鐢稿箛閺夊灝宓嗛梺缁樶缚閺佹悂鎮℃担铏圭＝濞达絽鎲″﹢鐗堜繆閻愯埖顥夐摶鐐烘煕瑜庨〃鍛矆閸℃稒鐓曢柍鈺佸暈缂傛岸鏌嶈閸忔稓鍒掑▎鎾虫瀬鐎广儱顦伴弲鎼佹煥閻曞倹瀚�

濠电姷鏁搁崑娑樜涙惔銊ュ瀭闁兼祴鏅滃畷鏌ユ倵閿濆骸浜為柍缁樻閹鏁愭惔鈥崇缂備椒鑳跺▍澧俰st闂傚倷绶氬ḿ褍螞濡ゅ懏鏅濋柨婵嗘川缁犳柨顭块懜闈涘婵☆偅蓱閵囧嫰骞樼捄杞扮捕缂傚倸绉崇欢姘跺蓟濞戙垹鍐€闁靛ě鍐ｆ嫛婵犵數鍋涢悧濠囧储椤ョSPR缂傚倸鍊烽悞锔剧矙閹烘鍎庢い鏍仜閻掑灚銇勯幒鍡椾壕濡炪倧缂氶崡鎶藉箖瑜斿畷顐﹀Ψ閵堝棗濯伴梻渚€鈧偛鑻晶鏉戔攽閳ユ剚鍤熼柍褜鍓ㄧ紞鍡涘礈濮樿泛姹查柍鍝勬噺閸婂灚绻涢幋鐐垫噧濠殿喖鍟撮弻娑㈠籍閹炬潙顏�

闂傚倷绀侀幉锟犮€冮崱妞曞搫饪伴崨顓炵亰闂婎偄娲︾粙鎺楀吹閸曨垱鐓熼柟閭﹀墻閸ょ喖鏌曢崼鐔稿唉妤犵偞鐗犲鍫曞箣閻樻鍞堕梻浣告啞閻熴儱螞濠靛棭娼栧┑鐘宠壘鎯熼梺闈涱檧缁茬厧霉閻戣姤鐓熼柣妯夸含閸斿秶鎲搁弶鍨殻闁诡喓鍎甸弫鎾绘晸閿燂拷 - 濠电姷鏁搁崕鎴犲緤閽樺鏆︽い鎺戝閻鏌涢埄鍐＄細妞も晜鐓￠弻娑㈠焺閸愭儳姣€闂佸湱鍎ら幐楣冦€呴悜钘夌閺夊牆澧界粔鐢告煕鎼淬垹鐏ラ柍钘夘樀楠炴﹢顢涘顐㈩棜婵犵數鍋為崹鍫曞箹閳哄倻顩叉繝濠傚暟閺嗭箓鏌ｉ弮鍥仩缁炬儳銈搁弻娑㈠焺閸愵厼顥濋梺鍛婃⒐鐢繝骞冨Δ鍛嵍妞ゆ挾鍋樺Σ鎰版⒑缂佹ḿ鈯曢柣鐔濆洤绠悗锝庡枛缁犳煡鏌熸导瀛樻锭闁诡喕绶氬娲川婵犲倻顑傛繝鈷€鍕垫疁鐎殿喗濞婇幃銏ゆ偂鎼达綆鍞规俊鐐€栭弻銊╂倶濠靛牏鐜绘繛鎴欏灪閻撴瑩鎮归妸銉Ц闁稿﹤顭烽幃鐑藉閵堝棛鍘卞┑鐐叉閿氶柣蹇嬪劜閵囧嫰顢曢姀鈺佸壎閻庤娲滄繛鈧€殿喕绮欓、鏍敃閿濆懏璇為悗娈垮枟閹倿寮幘缁樻櫢闁跨噦鎷�

婵犵數鍋為崹鍫曞箰閹间緡鏁勯柛顐ｇ贩瑜版帒鐐婃い鎺嗗亾鏉╂繃绻濋悽闈浶㈤悗姘煎櫍閹本鎯旈妸锔惧幘閻庤娲栧ú銈嗙濠婂牊鐓曢柣鎰摠鐏忥箓鏌熼挊澶娾偓濠氬焵椤掑﹦绉甸柛鎾村哺椤㈡棃濡舵径瀣化闂佽澹嬮弲娑欎繆閾忓湱纾奸柕濞у喚鏆梺鐟板槻閹冲酣銈导鏉戠闁靛ě鈧崑鎾寸節濮橆厾鍘搁柣搴秵閸嬪嫭鎱ㄩ崼銉︾厸鐎光偓閳ь剟宕版惔銊ョ厺闁哄啫鐗嗛崡鎶芥煟濡寧鐝慨锝呭閺岋絾鎯旈姀鈶╁闂佸憡姊圭敮鈥崇暦濠靛鍋勯柣鎾冲閵夆晜鐓ラ柣鏇炲€圭€氾拷