近日,分析化学权威期刊Analytical Chemistry发表暨南大学张弓课题组的论文Highly Robust de novo Full-length Protein Sequencing,成功研发了高稳健性、超高精度的蛋白质全长从头测序方案,蛋白质序列覆盖率和准确率在大部分测试中都达到了100%,最低也有99%。其稳健性和准确率都创下了迄今为止世界纪录。
实用化的蛋白质全长高精度测序的时代已然到来。
现如今核酸测序已十分成熟,大部分测序仪都能提供超过99%的核酸测序准确度。但蛋白质的全长测序(测定其氨基酸序列)却一直是个难题,其序列覆盖率、准确率、成本都难以满足应用的需求。1967年,Edman和Beggs发明了Edman降解法蛋白质测序,但只能测定肽链N端的25~50个氨基酸,且成本很高。随着蛋白质质谱技术的发展,质谱技术越来越多地被用于蛋白质的从头测序。由于整个蛋白质很难在质谱仪中进行分析,需事先用酶降解为短的肽段,再用质谱仪分析,从谱图中识别每个肽段的氨基酸序列,再将诸多肽段的序列拼接起来成为完整的蛋白质序列。
这种方法在实践中往往效果非常差,其主要困难在于:(1) 拼接序列需要两个肽段具备一定的重叠部分,而常用于酶切的限制性蛋白酶切出的肽段常常不重合,因此往往拼不上。(2) 蛋白质长链各部分理化性质可以差异很大,没有任何一种酶切方案能兼顾。(3) 肽段从头测序算法误差很大,对肽段序列的识别错误率很高,可高达30-50%,而且错误在肽段两端分布较多,而肽段两端恰恰是拼接时寻找重叠段的部分。
正是由于以上的困难,蛋白质全长拼接的完整度和准确度长期低迷。虽然偶尔有新算法被开发出来,在某些蛋白质上能取得较好的效果,但高度依赖实验数据的质量,并且在其他蛋白质上效果就不好。
暨南大学张弓课题组在核酸测序方面深耕多年,其开发的FANSe系列核酸测序算法是迄今为止稳健性和准确性最高的比对算法。他们想到,蛋白质测序目前的困境在多年以前也困扰着基因组从头测序组装,因此他们将基因组组装的contig-scaffolding策略移植到蛋白质测序上,使用多种非特异性蛋白酶和化学降解法对蛋白质进行切割,每次切割都进行质谱分析和初步拼接,然后将多种切割方案的初步拼接结果互相比对,组装成更完整的蛋白质序列框架,再重复使用这些结果的序列数据进行相互校正,进行精细补空与纠错。这一方案被称为MuCS。
在三种不同结构特性的蛋白质的测试中,研究者故意在实验中采用粗放的实验手段,多次重复时产生质谱数据的质量参差不齐,但MuCS每次都能拼接出一个完整的序列,且均能达到99-100%的覆盖度和准确率,没有任何错误的序列插入。而作为对比的蛋白质测序算法pTA和ALPS,序列覆盖度、完整性、准确度均不及MuCS,甚至会自作主张地插入最高达63%的序列(这些序列本来不存在于样品中)。
即便是在困难的膜蛋白上,由于跨膜段没有获得任何质谱数据而无法拼接,其他部分MuCS均达到了稳健和精确的全长拼接结果,而pTA和ALPS的结果几乎无法使用。更重要的是,虽然进行了三次降解和质谱,但总成本却并不高,操作简便,算法也大部分可自动化运行,因此这种方法十分具备可推广性。
高稳健性、超高精度、低成本的蛋白质全长高精度测序方案,将使得分析未知蛋白质样品成为常规检验项目,大大促进药物质控、抗体工程、疾病诊断、法医鉴定、蛋白质反向工程破解等应用。
MuCS的算法部分可在承启生物的网站上免费下载:http://chi-biotech.com/mucs/