暨南大学张弓教授：研发高精度蛋白质全长测序方案

近日，分析化学权威期刊Analytical Chemistry发表暨南大学张弓课题组的论文Highly Robust de novo Full-length Protein Sequencing，成功研发了高稳健性、超高精度的蛋白质全长从头测序方案，蛋白质序列覆盖率和准确率在大部分测试中都达到了100%，最低也有99%。其稳健性和准确率都创下了迄今为止世界纪录。

实用化的蛋白质全长高精度测序的时代已然到来。

现如今核酸测序已十分成熟，大部分测序仪都能提供超过99%的核酸测序准确度。但蛋白质的全长测序（测定其氨基酸序列）却一直是个难题，其序列覆盖率、准确率、成本都难以满足应用的需求。1967年，Edman和Beggs发明了Edman降解法蛋白质测序，但只能测定肽链N端的25~50个氨基酸，且成本很高。随着蛋白质质谱技术的发展，质谱技术越来越多地被用于蛋白质的从头测序。由于整个蛋白质很难在质谱仪中进行分析，需事先用酶降解为短的肽段，再用质谱仪分析，从谱图中识别每个肽段的氨基酸序列，再将诸多肽段的序列拼接起来成为完整的蛋白质序列。

这种方法在实践中往往效果非常差，其主要困难在于：(1) 拼接序列需要两个肽段具备一定的重叠部分，而常用于酶切的限制性蛋白酶切出的肽段常常不重合，因此往往拼不上。(2) 蛋白质长链各部分理化性质可以差异很大，没有任何一种酶切方案能兼顾。(3) 肽段从头测序算法误差很大，对肽段序列的识别错误率很高，可高达30-50%，而且错误在肽段两端分布较多，而肽段两端恰恰是拼接时寻找重叠段的部分。

正是由于以上的困难，蛋白质全长拼接的完整度和准确度长期低迷。虽然偶尔有新算法被开发出来，在某些蛋白质上能取得较好的效果，但高度依赖实验数据的质量，并且在其他蛋白质上效果就不好。

暨南大学张弓课题组在核酸测序方面深耕多年，其开发的FANSe系列核酸测序算法是迄今为止稳健性和准确性最高的比对算法。他们想到，蛋白质测序目前的困境在多年以前也困扰着基因组从头测序组装，因此他们将基因组组装的contig-scaffolding策略移植到蛋白质测序上，使用多种非特异性蛋白酶和化学降解法对蛋白质进行切割，每次切割都进行质谱分析和初步拼接，然后将多种切割方案的初步拼接结果互相比对，组装成更完整的蛋白质序列框架，再重复使用这些结果的序列数据进行相互校正，进行精细补空与纠错。这一方案被称为MuCS。

在三种不同结构特性的蛋白质的测试中，研究者故意在实验中采用粗放的实验手段，多次重复时产生质谱数据的质量参差不齐，但MuCS每次都能拼接出一个完整的序列，且均能达到99-100%的覆盖度和准确率，没有任何错误的序列插入。而作为对比的蛋白质测序算法pTA和ALPS，序列覆盖度、完整性、准确度均不及MuCS，甚至会自作主张地插入最高达63%的序列（这些序列本来不存在于样品中）。

即便是在困难的膜蛋白上，由于跨膜段没有获得任何质谱数据而无法拼接，其他部分MuCS均达到了稳健和精确的全长拼接结果，而pTA和ALPS的结果几乎无法使用。更重要的是，虽然进行了三次降解和质谱，但总成本却并不高，操作简便，算法也大部分可自动化运行，因此这种方法十分具备可推广性。

高稳健性、超高精度、低成本的蛋白质全长高精度测序方案，将使得分析未知蛋白质样品成为常规检验项目，大大促进药物质控、抗体工程、疾病诊断、法医鉴定、蛋白质反向工程破解等应用。

MuCS的算法部分可在承启生物的网站上免费下载：http://chi-biotech.com/mucs/