在自下而上的蛋白质组学研究中,利用高分辨率串联质谱数据识别单个氨基酸变异
《International Journal of Mass Spectrometry》:Single amino acid variation identification in high resolution tandem mass spectrometry data in bottom up proteomics
【字体:
大
中
小
】
时间:2025年10月02日
来源:International Journal of Mass Spectrometry 1.7
编辑推荐:
数据库搜索限制于已知序列空间,无法检测未包含的氨基酸变异。本研究提出SeVa方法,基于高分辨率精确p值(HR-XPV)算法动态规划表追踪最佳序列变异,结合BLAST同源性搜索验证,在免疫肽组学与癌症数据集中分别识别781和15,764个突变肽,FDR为1.68%和0.52%。
在生物医学研究领域,特别是蛋白质组学和免疫肽组学中,识别蛋白质序列中的氨基酸变异(SAAV)对于理解疾病机制、药物反应和个体差异具有重要意义。传统的数据库搜索方法在底向上质谱分析中仍然是主流工具,它通过将实验数据与已知的肽序列数据库进行比对,来识别可能的肽序列。然而,这种方法的一个主要限制是它依赖于一个封闭的搜索空间,即如果某个肽序列的变异或特定的翻译后修饰(PTMs)未被包含在数据库中,那么其对应的质谱图将无法被正确注释。这限制了数据库搜索方法在识别新型或罕见变异方面的应用。为了克服这一限制,研究者们提出了多种方法,其中一些方法通过扩展搜索空间来提高灵敏度,但往往伴随着计算效率的下降。
近年来,基于深度学习的从头序列分析(de novo sequencing)工具被广泛应用于质谱数据的分析,它们无需依赖预先存在的数据库,能够识别未被报道的新肽序列。然而,这些方法在准确性方面仍面临挑战,尤其是在处理噪声较高的数据或缺失信息的情况下。此外,从头序列分析通常需要完整的离子碎片系列,这对高分辨率质谱数据的处理提出了更高的要求。因此,开发一种既能识别氨基酸变异,又能有效控制错误发现率(FDR)的方法成为当前研究的一个重要方向。
针对这一问题,本文提出了一种新的方法,称为SeVa(Sequence Variation),该方法基于高分辨率精确p值(HR-XPV)算法。HR-XPV方法通过构建一个精确的实证零分布,隐式地将质谱图与所有可能的氨基酸序列进行比对,从而计算出精确的p值。这一方法的优势在于,它能够处理高分辨率的质谱数据,并且在不显著增加计算复杂度的情况下,提高对变异肽序列的识别能力。通过将识别出的SeVa肽序列与包含目标和假阳性(decoy)蛋白序列的数据库进行同源搜索,可以进一步提高结果的可信度,并利用假阳性肽序列来估计FDR。这种方法结合了从头序列分析和数据库搜索的优点,既能够识别未被数据库收录的变异肽,又能够通过同源搜索进行质量控制。
SeVa方法的实现基于Tide程序中的HR-XPV算法,并在CRUX工具包中进行了扩展。通过在动态规划表中添加回溯(back-tracking)信息,SeVa能够在计算过程中跟踪最佳得分的肽序列,并将其提取出来。这种方法不仅提高了识别效率,还避免了重复计算,使得整体计算过程更加高效。此外,SeVa还支持对不同的翻译后修饰和化学标记进行处理,这使得它在处理复杂的质谱数据时具有更强的适应性。
在实验部分,本文使用了两个公开的质谱数据集,分别来自免疫肽组学和癌症研究领域。通过将SeVa方法应用于这些数据集,研究人员成功识别出781个和15,764个包含氨基酸变异的肽序列,对应的FDR分别为1.68%和0.52%。这些结果表明,SeVa方法在识别氨基酸变异方面具有较高的准确性和灵敏度。此外,研究人员还比较了SeVa与两种常见的从头序列分析工具PepNet和Casanovo的性能。结果显示,尽管这些深度学习方法在某些情况下能够识别出与SeVa相似的肽序列,但由于它们未经过特定修饰或标签的训练,无法提供准确的修饰信息,这限制了它们在某些应用场景下的适用性。
SeVa方法的另一个重要特点在于其对氨基酸变异的识别机制。在分析过程中,研究人员发现,某些常见的氨基酸变异,如K→G、I→N等,可以通过简单的核苷酸替换实现,而这些变异在质谱数据中会表现出特定的质量变化。通过将这些变异与已知的翻译后修饰进行区分,SeVa能够更准确地识别出氨基酸变异,而不是误将它们归为修饰事件。此外,SeVa还能够通过调整参数,如前体离子容忍度、碎片离子容忍度等,来优化对不同数据集的适应性。
在方法的实施过程中,研究人员还特别关注了FDR的控制问题。由于传统的数据库搜索方法在处理包含变异肽的数据时可能低估或高估FDR,因此SeVa通过引入同源搜索,将假阳性肽序列与目标肽序列进行对比,从而更准确地评估结果的可靠性。此外,研究人员还对SeVa方法进行了参数优化,包括调整动态规划表的大小、选择合适的质量容忍度等,以确保在保持计算效率的同时,能够识别出更多可能的变异肽序列。
从实验结果来看,SeVa方法在识别氨基酸变异方面表现出了显著的优势。例如,在PXD017407数据集中,SeVa识别出的变异肽序列中,K→G变异是最常见的,共出现34次。这种变异会导致质量损失71.07 Da,而其他常见的翻译后修饰如氧化M或磷酸化S、T、Y等,通常会导致质量变化较小,因此更容易被误认为是氨基酸变异。为了区分这些情况,SeVa通过精确的质量匹配和同源搜索,能够更准确地识别出真正的氨基酸变异。
此外,研究人员还对SeVa方法的性能进行了进一步分析,包括对不同电荷状态的肽序列进行识别。结果显示,SeVa在处理不同电荷状态的肽序列时,表现出了良好的适应性。在PXD017407数据集中,SeVa在三电荷状态下的识别率较高,而在PDC000224数据集中,三电荷状态的识别优势更为明显。这一发现表明,SeVa方法在处理高分辨率质谱数据时,能够更有效地识别不同电荷状态下的变异肽序列。
综上所述,SeVa方法为识别高分辨率质谱数据中的氨基酸变异提供了一种新的解决方案。它结合了从头序列分析和数据库搜索的优点,能够在不依赖预先存在的数据库的情况下,识别出未被报道的变异肽序列,并通过同源搜索进行质量控制,从而有效降低FDR。尽管该方法在某些情况下可能受到数据质量和计算资源的限制,但其在识别氨基酸变异方面的准确性和灵敏度仍然显著优于传统的数据库搜索方法。未来,研究人员计划进一步优化SeVa方法,以提高其在不同数据集和实验条件下的适用性,并探索其在更广泛的应用场景中的潜力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号