
-
生物通官微
陪你抓住生命科技
跳动的脉搏
CHIMERYS算法:统一解析复杂质谱数据的蛋白质组学新范式
【字体: 大 中 小 】 时间:2025年04月23日 来源:Nature Methods 36.1
编辑推荐:
研究人员针对蛋白质组学中复杂质谱数据(DDA/DIA/PRM)解析不统一、嵌合谱图(chimeric spectra)去卷积困难等问题,开发了基于LASSO回归和深度学习预测的CHIMERYS算法。该工具通过精确预测肽段保留时间(RT)和碎片离子强度,实现多肽同步定量,显著提升鉴定率并统一数据分析流程,发表于《Nature Methods》,为蛋白质组学标准化分析提供突破性解决方案。
蛋白质组学研究长期以来面临一个关键挑战:质谱仪生成的复杂肽段混合物会产生大量嵌合谱图(chimeric spectra),即单个MS2谱图中包含多个肽段的碎片离子信号。传统分析方法因数据采集策略(如DDA、DIA或PRM)不同而需使用独立软件,导致结果难以直接比较。更棘手的是,现有工具对共享碎片离子的分配存在局限性,或过度依赖谱图库,严重制约了蛋白质组学的深度和可重复性。
为解决这一难题,德国慕尼黑工业大学等机构的研究团队开发了CHIMERYS算法。这一创新性工具通过深度学习预测肽段性质,结合LASSO回归实现谱图线性分解,首次统一了DDA、DIA和PRM数据的分析流程。相关成果发表在《Nature Methods》上,标志着蛋白质组学数据分析迈入新阶段。
研究采用三大关键技术:1)基于INFERYS深度学习模型预测肽段保留时间(RT)和碎片离子强度;2)利用L1正则化线性回归(LASSO)实现嵌合谱图去卷积;3)通过mokapot算法进行严格的假发现率(FDR)控制。实验数据涵盖人类细胞系(HeLa)、小鼠胰腺组织及临床样本(脑脊液、尿液等),通过Orbitrap HF-X等多代质谱平台验证。
Deconvolution of chimeric DDA spectra
CHIMERYS核心假设是嵌合谱图为共分离前体离子纯谱的线性组合。通过比较实验MS2谱图与预测谱图,算法在保留时间窗口内筛选候选肽段,要求至少匹配3个碎片离子(含1个基峰)。在HeLa细胞消化数据测试中,CHIMERYS以1% PSM FDR鉴定238,795个PSM,85%以上MS2谱图产生有效匹配,68%谱图含多个前体,显著优于Sequest HT等8种工具。
Revisiting legacy data using CHIMERYS
对历史数据的回溯分析显示,CHIMERYS在低分辨率离子阱(ITMS)数据中鉴定率提升74%(PSM)和30%(蛋白组)。通过优化隔离窗口宽度(1.4-20.4 Th),发现高负载样本在3.4 Th窗口达到最佳肽段鉴定数,揭示自动增益控制(AGC)与动态范围的相互制约关系。
Deconvolution of chimeric DIA spectra
在DIA数据中,CHIMERYS以1% PSM FDR平均鉴定529,993个PSM,82%谱图含多前体。与DIA-NN、Spectronaut的对比显示,其FDR控制更严格(通过诱饵实验验证),数据完整性达41%,远高于DIA-NN(30%)。算法能准确分配低m/z共享碎片离子强度,如C端赖氨酸的y1离子簇。
Accurate peptide quantification
在PRM实验中,CHIMERYS自动鉴定52个目标肽段和1,400个共分离肽段,定量结果与Skyline手动分析高度一致(R=0.99)。DIA数据的定量精度(CV 26.9%)和准确度(大肠杆菌log2比-1.90±0.25)媲美金标准。
Unifying DDA and DIA comparisons
在相同隔离窗口(2 Th)下,快扫描仪器(Orbitrap Astral)的DDA与DIA鉴定数相近,但DIA定量完整性更高(78% vs 55.4%)。MS2定量与PD的MS1定量高度相关(R=0.88),为未来整合奠定基础。
这项研究通过创新的算法设计,彻底改变了蛋白质组学数据分析范式。CHIMERYS不仅解决了嵌合谱图解析这一长期难题,更首次实现了不同采集模式数据的统一分析。其意义体现在三方面:1)技术层面,将深度学习预测与严格的统计控制结合,提升低丰度肽段检出;2)应用层面,支持从临床样本(FFPE)到修饰蛋白质组学(磷酸化/乙酰化)的广泛场景;3)方法论层面,为快扫描仪器时代的数据采集策略优化提供指导。正如作者强调,该工具将推动蛋白质组学从"数据采集方法导向"转向"生物学问题导向"的分析模式,为精准医学研究注入新动力。
生物通微信公众号
知名企业招聘