编辑推荐:
在蛋白质组学研究中,数据非依赖采集质谱(DIA-MS)数据分析颇具挑战。研究人员开展 DIA-BERT 相关研究,利用预训练人工智能模型分析 DIA 蛋白质组学数据。结果显示,其在多方面优于 DIA-NN,这为 DIA 蛋白质组学分析带来新突破。
在生命科学研究的广阔领域中,蛋白质组学扮演着极为关键的角色。数据非依赖采集质谱(DIA-MS)技术凭借其独特优势,在定量蛋白质组学研究里占据了日益重要的地位。然而,分析基于 DIA-MS 的蛋白质组学数据却困难重重。以往的 DIA 鉴定工具,像 OpenSWATH、Spectronaut 这类开创性工具,采用与多反应监测(MRM)相似的靶向数据分析策略;而诸如 DIANN、MaxDIA 等较新的工具,则运用多阶段方法。但这些现有工具都存在局限性,比如独立为每个质谱文件训练评分模型,样本量有限导致依赖简单机器学习模型,且无法利用其他文件信息,手工设计特征也限制了分析性能,各模型间缺乏信息反馈。
为了突破这些困境,西湖大学的研究人员展开了深入研究。他们开发出 DIA-BERT 这一软件工具,这是一种基于 Transformer 的预训练人工智能模型,专门用于分析 DIA 蛋白质组学数据。该研究成果发表在《Nature Communications》上,为该领域带来了新的曙光。
研究人员开展此项研究时,运用了多种关键技术方法。在模型训练方面,从多个公共数据库收集质谱文件用于模型训练。构建训练集时,采用不同软件处理数据,筛选正负样本,还通过模拟 DIA 数据构建用于训练定量模型的数据集。在分析过程中,运用了峰组提取、模型训练与微调、交叉运行归一化等技术,并通过与 DIA-NN 对比的基准实验评估 DIA-BERT 性能。
下面来看具体的研究结果:
- 鉴定性能提升:研究人员使用包含多种人类肿瘤组织的 DIA 蛋白质组数据集,将 DIA-BERT 与 DIA-NN 进行对比。结果显示,在基于谱库模式下,DIA-BERT 平均比 DIA-NN 多鉴定出 22% 的肽前体和 51% 的蛋白质;在无谱库模式下,DIA-BERT 鉴定出的蛋白质和肽前体数量分别比 DIA-NN 多 73% 和 56%,且 DIA-BERT 的保守错误发现率(FDR)更低。进一步分析发现,DIA-BERT 能更好地鉴定低丰度蛋白质,且随着训练数据量增加,其鉴定能力呈上升趋势。在多物种数据集测试中,DIA-BERT 同样表现出色,蛋白质和肽前体鉴定数量均有增加。
- 定量分析准确:研究人员开发了基于 Transformer 模型的峰面积估计算法,用于精确的 DIA 定量分析。通过模拟 DIA 数据训练模型,并在多物种数据集和小鼠 - 酵母混合蛋白质组数据集上进行测试。结果表明,DIA-BERT 在定量分析方面表现优异,与 DIA-NN 相当甚至在部分情况下更准确,如在小鼠 - 酵母数据集特定比例样本的分析中,其预测的肽前体和蛋白质的 log?比值更接近理论值。
- 用户友好与功能多样:DIA-BERT 设计了直观的图形用户界面(GUI),结果可导出为 CSV 格式,方便用户使用。它还允许独立执行谱库预处理、单文件分析和交叉运行定量等操作,减少了计算开销。
综合研究结论和讨论部分,DIA-BERT 凭借预训练 Transformer 模型,显著提升了不同 DIA 蛋白质组数据集上肽前体和蛋白质的鉴定能力,为蛋白质组学研究提供了更强大的工具。同时,其在定量分析方面的准确性也为相关研究提供了可靠的数据支持。不过,DIA-BERT 也存在一些局限性,例如依赖 GPU 运行,对不同类型仪器数据的适用性有限,在翻译后修饰(PTM)和非胰蛋白酶肽方面的性能尚未评估等。但这也为后续研究指明了方向,未来可通过优化模型、拓展训练数据类型等方式进一步提升其性能,有望推动蛋白质组学研究迈向新的高度,为生命科学和健康医学领域的发展提供更有力的支撑。