C-COMPASS:基于神经网络的细胞器多组学分析工具实现蛋白质和脂质空间分布定量解析
《Nature Methods》:C-COMPASS: a user-friendly neural network tool profiles cell compartments at protein and lipid levels
【字体:
大
中
小
】
时间:2025年12月05日
来源:Nature Methods 32.1
编辑推荐:
本研究针对细胞器蛋白质空间分布预测中多重定位模式难以量化、脂质缺乏特异性标记物无法定位的问题,开发了用户友好的开源软件C-COMPASS。该工具采用神经网络回归模型,成功实现了蛋白质在细胞器间的定量分布预测,并首次将空间分布分析拓展至脂质组学,为研究代谢扰动下细胞器重构提供了多组学整合分析方案。
在真核细胞中,细胞器的精确空间分布和功能特化是维持正常生命活动的关键。然而,传统的细胞器分离技术面临纯度不足的挑战,而现有的计算方法大多局限于单一细胞器的定性预测,难以准确捕捉蛋白质的多重定位特征。更令人困扰的是,由于缺乏特异性标记物,脂质在细胞器间的分布研究一直进展缓慢。
针对这些技术瓶颈,德国赫尔姆霍兹慕尼黑中心的Natalie Krahmer团队在《Nature Methods》上发表了题为"C-COMPASS: a user-friendly neural network tool profiles cell compartments at protein and lipid levels"的研究论文,开发了一种基于神经网络的空间多组学分析工具。
研究人员首先建立了完整的实验分析流程:通过密度梯度超速离心分离细胞器组分,结合液相色谱-串联质谱(LC-MS/MS)技术进行蛋白质和脂质的定量分析。C-COMPASS的核心创新在于采用五层神经网络回归模型,通过输入层(对应分数数量)、两个密集层(一个可调)、归一化层(确保输出总和为1)和输出层的结构设计,实现了蛋白质在多个细胞器间分布比例的定量预测。
研究团队通过标记蛋白质上采样策略有效解决了类别不平衡问题。在人类白色脂肪细胞数据集上的测试表明,上采样后预测精度从0.44提升至0.60,召回率从0.47提升至0.66。特别是对于标记蛋白较少的脂滴(LD)区室,F1分数从不足0.01显著提高至0.50。与传统支持向量机(SVM)方法相比,C-COMPASS在12个细胞器中的11个表现出更优的性能,整体F1分数达到0.84。
在HyperLOPIT数据集的应用中,C-COMPASS在对照条件下获得了0.87-1.00的F1分数(加权平均0.96),在LPS处理条件下为0.66-1.00(加权平均0.93)。重要的是,该工具成功识别出59.5%的蛋白质存在多重定位,其中81%在原研究中被归类为"未知"的蛋白质被重新定义为多重定位蛋白。
通过模拟数据集分析,研究发现当分数数量至少是细胞器数量的两倍时,可获得最佳预测效果。这一发现为优化实验设计提供了重要指导,在保证分辨率的同时合理平衡工作负荷。
在FRG基因敲除小鼠模型中,研究人员利用C-COMPASS分析了人源化肝脏在不同代谢状态(普通饮食、高脂高果糖饮食、禁食)下的细胞器重构。研究发现约半数蛋白质在不同条件下保持主要定位一致,而脂滴相关蛋白质表现出最高的重定位比例。特别值得注意的是,PLIN5在普通饮食条件下主要定位于脂滴,在高脂高糖喂养时向胞质重定位,禁食后又返回脂滴。
研究最具创新性的突破在于将空间分布分析成功拓展至脂质组学。通过蛋白质标记物训练的神经网络,C-COMPASS成功预测了411种脂质物种的细胞器分布。研究发现三酰甘油(TAG)主要定位于脂滴,心磷脂(CL)富集于线粒体,而神经酰胺主要在内质网合成。此外,研究还发现了脂肪酸链长和饱和度在不同细胞器间的显著差异,如分泌途径后期细胞器(内体、溶酶体和质膜)比早期细胞器(高尔基体)具有更长的碳链和更高的不饱和度。
C-COMPASS的推出标志着空间多组学分析进入了新时代。该工具不仅解决了蛋白质多重定位的定量预测难题,更突破了脂质空间分布研究的技术瓶颈,为全面理解细胞器在生理和病理条件下的动态重构提供了强大平台。随着该工具的广泛应用,预计将在脂质组学、蛋白质组学和细胞器生物学领域催生更多重要发现。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号