基于Gini系数的局部阈值算法Localgini提升代谢模型表型预测精度
《npj Systems Biology and Applications》:Modelling reliable metabolic phenotypes by analysing the context-specific transcriptomics data
【字体:
大
中
小
】
时间:2025年12月14日
来源:npj Systems Biology and Applications 3.5
编辑推荐:
本研究针对基因组尺度代谢模型(GEM)在构建组织特异性模型(CSM)时存在假阴性高、模型一致性差的问题,开发了基于基因表达不均等性量化指标Gini系数的Localgini阈值算法。通过分析NCI-60癌细胞系和人类蛋白质图谱(HPA)数据,证明该方法能显著提高持家基因反应回收率,增强代谢通路富集特异性,并降低不同模型提取方法(MeM)间的结果变异。该研究为精准构建代谢表型模型提供了新工具,对疾病机制研究和药物靶点预测具有重要意义。
代谢网络是理解生物系统在健康和疾病状态下复杂功能的基础。为了在系统水平研究这些网络,研究人员开发了基因组尺度代谢模型(GEM),通过质量平衡方程对代谢物进行数学表征。尽管GEM在生物技术领域的菌株设计、生物医学领域的药物靶点预测以及疾病分子机制阐释等方面具有广泛应用,但通用GEM往往代表平均代谢状态,可能掩盖个体细胞、组织或不同环境条件下代谢通量的关键差异,限制了其在细胞类型特异性功能、疾病进展或药物反应预测方面的准确性。
为了研究上下文特异性表型,通常需要利用可用的上下文特异性数据对GEM进行定制。上下文可以指特定组织、细胞、环境条件或遗传扰动。例如,上下文特异性模型(CSM)可用于研究癌细胞的独特代谢需求、细菌在抗生素应激下的代谢适应或心肌梗死后心脏组织的能量代谢改变。本质上,任何显著改变与代谢功能相关的基因或蛋白质表达谱的扰动都可以被视为上下文。
然而,构建上下文特异性模型面临核心挑战:如何准确识别特定上下文中的活性反应?传统方法通常将基因表达值通过基因-蛋白质-反应(GPR)规则投射到反应上,然后对反应表达值应用单一阈值来确定核心反应。这种方法存在明显局限:严格阈值可能排除维持细胞功能所必需的持家基因,而宽松阈值则可能包含假阳性。此外,单一阈值忽略了酶催化效率的变异和复杂的通路特异性表达模式。
为解决这一问题,印度理工学院马德拉斯分校BioSystems Engineering and Control实验室的研究团队开发了名为Localgini的新算法,该算法利用Gini系数来量化基因表达在不同样本间的变异性,从而实现对活性反应的精确识别。研究成果发表于《npj Systems Biology and Applications》,为代谢表型可靠预测提供了新方法。
关键技术方法包括:基于Gini系数的基因特异性阈值计算、六种模型提取方法(FASTCORE、MBA、iMAT、INIT、GIMME和mCADRE)的比较评估、持家基因反应映射分析、组织特异性通路富集分析以及主成分分析(PCA)评估模型一致性。研究使用NCI-60癌细胞系数据集(44个癌细胞系)和人类蛋白质图谱(HPA)数据集(54个人体组织)的转录组RNA-seq数据,在Recon2.2、Recon3D和Human1三种人类代谢模型上进行验证。
Localgini减少核心反应列表和代谢模型中的假阴性
持家基因在维持基本细胞功能中起着至关重要的作用,其特征是在各种条件和细胞类型中保持稳定表达。研究通过将持家基因映射到GEM中的反应,比较了不同阈值方法在识别持家功能方面的效果。
分析表明,Localgini在癌细胞系数据集和HPA组织数据集中均能回收最多数量的持家反应。具体而言,Localgini在所有三种GEM和两个数据集中的表现均显著优于LocalT2(右尾单边Wilcoxon符号秩检验,p值≤0.01)。对于StanDep阈值法,除Recon2.2 GEM中的组织数据外,Localgini在所有情况下均回收了更多持家反应。
由于持家基因在不同样本间保持一致的表达水平,相应反应的阈值应设置为维持其跨条件活性所需的最低水平。Localgini基于Gini系数原理,能有效识别这些构成跨上下文代谢骨架的反应。因此,无论特定上下文如何,Localgini在不同细胞系中均能包含大量持家反应。
研究还评估了不同阈值方法构建的模型执行一组基本代谢任务的能力。每个模型都测试了执行25个不同任务的能力,这些任务是任何人代谢模型都应完成的。Localgini模型在癌细胞系数据中通过了比StanDep和LocalT2模型更高比例的基本任务。在HPA数据集中,Localgini与基于StanDep的阈值法表现相当。
自洽性是指阈值方法的属性,用于评估最终模型中来自阈值方法的反应比例。自洽性越高,表明模型内容更多直接来源于阈值方法识别的核心反应,而非模型提取方法(MeM)的补充。
研究构建了1764个模型,涵盖44个癌细胞系和54个人体组织,采用三种阈值类型和六种模型提取方法。通过比较Localgini阈值与LocalT2和StanDep的MeM反应分数贡献分布,发现Localgini衍生的核心反应列表在大多数MeM中表现出更高的自洽性。
具体而言,使用Localgini获得的MeM反应分数贡献分布的平均值显著低于使用LocalT2和StanDep的情况(左尾单边Wilcoxon秩和检验,p值≤0.01),NCI60癌细胞系数据中的mCADRE除外。对于人体组织数据集,FASTCORE和iMAT在Localgini和StanDep间显示相似分布,表明这些MeM对这两种阈值方法的选择可能不太敏感。
Localgini在大多数MeM和数据集中的优异表现表明,其利用不平等度量优先考虑偏离背景分布表达模式反应的基础方法,可能更好地捕获需要最少后阈值调整的生物学必需反应。
Localgini增强核心反应列表中的组织特异性通路富集
核心反应列表还评估了其与已知组织特异性通路的富集情况。参考通路来自Richelle等人的研究,共包含154个已知通路-组织对,涉及32个独特组织和29个不同通路。
分析显示,使用Localgini方法生成的核心反应列表在更多已知与相应组织相关的通路中显示富集。值得注意的是,磷酸戊糖途径的反应在Localgini衍生的核心反应中主要富集于Recon2.2和Recon3D模型。考虑到磷酸戊糖途径在氧化还原稳态和核苷酸生物合成中的关键作用,其富集对于建模高增殖组织或易发生氧化应激的器官特别相关。
Localgini显示相同细胞系数据构建模型间变异较小
本研究采用不同MeM构建上下文特异性模型,每种方法基于不同假设使用独特优化算法。这些假设会导致使用相同转录组数据或细胞系但不同MeM生成的模型存在显著变异。
为了量化模型间变异并阐明构成因素的贡献,研究构建了二进制反应存在/缺失矩阵进行主成分分析(PCA)。分析发现,MeM是所有阈值方法中沿主成分1(PC1)方差的主要驱动因素。值得注意的是,Localgini模型在PC1上显示出最高的癌症类型和细胞系特异性方差,表明与其他阈值方法相比,Localgini在解析细胞系特异性变异方面具有优越性。
当仅考虑优先在最终模型中包含核心反应的MeM(FASTCORE、MBA和mCADRE)时,所有阈值方法中MeM归因方差沿PC1显著减少。Localgini模型在此精炼矩阵中沿PC1和PC2均显示出最高的细胞系和癌症类型特异性方差。
模型代谢功能变异性评估显示,MeM是沿PC1模型代谢功能方差的主要贡献者,超过所有其他类别。这一观察在仅使用FASTCORE、MBA和mCADRE MeM构建的精炼二进制矩阵中保持一致。此外,PC1方差分析显示,无论使用哪种MeM集合,Localgini模型均显示出最高的癌症类型和细胞系归因方差。
Localgini通过利用Gini系数量化表达不平等,有效识别了构成不同细胞系和组织代谢骨架的上下文无关反应。该方法在减少核心反应列表假阴性、增强模型自洽性、改善通路富集和最小化模型变异方面具有显著优势。
研究还分析了Localgini超参数对其性能的影响。上下阈值(U和L)的选择敏感性分析表明,持家反应回收率对上阈值比下阈值更敏感,表明持家反应的表达水平相对较高。基于Richelle等人的方法,研究选择第25和第75百分位数作为L和U的默认值,这一选择有助于减少假阴性。
Localgini是一种通用阈值方法,可应用于任何生物的GEM。虽然本研究专注于人类数据集,但Localgini此前已应用于构建大肠杆菌和酵母的上下文特异性模型,展示了其跨生物体的适应性。
总之,Localgini能够准确捕获必需代谢反应,促进构建更可靠和生物学相关的上下文特异性模型,可用于在不同条件下获得对细胞代谢更深入和更好的见解。虽然Localgini主要应用于批量转录组数据集,但将其基准测试扩展到稀疏数据类型(如单细胞转录组学)仍是未来研究的重要方向。
该研究开发的Localgini算法为代谢表型可靠预测提供了新工具,对精准医学、疾病机制研究和药物开发具有重要意义。通过提高代谢模型的特异性和准确性,研究人员能够更好地理解细胞在健康和疾病状态下的代谢适应,为开发靶向治疗策略提供新见解。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号