
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多组学数据整合与代谢模型驱动的系统生物学方法提升癌症分型及早期诊断精准度
【字体: 大 中 小 】 时间:2025年08月07日 来源:Quantitative Biology 1.4
编辑推荐:
这篇综述创新性地整合转录组(TX)、基因组(GX)、蛋白质组(PX)和代谢通量组(JX)数据,结合基因组尺度代谢模型(GSMM)和机器学习(ML)技术,构建了针对肺癌和胰腺癌的多组学分类器。研究通过通量平衡分析(FBA)解析样本特异性代谢网络,发现脂质代谢、糖酵解等关键通路差异,并利用随机森林模型实现癌症亚型(AD/SC)和早期阶段(S1/N)的高精度区分(准确率>95%),为无创液体活检和靶向治疗提供了新型生物标志物筛选框架。
癌症作为全球第二大死因,其异质性和早期诊断难题亟待突破。肺癌占据癌症相关死亡的20%,而胰腺癌(PC)虽仅占新发病例3.3%,却是致死率第三的癌种。传统活检的侵入性缺陷促使研究者转向多组学整合策略——本研究通过将转录组数据嵌入人类基因组尺度代谢模型(GSMM),生成患者特异性通量分布(JX),结合基因组(CNV)、蛋白质组(RPPA)数据,构建了可区分肺癌亚型(小细胞肺癌SCLC/非小细胞肺癌NSCLC,腺癌AD/鳞癌SC)和早期病变的多组学分类器。
代谢重编程是癌症标志性特征,典型如Warburg效应。GSMM通过8401种代谢物、13,547个反应和3268个基因的网络重构,采用通量平衡分析(FBA)优化生物量目标函数,并利用E-flux方法将转录组数据转化为酶活性约束。相较于传统代谢组学面临的动态变异和技术瓶颈,该方法通过识别标记通路(如脂肪酸氧化FACOAL244_1)而非单一代谢物,实现了系统层面的代谢扰动解析。
基于不可逆Recon3D模型的模拟显示,TCGA数据集42个通路在通量水平显著改变,77个在基因表达水平差异显著。肺癌组织中吡咯啉-5-羧酸还原酶(P5CRm)和脂肪酸-CoA连接酶(FACOAL2252)等反应异常活跃,驱动脯氨酸合成和脂质氧化。值得注意的是,鳞癌(SC)与腺癌(AD)比较中,精氨酸和谷胱甘肽代谢通路未显著富集,暗示亚型特异性代谢适应。
随机森林模型在1119例C/N分类中达到近乎完美的准确率,JX数据表现媲美转录组(TX)。早期诊断(S1/N)则更依赖GX/TX数据,如细胞周期调控基因CDC25C和RACGAP1。SHAP值分析揭示TOP10关键反应:糖原磷酸化酶(GLPASE1)和L-丙氨酸转氨酶(ALATA_L)分别调控能量供应和氧化还原平衡,其变异与EGFR靶向治疗耐药相关。
跨平台数据(TCGA/NCBI-GEO/CCLE)整合使SCLC识别召回率提升至100%。D-葡萄糖1-差向异构酶(HMR_7745)在AD中高表达,而线粒体脂肪酸转运蛋白(C181CPT2)在SC中活跃,这些发现与KRAS突变肿瘤依赖脂代谢的特性吻合。值得注意的是,培养细胞(CCLE)数据因微环境缺失导致分类性能下降(F1-score=0.5),凸显原代组织数据的重要性。
在仅161例PC样本中,多组学模型仍保持85%以上准确率。乙酰辅酶A合成酶(ACSL4)和α-连环蛋白(CTNNA1)被鉴定为早期诊断标记,前者通过调控铁死亡影响肿瘤抗氧化能力,后者参与E-钙黏蛋白复合体组装障碍——这与PC典型的上皮-间质转化(EMT)特征高度一致。
该研究创新点在于:① 通过GSMM将组学数据转化为功能性代谢通量,克服了代谢组数据稀缺性;② 发现亚型特异性标记如SCLC的γ-氨基丁酸转氨酶(ABTArm)与免疫逃逸相关;③ 在PC中验证了方法对小样本的适用性。局限性包括培养细胞数据敏感性不足,以及阶段分类精度(60-70%)有待提升。未来可结合13C代谢流分析验证关键通路,推动无创诊断标志物如循环肿瘤DNA(ctDNA)的临床转化。
这项系统生物学工作不仅为癌症精准诊疗提供了新范式,其通用流程更适用于其他机制未明疾病的研究。从代谢视角重新定义肿瘤分型,标志着计算生物学向临床转化的关键一步。
生物通微信公众号
知名企业招聘