整合机器学习鉴定乳酸化相关基因特征预测结直肠癌化疗疗效
《Hormones & Cancer》:Integrative machine learning identifies lactylation-related gene signature prognostic for chemotherapeutic efficacy in colorectal carcinoma
【字体:
大
中
小
】
时间:2025年12月08日
来源:Hormones & Cancer
编辑推荐:
本研究针对转移性结直肠癌化疗有效率仅约50%的临床困境,创新性地整合乳酸化修饰理论与机器学习算法,通过WGCNA和92种算法组合筛选出CCNB1等8个乳酸化相关关键基因,构建的预测模型在独立验证集中AUC达0.640-0.824。该特征可有效区分患者化疗反应性,揭示高评分组对5-FU敏感性增强且Treg细胞浸润减少,为CRC个体化治疗提供新策略。
在全球癌症负担中,结直肠癌(Colorectal Cancer, CRC)始终占据着重要地位。2022年数据显示,其新发病例约190万,死亡病例超过90万,位居全球恶性肿瘤发病和死亡谱的第三位。尽管治疗策略不断进步,但晚期CRC患者的预后仍不理想,这很大程度上源于确诊时已处于疾病晚期。当前,以FOLFOX、FOLFIRI等为代表的化疗方案是转移性CRC的一线标准治疗,然而其客观缓解率仅徘徊在50%左右。这意味着近半数患者承受了化疗带来的毒副反应,却未能获得显著的临床获益。因此,开发能够精准预测化疗疗效的生物标志物,从而实现对患者的个体化分层管理,成为CRC临床实践中的迫切需求。
化疗反应性的差异受到多种分子机制的复杂调控,包括肿瘤内异质性、肿瘤微环境(Tumor Microenvironment, TME)组成、癌干细胞的存在,以及凋亡通路异常、线粒体功能障碍、自噬改变、细胞信号传导失调、药物生物利用度降低等多种因素。近年来,乳酸化(Lactylation)作为一种新发现的蛋白质翻译后修饰(在赖氨酸残基上添加乳酸基团),在基因表达和肿瘤生物学中展现出重要的调控作用。研究表明,乳酸化在促进肿瘤血管生成、抑制TME中免疫细胞毒性等方面扮演着多重角色。乳酸既是代谢产物也是信号分子,不仅能介导细胞内外通讯,还能通过调控基因表达来增强化疗耐药性。例如,近期研究揭示,结直肠癌中组蛋白乳酸化水平上调可通过增强RUBCNL介导的自噬,进而导致对贝伐珠单抗的耐药。这些发现提示乳酸化修饰可能是影响CRC化疗反应的关键环节之一。
与此同时,机器学习算法的迅猛发展为其在医学领域的应用开辟了新天地。这些算法擅长从复杂数据集中提取有意义的模式,识别细微关联,从而提升预测精度并辅助临床决策。在肿瘤学领域,机器学习为解析耐药机制、开发个体化治疗策略提供了前所未有的机遇。尽管机器学习已广泛应用于乳腺癌等恶性肿瘤的药物反应预测,但其在CRC化疗疗效预测方面的应用仍有待深入探索。
为了破解CRC化疗疗效预测的难题,华中科技大学同济医学院附属同济医院的Hu Hui、Peng Fang、Ba QinWen、Hu Weihua*和Lu Yanjun*团队开展了一项深入研究。他们创新性地将乳酸化修饰理论与先进的机器学习算法相结合,旨在识别与CRC化疗反应相关的关键乳酸化相关基因,并评估其作为预测性生物标志物的潜力。该成果已发表在《Discover Oncology》期刊上。
研究人员为开展此项研究,综合运用了多项关键技术方法。他们从TCGA、GTEx和GEO数据库获取了CRC患者的基因表达谱及对应临床数据。通过加权基因共表达网络分析(WGCNA)筛选与乳酸化状态相关的核心模块基因,并利用limma包鉴定化疗应答者与非应答者之间的差异表达基因(DEGs)。将两者取交集后,采用包含11种机器学习算法(如随机森林RF、梯度提升机GBM等)的92种算法组合进行特征筛选和模型构建,并以C-index和ROC曲线下面积(AUC)评估模型性能。此外,还利用CIBERSORT算法分析免疫细胞浸润,利用oncoPredict包评估药物敏感性(IC50),并利用Maftools包分析体细胞突变特征。
研究首先整合TCGA结直肠癌(COAD)数据和GTEx正常组织数据,通过WGCNA构建基因共表达网络,并依据预先验证的乳酸化相关基因集计算样本的乳酸化富集分数,将样本分为高乳酸化组和低乳酸化组。模块-性状关联分析显示,蓝色模块中的1628个基因与CRC肿瘤表型及高乳酸化评分显著相关。同时,在训练集GSE19860(包含15例应答者R和25例非应答者NR)中,鉴定出780个化疗反应相关DEGs。将蓝色模块基因与DEGs取交集,获得50个候选基因。功能富集分析表明,这些基因显著富集于细胞周期、p53信号通路等。
3.4 通过机器学习识别候选中枢基因并构建预测模型
研究人员采用包含92种算法组合的综合性机器学习框架对这50个候选基因进行分析。在训练集(GSE19860)上通过10折交叉验证进行模型训练和参数调优,并在三个独立验证集(GSE62080, GSE62322, GSE69657)上评估性能。结果显示,基于随机森林(RF)和梯度提升机(GBM)组合的模型(‘RF+GBM’)在验证集上取得了最高的平均C-index。通过变量重要性分析,该模型最终确定了8个与CRC患者化疗反应密切相关的关键基因:CCNB1、CENPK、CXADR、HN1、MGAT4B、UBE2T、UGT8和ZDHHC23。
进一步绘制这8个特征基因的受试者工作特征(ROC)曲线,其在训练集和验证集(GSE62080, GSE62322, GSE69657)中的曲线下面积(AUC)分别达到0.824、0.640和0.769,表明该8基因特征在预测患者化疗反应方面具有较好的性能。
研究发现这8个乳酸化相关基因在化疗应答组中均显著高表达。基于这8个基因计算基因集变异分析(GSVA)评分,并以中位评分将患者分为高分组和低分组。基因集富集分析(GSEA)显示,高分组显著富集于细胞周期、氧化磷酸化、蛋白酶体等通路;而低分组则富集于细胞因子-细胞因子受体相互作用、神经活性配体-受体相互作用等通路。GSVA的KEGG分析进一步表明,高分组基因富集于加压素调节的水重吸收、霍乱弧菌感染、内吞作用、p53信号通路等;低分组则涉及JAK-STAT信号通路、Toll样受体信号通路、MAPK信号通路等。
在TCGA样本中,基于7个乳酸化相关基因(HN1因表达数据缺失被排除)的GSVA评分将患者分层。分析显示,该评分在肿瘤组织与正常组织间存在显著差异,但在年龄、性别和TNM分期方面无显著差异。值得注意的是,Kaplan-Meier生存分析表明,低评分组的总生存期显著差于高评分组(p=0.025),尽管单个基因的生存分析均不显著。这提示该模型相关的反应特征基因集可能作为CRC患者生存预后的预测标志物。
60岁 vs. ≤60岁),(C)性别,(D)TNM分期分组的患者间乳酸化特征GSVA评分的比较。(E)CRC队列中高、低评分组总生存期的Kaplan-Meier生存分析比较(图中显示log-rank检验p值)。'>
利用CIBERSORT算法量化TCGA数据集中高、低评分组之间免疫细胞浸润水平的差异。结果显示,两组间有9种免疫细胞类型的浸润水平存在显著差异。例如,高分组含有更多的CD4记忆T细胞、滤泡辅助T细胞、活化树突状细胞和嗜酸性粒细胞;而低分组则具有更高含量的调节性T细胞(Tregs)和M2型巨噬细胞。值得注意的是,用于构建特征的8个基因中,大多数(7个)基因的表达水平与Tregs的丰度呈显著负相关。
3.8 不同乳酸化基因亚组的基因组变异景观和肿瘤内异质性
对高、低乳酸化基因评分组之间的基因组突变差异进行分析,发现两组之间存在不同的突变谱。例如,APC基因在高分组的突变频率为75%,高于低分组的67%。而SYNE1基因的突变在高分组为28%,低于低分组的32%。此外,对前25个突变基因的共现和互斥性分析发现,低分组中存在更高比例的互斥性突变。
3.9 乳酸化基因与药物敏感性相关性分析及基因表达验证
利用GDSC2数据库数据检查乳酸化基因评分亚组的敏感性特征。研究发现,高分组对nutlin-3a的半数抑制浓度(IC50)显著更高,而CCNB1、CXADR、UBE2T、UGT8、ZDHHC23的表达水平与nutlin-3a的IC50呈正相关。相反,高分组对5-氟尿嘧啶(5-Fluorouracil)的IC50显著更低,而CCNB1、CXADR、MGAT4B的表达与5-Fluorouracil的IC50呈正相关。这些发现表明,高评分组患者可能对5-Fluorouracil治疗反应更好,而低评分组患者可能对nutlin-3a更敏感。
1.5)。(C)气泡图总结了7个乳酸化相关基因与药物IC50的相关性。'>
本研究首次全面探讨了乳酸化相关基因在CRC化疗反应中的潜在作用。通过整合多种生物信息学分析和92种组合机器学习算法,成功开发了一个包含8个乳酸化相关基因(CCNB1, CENPK, CXADR, HN1, MGAT4B, UBE2T, UGT8, ZDHHC23)的稳健特征,用于预测CRC患者的化疗反应。该特征源于“RF+GBM”组合模型,在训练和验证数据集中均显示出最高的平均C-index。
功能分析表明,高乳酸化评分组显著富集于细胞周期、氧化磷酸化、蛋白酶体以及p53信号通路等。p53信号通路是化疗敏感性的关键调节因子,提示乳酸化可能通过调控细胞周期和激活p53信号通路来影响CRC的化疗反应。免疫浸润分析揭示了高低评分组之间在9种免疫细胞类型上存在显著差异,特别是大多数乳酸化特征基因的表达与Tregs浸润频率呈显著负相关,这与乳酸化修饰参与免疫抑制的近期发现一致。药物敏感性分析进一步证明了乳酸化风险评分在指导CRC患者用药选择方面的潜力,高评分组对5-Fluorouracil表现出更高的敏感性,这与生存和治疗反应数据相符,证实高评分组代表了对常规化疗具有增强敏感性的独特亚型。
尽管该8基因乳酸化特征在预测化疗反应方面表现出整体强大的性能,但在独立验证队列中的有效性存在一定波动(AUCs: 0.824, 0.640, 0.769)。这种变异可能归因于化疗方案(FOLFOX versus FOLFIRI)的差异、不同数据集中患者群体的固有异质性以及部分验证队列样本量有限等因素。为了增强研究结果的稳健性,纳入更大的样本量和多样化的验证队列至关重要。此外,乳酸化在CRC中关键基因的分子机制仍不清楚,需要进一步研究。
总之,该研究通过整合生物信息学和机器学习,构建了一个强大的8基因乳酸化相关特征,用于预测CRC患者的化疗反应。研究结果为了解乳酸化参与CRC化疗反应的机制提供了新见解,突出了将机器学习与乳酸化分析相结合作为推进CRC个体化治疗和优化临床管理的宝贵工具的潜力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号