机器学习与分子对接联合揭示2-萘胺诱导膀胱癌的分子网络机制
《Hormones & Cancer》:Combining machine learning and molecular docking to unravel the molecular network of bladder cancer induced by 2-naphthylamine
【字体:
大
中
小
】
时间:2025年12月12日
来源:Hormones & Cancer
编辑推荐:
本研究针对环境致癌物2-萘胺(2-NA)诱导膀胱癌(BLCA)的分子机制不明确这一科学问题,通过整合多组学数据、机器学习算法和计算生物学方法,系统筛选出29个潜在靶点,并进一步鉴定出SKP2、EBP等14个核心基因。分子对接和分子动力学模拟证实2-NA与关键靶蛋白具有强结合亲和力,为高危人群生物标志物开发和靶向预防策略提供了理论依据。
膀胱癌是全球泌尿系统最常见的恶性肿瘤之一,在系统性恶性肿瘤中发病率位居第9位,死亡率排名第13位。其发病机制复杂,涉及多因素、多阶段过程,其中长期接触特定致癌物是主要诱因。值得注意的是,烟草烟雾和某些工业化学品中的芳香胺类物质在这一过程中扮演重要角色,它们会导致尿路上皮细胞的遗传损伤和表观遗传学改变。流行病学研究显示,长期职业性接触2-萘胺(2-Naphthylamine, 2-NA)的人群,其膀胱癌发病率比普通人群高出数倍,这使得2-NA暴露成为膀胱癌最重要的环境风险因素之一。
2-NA已被国际癌症研究机构(IARC)列为I类致癌物,与膀胱癌的发生密切相关。其在体内的代谢活化过程已较为明确:经皮肤或吸入暴露后,在肝脏通过CYP1A2催化的N-羟化反应进行代谢活化,代谢产物随后通过肾脏排泄至膀胱,在β-葡萄糖醛酸酶作用下进一步转化,释放高反应性亲电子芳基羟胺中间体。这些中间体直接与尿路上皮DNA相互作用,形成鸟嘌呤C8/N2加合物,诱导特征性的G→T颠换突变,导致TP53失活、HRAS激活等关键基因功能改变,从而驱动肿瘤发生。
尽管2-NA的致癌性已得到流行病学和动物实验的证实,但其在分子水平上的具体作用机制仍有待深入阐明。传统的研究方法难以全面揭示这种复杂的有毒物质-宿主相互作用网络。随着网络毒理学和计算生物学的发展,通过整合动态网络分析和计算结构-活性关系来系统解析致癌通路的级联效应已成为可能。
本研究采用系统毒理学方法,通过多组学数据整合重建2-NA驱动膀胱癌发病机制的网络,应用机器学习进行拓扑和功能富集分析识别关键靶基因,并通过分子对接验证靶标结合和相互作用热力学,旨在阐明2-NA的多尺度致癌网络,为膀胱癌的化学预防和精准治疗提供潜在的药物靶点。
研究人员主要运用了以下几个关键技术方法:从NCBI GEO数据库获取四个膀胱癌转录组数据集(GSE13507、GSE37815、GSE7476、GSE65635)进行差异表达分析和加权基因共表达网络分析;通过ChEMBL、SwissTargetPrediction和PharmMapper数据库预测2-NA的生物学靶点;利用机器学习算法(Lasso、RF、XGBoost等)构建113个预测模型筛选核心基因;采用分子对接和分子动力学模拟验证2-NA与靶蛋白的结合相互作用。
研究首先从PubChem数据库获取2-NA的分子结构,通过三个互补数据库系统预测其潜在生物学靶点。整合数据并去除重复后,共识别出1,285个潜在靶点,为后续分析奠定了基础。
研究人员合并GSE13507和GSE37815数据集,采用综合标准化策略有效处理批次效应。差异表达分析显示1,788个基因与膀胱癌相关显著变化。加权基因共表达网络分析确定了八个独立的基因模块,其中特定模块与膀胱癌显著相关。整合差异表达基因和WGCNA模块基因后,最终获得313个与膀胱癌相关的基因。
通过比较2-NA靶蛋白与膀胱癌相关基因,研究识别出29个与2-NA诱导膀胱癌发生相关的关键靶点。基因本体(GO)和京都基因与基因组百科全书(KEGG)富集分析显示,这些基因显著富集于有丝分裂细胞周期相变、细胞周期G2/M相变等生物过程,以及细胞周期、类固醇生物合成和细胞衰老等通路,表明2-NA暴露显著激活有丝分裂细胞周期相变和微管-DNA功能障碍,从而促进膀胱癌的进展。
通过对29个潜在靶点进行广泛机器学习分析,研究人员构建了多个预测模型来确定2-NA相关膀胱癌的关键基因。整合随机森林(RF)和梯度提升机(GBM)模型表现优异,共鉴定出14个重要基因:SKP2、SCN11A、DHCR7、AURKB、PFKFB4、EBP、CA2、NUDT1、DUSP2、KIF20A、BLM、IGFBP2、EZH2和TPX2。SHAP分析显示SKP2和EBP是最具影响力的预测因子,对膀胱癌发展有显著促进作用。
分子对接分析证实2-NA与14个靶蛋白均具有强结合亲和力,结合能均小于-5 kcal/mol,表明在分子水平存在稳定自发的相互作用。其中与NUDT1的结合能最低(-8.4 kcal/mol),与EBP的结合能为-7.5 kcal/mol,与SKP2的结合能为-5.9 kcal/mol。结合构象可视化显示所有2-NA-蛋白复合物均呈现稳定对接姿态。
分子动力学模拟验证2-NA与靶蛋白EBP和SKP2的结合相互作用
对SHAP分析确定的两个最具影响力靶蛋白(EBP和SKP2)进行分子动力学模拟。结果显示EBP-2-NA复合物系统在10 ns后达到平衡,最终在0.5 nm附近波动;SKP2-2-NA复合物系统在90 ns后达到平衡,最终在0.53 nm附近波动。两者均形成稳定的氢键相互作用,复合物灵活性低、稳定性高,证实2-NA与这两个关键靶蛋白具有强结合特异性。
本研究通过多组学数据集与先进机器学习的综合分析,确定了连接2-NA暴露与膀胱癌发病机制的分子靶点。网络毒理学和生物信息学分析识别出29个潜在基因,其中14个核心基因尤为显著。差异表达分析表明,SKP2、DHCR7、AURKB、PFKFB4、EBP、CA2、NUDT1、KIF20A、BLM、EZH2和TPX2在膀胱癌中上调,而SCN11A、DUSP2和IGFBP2下调。机器学习模型验证了这些遗传特征的诊断价值,SHAP可解释性分析指出SKP2和EBP是最具影响力的预测因子。
SKP2作为F-box蛋白家族的关键成员,通过促进p27的泛素化和降解,缓解p27对CDK2/cyclin E复合物的抑制作用,从而促进肿瘤细胞增殖。临床证据表明SKP2高表达与肿瘤浸润增加和预后不良显著相关。EBP基因编码胆固醇合成通路中的核心酶,其过表达导致胆固醇及其中间体积累,为肿瘤细胞提供膜合成和信号传导的必需原料。研究发现EBP通过触发尿路上皮细胞癌抗原1(UCA1)的表达促进膀胱癌增殖和克隆形成。
分子对接模拟通过特异性氨基酸相互作用证明了2-NA与关键靶标之间的强结合亲和力,推测这些相互作用可能发生在已知代谢活化过程之后。分子动力学模拟进一步揭示2-NA与靶蛋白EBP和SKP2形成稳定复合物,具有明显的氢键相互作用。
该研究为理解2-NA诱导膀胱癌的分子机制提供了新视角,特别是在识别SKP2和EBP作为关键分子靶点方面具有重要意义。这些发现不仅增强了我们对环境致癌物作用机制的认识,还为高危职业人群的生物监测、早期筛查和靶向预防策略的开发提供了理论依据。未来研究应着重建立膀胱类器官模型、整合膀胱癌风险评估模型以及探索2-NA致癌效应中的表观遗传修饰网络,进一步推动该领域的深入研究。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号