编辑推荐:
非小细胞肺癌(NSCLC)中腺癌(AC)和鳞状细胞癌(SCC)的早期分类困难。研究人员利用手术切除肺组织微生物群,通过机器学习方法进行亚型分类。结果显示 XGBoost 算法表现最佳,该研究为 NSCLC 亚型诊断提供了新方向。
肺癌,这个隐匿在暗处的 “健康杀手”,一直是全球医学领域的难题。非小细胞肺癌(NSCLC)作为肺癌的主要类型,其中腺癌(AC)和鳞状细胞癌(SCC)又占据了超过 80% 的病例。晚期诊断、高转移率和治疗耐药性使得 NSCLC 患者的死亡率居高不下,5 年相对生存率在不同阶段差异巨大,即便进行手术切除,术后复发率也相当高 。
AC 和 SCC 在细胞起源、特征、预后和治疗反应等方面存在显著差异。AC 起源于肺泡和气道上皮细胞,常形成腺状结构并产生粘蛋白,与 EGFR、KRAS 等基因突变相关;SCC 则起源于支气管气道的鳞状上皮细胞,与 TP53、PIK3CA 等基因突变有关 。然而,由于 NSCLC 亚型的高度异质性,早期准确分类对医疗专业人员来说是巨大挑战,现有的诊断方法常需临床测试和活检,不仅耗时,还可能延误治疗。
在此背景下,印度理工学院焦特布尔分校(Indian Institute of Technology, Jodhpur)的研究人员开展了一项极具创新性的研究。他们利用机器学习方法,借助手术切除的 AC 和 SCC 患者肺组织微生物群进行亚型分类,相关成果发表在《npj Systems Biology and Applications》上。
研究人员主要运用了以下关键技术方法:首先从 NCBI 数据库收集 NSCLC 患者的 16S rRNA 测序数据,这些数据来自意大利欧洲血统患者的手术切除肺组织样本,同时获取患者的年龄、性别、吸烟史等元数据 。接着使用 QIIME2 工具对数据进行预处理和分类学分析,通过 LEfSe 方法筛选差异特征,利用线性判别分析(LDA)降低数据维度,最后运用多种机器学习和深度学习算法进行分类模型构建与评估 。
研究结果主要包括以下几个方面:
- 肺微生物群组成的分类学分析:在门和属水平上,Proteobacteria、Firmicutes 等菌群在 AC 和 SCC 组中都较为常见,但相对丰度存在差异。AC 组中 Thermus 属占主导,而 SCC 组中 Pseudomonas 属占主导 。α 多样性分析显示 AC 组的多样性高于 SCC 组,β 多样性分析表明两组微生物群落结构差异不明显 。
- 差异微生物群落的识别:通过 LEfSe 算法,研究人员确定了 74 个在 AC 和 SCC 组中差异丰富的分类群。经过 Pearson 相关性分析去除高度相关特征后,选取了 10 个分类特征和 4 个元数据特征用于模型训练 。
- 模型评估与比较:研究人员构建了 6 种机器学习分类器和深度学习网络,结果显示 XGBoost 算法表现最为出色,在原始测试数据集上准确率达到 76.25%,AUROC 为 0.81 。在独立数据集上,XGBoost 同样表现最佳,准确率为 64.4%,AUROC 为 0.71,证明了模型的稳健性和泛化能力 。
- 关键细菌生物标志物的功能富集分析:利用 PICRUSt2 工具分析细菌群落的代谢途径,发现 AC 组中碳水化合物、能量和氨基酸代谢等途径更为富集,而 SCC 组中次级代谢产物生物合成和外源性物质降解途径更为关键 。
研究结论表明,该研究首次利用手术切除肺组织微生物群对 NSCLC 亚型进行分类,发现了 AC 和 SCC 亚型之间微生物组成的显著差异,并确定了潜在的微生物标记物 。XGBoost 算法在区分 AC 和 SCC 方面表现优异,为 NSCLC 的诊断和预后提供了新的思路和方法 。同时,研究还揭示了与 AC 和 SCC 相关的差异代谢途径,有助于深入理解肺癌的发病机制,为开发新的治疗靶点提供了理论依据 。
然而,该研究也存在一定局限性。例如,目前确定的微生物标记物主要来自手术切除肿瘤样本,难以应用于临床早期诊断。未来需要进一步研究如何从微创或无创样本中获取可靠的微生物标记物 。此外,抗生素使用、COPD 等合并症以及环境和生活方式因素等对微生物群落的影响也需要深入探讨 。尽管如此,这项研究为肺癌领域的研究开辟了新方向,有望推动肺癌精准诊疗的发展,让我们在对抗肺癌的道路上迈出重要一步。