OncoTrace-TOO:基于转录组特征的癌症原发灶识别可解释机器学习框架

【字体: 时间:2025年08月12日 来源:Cancer Reports 1.9

编辑推荐:

  本文推荐一种创新的可解释机器学习框架OncoTrace-TOO,通过整合"一对多"差异表达分析和逻辑回归算法,实现33种癌症类型的原发灶精准鉴定(准确率96.7%)。该模型在TCGA和GEO数据集中展现出优异的泛化能力,尤其擅长区分组织学相似肿瘤(如KIRC/KIRP),其SHAP值驱动的特征解析机制为临床决策提供分子层面的生物学依据。

  

癌症原发灶鉴定的技术突破

ABSTRACT

癌症原发灶不明(CUP)因无法定位原发肿瘤位置而限制靶向治疗应用。现有机器学习方法虽能整合转录组数据,但在区分生物学相似肿瘤时仍面临挑战且缺乏可解释性。OncoTrace-TOO框架通过差异表达分析和逻辑回归算法,实现高达96.7%的整体准确率,对胆管癌(CHOL)、弥漫大B细胞淋巴瘤(DLBC)等7种癌症实现完美分类。

1 Introduction

CUP占全球癌症病例3%-5%,传统病理学检查仅能确定25%病例的原发灶。分子肿瘤分析通过保留原发灶基因表达特征的优势,商业检测如CancerTYPE ID虽达85%准确率,但成本高昂且在低分化肿瘤中表现受限。现有算法存在高维特征导致过拟合与简化基因面板丢失异质性信息的双重矛盾。

2 Methods and Materials

2.1 Datasets

整合TCGA中33种癌症类型的20,501个基因表达数据(9,158原发灶/394转移灶),采用五折交叉验证策略。外部验证集包含GSE69164(肝癌)、GSE164862(膀胱癌)等5个GEO数据集及14例FFPE临床样本。

2.3 Feature Selection

采用"一对多"差异分析策略,通过DESeq2筛选各癌型特异性标志物。当k=200时,模型在13,740个基因中识别611个特征基因,实现精度与泛化性最优平衡(LR:96.69%,MLP:96.64%)。

3 Results

3.1 特征优化

k=200时,急性髓系白血病(LAML)筛选出72个关键基因,而肺腺癌(LUAD)和膀胱癌(BLCA)基因数较少,反映其生物学异质性。

3.2 性能比较

相较TOD-CUP(83.04%)和CUP-AI-Dx(80.92%),OncoTrace-TOO在肾癌(KIRC/KIRP)和胃肠癌(COAD/READ)等组织学相似肿瘤中错误率降低60%。

3.4 临床验证

14例FFPE样本验证显示85.71%准确率,其中肉瘤亚型鉴定达75%精度。唯一误判病例(去分化脂肪肉瘤误识为膀胱癌)提示脂肪分化通路的重叠分子特征。

3.5 生物学解读

SHAP分析揭示:

  • 妇科癌症中F2RL2通过凝血酶信号(乳腺癌)和免疫调节(卵巢癌)发挥双效作用

  • 胸腺瘤标志物DHCR24通过胆固醇合成激活PI3K-AKT通路

  • 胆管癌关键基因PTGDS与WNT10B形成调控网络

4 Discussion

OncoTrace-TOO突破传统24器官系统分类局限,实现33种TCGA癌型的精细区分。其转录组特征与致癌机制的高度关联(如F2RL2、DHCR24等)证实模型捕获的是生物学本质特征而非单纯组织标记。未来可通过整合表观基因组(如DNA甲基化)和液体活检(cfRNA)进一步提升罕见CUP诊断效能。

技术亮点

  • 单样本分类:适用于临床FFPE样本

  • 特征可解释性:SHAP值量化基因贡献度

  • 罕见癌种适配:47例胆管癌样本实现100%分类

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号