一种基于拓扑数据分析的精准医学亚组发现新方法:开启癌症研究新篇章

《BMC Medical Informatics and Decision Making》:A novel method for subgroup discovery in precision medicine based on topological data analysis

【字体: 时间:2025年03月20日 来源:BMC Medical Informatics and Decision Making 3.3

编辑推荐:

  为解决 Mapper 算法参数选择难题,研究人员开展亚组发现研究,成功识别乳腺癌亚组,意义重大。

  在精准医学的宏大版图中,探寻患者亚组的身影是关键的拼图。患者亚组发现旨在找出具有相似疾病特征、结果或治疗反应的患者群体,这对精准医疗意义非凡,因为它能依据个体疾病生物学差异定制治疗方案。然而,病理学数据高维度且复杂,如何从这些数据中挖掘出有意义的亚组,成为科研人员亟待突破的难关。
传统的聚类算法,像 k - means、层次聚类和高斯混合模型,常被用于亚组发现,但面对复杂数据时存在局限性。拓扑数据分析(Topological Data Analysis,TDA)的出现,为解决这一难题带来了曙光。TDA 是一种从高维数据中提取信息的可靠且可解释的框架,Mapper 算法则是 TDA 中的得力工具。Mapper 算法通过降维和局部聚类,将数据的拓扑结构以网络图的形式呈现,能清晰展现数据集中的关键结构和样本间的局部关系。

在过去的研究中,Mapper 算法在生物医学领域取得了不少成果。它曾从 MRI 数据中揭示大脑活动的组织映射,从电子健康记录中识别出 2 型糖尿病的核心亚组,还在乳腺癌研究中发现了新的亚组。但它也存在明显缺陷,使用时需要手动设置多个参数,这些参数对最终输出的图形影响巨大,却没有既定的最优选择方法。而且,构建好 Mapper 图后,还需手动检查图形是否揭示了有意义的现象,这极大限制了它在实际中的应用。

为了攻克这些难题,来自英国贝尔法斯特女王大学(Queen’s University Belfast)电子、电气工程与计算机科学学院、癌症研究中心以及波兰科学院数学研究所拓扑数据分析迪奥斯库里中心的研究人员 Ciara F. Loughrey、Sarah Maguire 等人开展了一项重要研究,相关成果发表在《BMC Medical Informatics and Decision Making》上。

研究人员提出了一种全新的热点检测算法,用于在 Mapper 图中发现亚组。他们将热点定义为结构相连且同质的节点社区,这些节点在感兴趣的特征(如生存)方面与周围邻域节点表现出异质性。该算法通过自动采样参数空间构建 Mapper 图,然后执行社区检测和分类,判断哪些社区是热点。在构建 Mapper 图时,研究人员提出随机线性组合特征作为透镜函数,并考虑不同的区间数量和重叠参数范围。

研究人员利用两个数据集验证了算法的有效性。在两圆(Two Circles)数据集实验中,该数据集由 5000 个样本和两个特征组成,呈两个同心圆形状,研究人员人为标记了部分样本。通过算法搜索,成功识别出一个热点,确定了合适的透镜函数和参数组合,这个热点包含了 98% 的原始标记样本,f1分数达到 0.979。

在乳腺癌数据集实验中,研究人员使用了两个详细注释的乳腺癌肿瘤基因表达数据集:乳腺癌国际协作组分子分类(Molecular Taxonomy of Breast Cancer International Consortium,METABRIC)和癌症基因组图谱(The Cancer Genome Atlas,TCGA)乳腺癌数据集,并将其分为发现集(METABRIC)和验证集(TCGA)。首先对数据进行疾病特异性基因组分析(Disease - Specific Genomic Analysis,DSGA)转换预处理。在 METABRIC 队列的发现分析中,算法识别出一个包含热点的 Mapper 图,其透镜函数有 222 个非零加权基因,最终确定的参数为 24 个区间和 10% 的重叠,热点所在节点的患者 10 年无复发生存概率仅 41%,而队列其他患者为 65%。在 TCGA 队列的验证中,使用在 METABRIC 数据集中确定的透镜函数,成功在 TCGA 数据集中找到了相似的热点,该热点所在节点代表 19 名患者,占总 ER+患者的 2.71%,且这些患者与 METABRIC 热点组基因表达相似度最高。

研究人员还对热点组的分子和临床特征进行了分析。在两个数据集中,热点组与肿瘤内在亚型均无明显关联。通过差异表达分析,发现两个数据集中热点组共有 694 个共享基因,这些基因在 63 条信号通路中显著富集,其中许多通路与乳腺癌的肿瘤进展、发展以及新的治疗领域相关。

这项研究意义重大。其热点检测算法成功识别出亚组,在乳腺癌研究中发现了预后不良的 ER+患者亚组,且该亚组不能被现有 PAM50 亚型所涵盖,实现了对复杂疾病的精细化分层。同时,算法支持 Mapper 算法参数的自动选择,降低了手动搜索参数的要求,使 Mapper 算法更易于在临床环境中应用。此外,该方法还能筛选出包含生物学相关信息的小基因特征,为生物信息学探索性数据分析提供了更精细的方法。

在未来,研究人员计划将算法应用于更多癌症类型和数据集,评估其在不同癌症中的普适性,探索亚组与既定临床和分子亚型的一致性。同时,还将扩展热点检测方法,支持多种数据类型的整合,进一步深入研究相关信号通路,为癌症亚型分类和精准医学发展提供更强大的工具。

涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒

10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�

娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功

鍗曠粏鑳炴祴搴忓叆闂ㄥぇ璁插爞 - 娣卞叆浜嗚В浠庣涓€涓崟缁嗚優瀹為獙璁捐鍒版暟鎹川鎺т笌鍙鍖栬В鏋�

涓嬭浇銆婄粏鑳炲唴铔嬬櫧璐ㄤ簰浣滃垎鏋愭柟娉曠數瀛愪功銆�

相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 急聘职位
    • 高薪职位

    知名企业招聘

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号