编辑推荐:
为解决经典 Mapper 算法的局限性,研究人员开展 D-Mapper 算法研究,结果表明其性能更优,意义重大。
探索数据拓扑结构的新钥匙:D-Mapper 算法
在数据的海洋里,我们都渴望找到一把神奇的钥匙,能精准地挖掘出数据背后隐藏的奥秘。拓扑数据分析(Topology data analysis,TDA)领域就致力于此,而 Mapper 算法作为其中的得力工具,一直备受关注。
传统的 Mapper 算法,就像是一个带着固定模具的工匠,它在处理数据时,使用固定的区间长度和重叠率。这在面对简单的数据结构时,还能应付自如,但一旦数据结构变得复杂,那些微妙的特征就像躲猫猫的孩子,轻易地逃过了它的 “眼睛”。比如说,在分析复杂的生物数据时,由于其高维度和复杂性,经典 Mapper 算法常常难以准确揭示数据的内在结构,就好比用一把不精准的尺子去测量精细的艺术品,误差总是难以避免。
为了攻克这些难题,上海科技大学数学科学研究所的研究人员 Yuyang Tao 和 Shufei Ge 踏上了探索之旅,他们的研究成果发表在《BMC Bioinformatics》上。他们提出的分布引导 Mapper(D-Mapper)算法,就像是给 Mapper 算法注入了 “智慧因子”,让它变得更加灵活和智能。
研究人员在开展这项研究时,运用了多种关键技术方法。首先,利用高斯混合模型(Gaussian mixture models,GMM)对投影数据进行拟合,通过期望最大化(EM)算法进行模型推断。其次,引入了一种新的评估指标 —— 调整轮廓系数(SCadj),它综合了轮廓系数(Silhouette coefficient,SC)和拓扑信号率(Topological signal rate,TSR),能更全面地评估 Mapper 算法的性能。此外,在处理 SARS-CoV-2 数据集时,使用 K-mers 频率向量表示序列,并基于此计算距离矩阵。
下面让我们深入了解一下这项研究的具体成果:
- D-Mapper 算法构建:D-Mapper 算法巧妙地打破了经典 Mapper 算法的固定模式。它根据投影数据的分布,自动选择重叠率,生成更加灵活的覆盖。具体来说,通过拟合混合概率模型,将模型中的每个组件看作一个区间,依据给定的置信水平1?α确定区间。这样一来,D-Mapper 算法能够更准确地反映数据的潜在结构,就像为数据量身定制了一套合适的 “衣服”,而不是像经典算法那样 “一刀切”12。
- 评估指标创新:研究人员引入的SCadj指标,为评估 Mapper 算法提供了更全面的视角。传统的 SC 指标只能反映聚类的质量,而忽略了拓扑结构。SCadj通过将归一化的 SC 和 TSR 进行加权平均,兼顾了聚类和拓扑结构两个方面。这就好比在评价一幅画时,不仅看它的色彩搭配(聚类质量),还看它的构图(拓扑结构),从而能更合理地评估 Mapper 算法的性能34。
- 模拟数据集验证:在多个模拟数据集上,研究人员对 D-Mapper 算法和经典 Mapper 算法进行了 “大比拼”。在两个不相交圆、两个相交圆和 3D 猫数据集的实验中,D-Mapper 算法在SCadj和SCnorm指标上都表现得更加出色。这表明它在聚类效果上更胜一筹,能够识别出更有意义的簇,同时在捕捉复杂对象的微妙特征方面也更具优势,就像一个更敏锐的观察者,能发现别人忽略的细节56。
- SARS-CoV-2 数据集应用:面对新冠疫情这个全球挑战,研究人员将 D-Mapper 算法应用到 SARS-CoV-2 冠状病毒 RNA 序列数据集的分析中。通过该算法,他们发现了病毒变异的垂直和水平进化过程。例如,在分析不同病毒谱系时,发现某些重要节点包含特定的变异株,如 XBB 和 JN.1 等,这些变异株在进化过程中的复杂关系通过 D-Mapper 图清晰地展现出来,为我们理解病毒的进化提供了重要线索78。
在研究结论与讨论部分,D-Mapper 算法展现出了显著的优势。它基于概率模型生成覆盖,能够获得更深入的拓扑见解和更好的聚类结果。与经典 Mapper 算法相比,在各种模拟实验中都表现更优,同时在分析 SARS-CoV-2 数据集时,揭示了病毒进化过程中复杂的垂直和水平关系,为病毒研究提供了新的视角。然而,研究也指出,该算法仍存在一些挑战,如最优组件数量的选择仍是一个难题。但这并不影响 D-Mapper 算法为拓扑数据分析领域带来的巨大变革,它为后续的研究和应用开辟了新的道路,就像在黑暗中点亮了一盏明灯,指引着科研人员在数据探索的道路上继续前行。