编辑推荐:
在网络分析中,现有边聚类算法忽视边权重且无法处理噪声边。研究人员开展 “Weighted Edge Clustering Adjusting for Noise (WECAN)” 模型研究。结果显示该模型能整合边权重、过滤噪声边,比传统方法更有效,为网络分析提供新工具。
在当今数字化时代,网络无处不在,从人际关系网到生物分子交互网络,它们如同复杂的拼图,隐藏着无数秘密。在网络分析领域,聚类就像是拼图的关键线索,能帮助人们发现复杂系统中隐藏的结构。社区检测作为聚类的特殊情况,一直备受关注,众多算法和模型应运而生,像 Kernighan-Lin 算法、Girvan Newman (GN) 算法等。然而,这些传统方法大多聚焦于节点聚类,忽视了边聚类的潜力。
实际上,在很多现实网络中,基于边的聚类有着独特优势。例如在科学合作网络里,研究人员之间的合作关系(即边)才是构建社区的关键,基于研究主题、学术领域等形成的合作关系,能更精准地划分社区。而且,节点聚类在处理节点属于多个社区的情况时,结果解释起来很困难。但现有的边聚类算法也存在严重缺陷,一方面,它们几乎都没有考虑边权重,而边权重可以体现节点间关系的强度,对聚类结果至关重要;另一方面,噪声边(那些不符合网络大多数边模式或结构的边)在网络中普遍存在,却没有算法能有效识别和处理,这会干扰聚类分析,导致结果不准确。
为了解决这些棘手问题,研究人员开展了关于 Weighted Edge Clustering Adjusting for Noise (WECAN) 模型的研究。该研究成果意义重大,它填补了当前网络边聚类方法的空白,为网络分析提供了更准确、更有效的工具,相关论文发表在《Computational Statistics 》。
研究人员采用了多种关键技术方法。在模型构建上,利用一般指数族建模方法灵活处理不同类型的边权重;在参数估计方面,运用变分贝叶斯广义期望最大化(VB-GEM)算法进行计算。在研究过程中,通过模拟不同噪声边比例的网络,以及分析纽约州患者转移网络的真实数据来验证模型效果。
研究结果如下:
- 模拟研究:研究人员模拟了包含 5 个聚类(1 个噪声聚类和 4 个非噪声聚类)的网络,并设置了不同比例的噪声边(0%、5%、10%、15%、20%)。在每个噪声边比例设置下,模拟 200 个网络,每个网络有 400 个节点和平均 7065 条边。通过对比,验证了 WECAN 模型在处理加权网络边聚类时,能够有效区分有意义的边和噪声边,相比现有方法有显著优势。
- 真实数据示例:研究人员运用 WECAN 模型对纽约州 2005 - 2016 年的患者转移网络进行分析。该网络中,节点代表纽约医院,边表示患者在医院间的转移情况。结果表明,WECAN 模型在真实数据上同样能发挥作用,展示了其在实际应用中的有效性。
研究结论和讨论部分指出,WECAN 模型是在 aLSEC 模型基础上创新发展而来,它融入了边权重信息,并增加了噪声成分。以往用阈值划分网络边的方法可能会扭曲网络的潜在结构,导致有偏差的结果。而 WECAN 模型克服了这些问题,在加权网络边聚类方面表现出色,为网络分析领域带来了新的思路和方法,有助于更深入地理解复杂网络的结构和功能,在流行病学、社会学、生物学等众多依赖网络分析的领域都具有广泛的应用前景,推动了相关领域的研究进展。