编辑推荐:
网络对齐在多领域意义重大,但现有方法存诸多缺陷。研究人员开展 “Probabilistic alignment of multiple networks” 研究,提出概率方法及算法。结果显示该方法优势显著,为网络对齐研究开辟新方向,助力多领域发展。
在科学研究的广阔领域中,网络对齐(Network Alignment)问题如同一条隐藏的线索,串联起众多学科。在化学领域,它助力科学家探寻分子间的结构相似性;在生物信息学里,能够通过对比不同生物的蛋白质 - 蛋白质相互作用网络(Protein - Protein Interaction Networks)来注释蛋白质;在计算机视觉中,可实现对变形物体的等价识别;在神经科学方面,有助于揭示大脑功能的病理变化和种间差异。然而,现有的网络对齐方法却存在不少 “绊脚石”。像二次分配问题(QAP)这类常用方法,虽然强大,但属于启发式方法,其建模假设不够明确,很难融入上下文相关信息。而且,大多数方法只能处理成对网络的对齐,在面对多个网络时就显得力不从心。在生物研究中,我们常常需要对齐多个不同的观测数据,传统方法的局限性就更加凸显了。
为了突破这些困境,来自西班牙罗维拉 - 维尔吉利大学(Universitat Rovira i Virgili)化工系的 Teresa Lázaro、Roger Guimerà 以及 Marta Sales - Pardo 展开了深入研究。他们的研究成果发表在《Nature Communications》上,为网络对齐领域带来了新的曙光。
研究人员提出了一种概率方法(Probabilistic Approach)来解决多网络对齐问题,并开发了相应的推理算法。该方法假设存在一个潜在的网络蓝图(Blueprint),观察到的网络是通过对蓝图的边进行有噪声的复制生成的。这一假设使得多网络对齐问题转化为寻找每个观察网络中节点到蓝图中节点的身份分配问题。通过这种方法,研究人员不再局限于寻找单一的最佳对齐,而是考虑整个对齐的后验分布(Posterior Distribution),这一创新点成为了该研究的核心优势。
在研究过程中,研究人员使用了多个关键技术方法。首先,他们基于概率模型构建了似然函数,通过贝叶斯规则(Bayes' Rule)得到模型参数的后验分布。其次,利用马尔可夫链蒙特卡罗(Markov Chain Monte Carlo,MCMC)算法对对齐空间进行采样。在采样过程中,通过引入平行回火(Parallel Tempering)技术提高采样效率,同时结合节点的属性信息(如组标签)来约束对齐的搜索空间。此外,研究人员还使用了多种真实和合成的网络数据集进行实验验证。
下面让我们详细看看研究结果:
- 概率公式化多网络对齐问题:研究人员将多网络对齐问题转化为寻找蓝图和节点映射的问题。通过定义似然函数和使用贝叶斯规则,得到了后验分布的表达式。这个表达式表明,后验分布依赖于所有网络与蓝图的边和非边的整体重叠情况。在不同的噪声条件下,研究人员分析了后验分布的性质,发现当噪声存在时,传统的基于单一最佳对齐的方法可能会出现错误,而考虑整个后验分布的概率方法能够更准确地匹配节点。
- 采样合理对齐空间:借助 MCMC 算法,研究人员可以对对齐空间进行采样,从而估计每个节点映射的概率。通过实验发现,在有噪声的观测中,单个最合理的对齐可能无法恢复节点的真实映射,但通过对多个可能对齐进行平均得到的每个节点的最可能映射,能够更可靠地恢复真实映射。研究人员还展示了如何利用节点属性信息(如组标签)来约束采样过程,进一步提高对齐的准确性。
- 在合成网络上验证概率方法:研究人员以秀丽隐杆线虫(C. elegans)的连接组为基准,进行了两组实验。在第一组实验中,对多个节点身份随机打乱的相同网络进行对齐,结果表明该方法能够完美对齐任意数量的网络。在第二组实验中,生成了多个有噪声的合成连接组,实验发现虽然全局基态可能与真实情况不一致,但利用节点的组标签信息能够显著提高对齐的准确性。与其他方法(如 Fast QAP 和多向核图匹配(KerGM))相比,该概率方法在恢复准确对齐方面表现更优,即使减少采样数量,其准确性仍然高于其他方法。此外,该方法还能够推断未注释节点的标签,为生物网络的注释提供了有力的工具。
- 概率方法正确对齐真实网络:研究人员在三个真实网络数据集上对方法进行了测试。对于秀丽隐杆线虫不同发育阶段的连接组,尽管网络观察结果与假设不完全一致,但该方法通过对采样对齐的平均,能够准确恢复 94% 神经元的真实身份,远高于 KerGM 的 56%。对于果蝇(D. melanogaster)幼虫大脑的左右半球连接组,利用神经母细胞谱系和锚点信息,该方法能够在 79.2% 的情况下恢复神经元的真实映射,同样优于其他方法。对于电子邮件通信网络,利用组织单位信息约束对齐,该方法在不同规模的网络中都能实现高准确率的对齐,恢复 95% 以上节点的真实身份,远超其他方法。
研究结论和讨论部分指出,该概率方法为网络对齐问题提供了一种全新的解决方案。其假设明确且可解释,能够轻松融入节点属性信息,解决了多网络同时对齐的难题。通过得到网络对齐的完整后验分布,该方法在处理有噪声的网络和推断未注释节点标签方面表现出色。尽管采样对齐空间在计算时间上可能比启发式优化方法长,但通过减少采样数量,其准确性仍优于其他方法。在面对更复杂的问题时,该方法的高精度足以弥补计算成本。这一研究成果为生物和社会科学领域中依赖网络对齐的研究开辟了新的道路,有望推动新一代强大算法的发展,为解决上下文相关的网络对齐问题提供有力支持。