UDA-RCL:基于多模态数据与无监督域自适应的微服务根因定位方法
《IEEE Transactions on Services Computing》:UDA-RCL: Unsupervised Domain Adaptation for Microservice Root Cause Localization Utilizing Multimodal Data
【字体:
大
中
小
】
时间:2025年12月23日
来源:IEEE Transactions on Services Computing 5.8
编辑推荐:
为解决新部署微服务系统因缺乏历史异常数据而难以构建高精度根因定位模型的难题,研究人员开展了基于多模态数据(日志、指标、追踪)的无监督域自适应(UDA)研究。他们提出了一种名为UDA-RCL的方法,通过基于聚合的事件提取模块统一数据格式,利用多模态域对抗适应模块缩小系统间特征分布差异,并设计了一种嵌入异常传播规则的PageRank分类器。实验结果表明,该方法在监督学习和迁移学习场景下均取得了最佳性能,有效提升了根因定位的准确性和泛化能力。
在当今的互联网时代,微服务架构凭借其易于部署、扩展和更新的优势,已成为构建大型分布式系统的首选。然而,随着系统规模和复杂度的不断增长,故障的发生在所难免。每一次宕机都可能造成巨大的经济损失和用户体验下降。因此,当故障发生时,快速、准确地定位到引发问题的“罪魁祸首”——即根因定位(Root Cause Localization, RCL),对于保障系统稳定性至关重要。
为了精准定位根因,运维人员通常会收集三种类型的监控数据:日志(Logs)、指标(Metrics)和追踪(Traces)。日志记录了服务实例内部的事件;指标是反映系统状态的时序数据;追踪则描绘了服务间的调用关系。这三者构成了多模态数据,是定位根因的关键线索。
然而,面对海量且异构的多模态数据,人工定位根因不仅耗时耗力,还容易出错。因此,自动化根因定位技术应运而生。现有的方法主要分为无监督和有监督两类。无监督方法虽然不依赖历史数据,但定位精度有限;而有监督方法虽然精度高,却需要大量带有标签的历史异常数据来训练模型。这对于新部署的系统来说是一个巨大的挑战,因为新系统往往缺乏这些宝贵的“故障样本”。
为了解决这一矛盾,来自北京大学的研究团队提出了一种名为UDA-RCL的创新方法。该方法的核心思想是“借力打力”——利用成熟系统(源域)中丰富的带标签数据,来帮助新系统(目标域)构建根因定位模型,而无需新系统提供任何标签。这属于无监督域自适应(Unsupervised Domain Adaptation, UDA)的范畴。
UDA-RCL方法主要集成了三项关键技术:基于聚合的事件提取与编码模块、多模态域对抗适应模块以及PageRank分类器模块。首先,针对不同系统间多模态数据格式不一致的问题,该方法通过基于聚合的事件提取,将日志、指标和追踪数据统一转化为标准化的“事件”格式。其次,为了缩小源域和目标域之间特征分布的差异,该方法为每种模态的数据分别设计了一个域对抗适应模块,通过对抗训练的方式,让模型学习到的特征难以区分来自哪个系统,从而实现特征对齐。最后,针对异常样本稀疏导致传统分类器难以学习或泛化的问题,该方法设计了一个PageRank分类器。该分类器将异常传播的规则(即异常会沿着服务调用链传播)嵌入到神经网络中,直接输出服务实例成为根因的概率,从而在样本稀少的情况下也能有效捕捉异常传播模式。
为了验证UDA-RCL的有效性,研究团队在AIOps2021和AIOps2022两个公开数据集上进行了广泛的实验。实验结果表明,无论是在监督学习场景(源域和目标域为同一系统)还是在迁移学习场景(源域和目标域为不同系统)下,UDA-RCL方法均显著优于现有的无监督和有监督基线方法。消融研究进一步证实了该方法中各个组件的有效性。该研究为解决新系统根因定位的“冷启动”问题提供了一种有效的解决方案,相关成果已发表于《IEEE Transactions on Services Computing》。
本研究主要采用了以下关键技术方法:首先,利用基于聚合的事件提取模块,对来自不同系统的日志、指标和追踪等多模态数据进行标准化处理,将其转化为统一格式的事件序列。其次,构建了一个多模态域对抗适应模块,通过引入对抗性训练来缩小源域和目标域之间特征分布的差异。最后,设计了一个PageRank分类器模块,该模块将异常传播规则嵌入神经网络,用于在稀疏样本条件下进行根因排序。实验数据来源于AIOps2021和AIOps2022公开数据集,分别包含80和86个异常样本。
在监督学习场景下,UDA-RCL在AIOps2022数据集上的AC@1、AC@3和AC@5指标分别达到0.571、0.657和0.657,在AIOps2021数据集上分别达到0.469、0.781和0.813,其Avg@5平均得分(0.680)显著优于所有基线方法。在迁移学习场景下,UDA-RCL同样表现出色,在AIOps2022→2021和AIOps2021→2022两个迁移任务中,其Avg@5平均得分(0.598)远超无监督基线方法,证明了其强大的跨系统泛化能力。
消融研究验证了各模块的有效性。在监督学习场景下,将PageRank分类器替换为GAT或GAT+MLP分类器后,模型性能显著下降,证明了PageRank分类器在处理稀疏样本和系统泛化方面的优势。在迁移学习场景下,移除基于聚合的事件提取模块(w/o AE)或移除域对抗适应模块(w/o DA)均会导致模型性能大幅降低,证实了这两个模块对于实现跨系统知识迁移至关重要。
在AIOps2022数据集上的时间效率测试表明,UDA-RCL的训练时间(40个epoch)为1.23秒,推理时间为0.03秒,其效率与最先进的基线方法相当,甚至更优,证明了该方法在实际应用中的可行性。
参数敏感性实验表明,UDA-RCL对特征嵌入维度(e)、PageRank迭代阈值(eps)和损失函数权重调整值(beta)等超参数具有较好的鲁棒性。在合理的参数范围内,模型性能保持稳定,进一步验证了方法的可靠性。
本研究提出了一种名为UDA-RCL的无监督域自适应根因定位方法,旨在解决新部署微服务系统因缺乏历史异常数据而难以构建高精度定位模型的难题。该方法通过基于聚合的事件提取模块统一了多模态数据的格式,利用多模态域对抗适应模块缩小了系统间的特征分布差异,并设计了一种嵌入异常传播规则的PageRank分类器,有效缓解了稀疏样本下的学习困难。
实验结果表明,UDA-RCL在监督学习和迁移学习场景下均取得了最佳性能,显著优于现有的无监督和有监督基线方法。消融研究证实了该方法中各个组件的有效性。该研究为解决新系统根因定位的“冷启动”问题提供了一种有效的解决方案,并为利用多模态数据进行跨系统知识迁移提供了新的思路。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号