
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于密集连接时空图神经网络与Q学习的微服务资源弹性伸缩优化研究
【字体: 大 中 小 】 时间:2025年05月29日 来源:Future Generation Computer Systems 6.2
编辑推荐:
针对云原生系统中突发负载下微服务资源动态伸缩难题,太原科技大学团队提出AGQ方案,通过密集连接STGNN(时空图神经网络)增强时空特征捕获能力,结合Q-learning实现动态资源调度。实验表明该方法在SLA约束下可降低23.7%成本开销,较现有技术减少15.2%的SLA违约率,为复杂微服务系统提供精准资源预测与调度新范式。
在云计算时代,微服务架构(MSA)因其灵活性和可扩展性成为构建云原生系统的首选,但动态负载下的资源管理却像一场"高难度杂技表演"。当Netflix的深夜流量高峰或双十一电商的瞬时请求袭来,传统基于阈值的伸缩策略就像拿着旧地图找新大陆——既无法捕捉服务间复杂的时空依赖,又难以平衡资源成本与服务等级协议(SLA)。更棘手的是,微服务系统如同活体器官,其服务拓扑和交互关系时刻变化,现有方法在预测精度和决策效率上捉襟见肘。
太原科技大学的研究团队在《Future Generation Computer Systems》发表的这项研究,犹如为微服务系统装上了"智能中枢"。通过将密集连接机制引入时空图神经网络(STGNN),模型能像CT扫描般层层穿透服务依赖的时空耦合特征;而融合Q-learning的决策模块则如同经验丰富的调度员,既参考历史数据又预判未来趋势。这种"预测+决策"的双引擎设计,最终实现了资源分配的毫米级精准度。
关键技术包括:1) 基于Prometheus-Istio的微服务监控体系采集实时拓扑与资源数据;2) 密集连接STGNN构建多跳时空特征传播网络;3) 以SLA违约率和资源成本为双目标的Q-learning策略优化。实验采用4节点Docker集群模拟真实场景,对比6种基线方法。
【性能监测与数据预处理】
通过Istio的Envoy代理捕获服务间调用链,将CPU/内存等指标转化为时空图节点特征。创新性地采用滑动时间窗处理非平稳数据,使STGNN输入维度从传统方法的3层扩展到7层密集连接。
【实验结果】
在突发负载测试中,AGQ的资源预测误差较LSTM-GCN降低41.3%,其"提前3步"的预测能力使SLA违约率稳定在5%以下。成本优化方面,通过Q-learning的探索-利用平衡,相比Kubernetes原生HPA节省23.7%资源开销。
【结论与意义】
该研究突破性地解决了三个关键问题:1) 通过密集连接STGNN捕获长程时空依赖,使预测模型具备"动态视力";2) 构建"历史经验+未来预测"的双重状态空间,增强Q-learning在动态环境中的决策鲁棒性;3) 首次实现SLA约束下资源成本与性能的帕累托最优。这些创新为6G时代边缘计算微服务架构提供了可复用的自治管理框架,其方法论更可拓展至智慧城市、工业物联网等复杂系统调度场景。正如论文通讯作者Jianghui Cai强调的:"AGQ的价值在于将神经网络的感知智能与强化学习的决策智能有机融合,这正是下一代云原生操作系统亟需的核心能力。"
生物通微信公众号
知名企业招聘