面向异构GPU集群的深度学习模型资源感知划分与分配方法
《IEEE Transactions on Circuits and Systems II: Express Briefs》:Resource aware deep learning model partitioning and allocation for inference task in clusters with heterogeneous graphics processing units
【字体:
大
中
小
】
时间:2025年12月01日
来源:IEEE Transactions on Circuits and Systems II: Express Briefs 4.9
编辑推荐:
本文针对异构GPU集群中深度学习服务资源分配效率低下的问题,提出了一种资源感知的模型划分与分配方法(RAMPA)。该方法通过定义资源分配成本函数,优化模型划分策略和GPU分配方案,在满足服务性能要求(吞吐量、延迟和内存)的同时最小化关键资源占用。实验结果表明,RAMPA能显著提升集群可同时执行的DL服务数量,为云计算环境下的资源高效利用提供了新思路。
随着深度学习(DL)模型规模的爆炸式增长,云服务提供商纷纷构建异构GPU集群来支持各种DL服务。然而,当前GPU资源供不应求且成本高昂,如何在满足不同服务性能需求的前提下,最大化集群的资源利用效率成为亟待解决的问题。管道并行(Pipeline Parallelism)技术通过将大型DL模型划分为多个阶段并在不同GPU上执行,虽然能有效解决单GPU内存和算力不足的问题,但传统的资源分配方法往往只关注单个服务的性能优化,缺乏对集群整体资源状况的考量,容易导致关键资源被过度占用,从而限制未来服务的部署空间。
针对这一挑战,大阪大学的Akishige Ikoma等研究人员在《IEEE Transactions on Cloud Computing》上发表了题为“Resource aware deep learning model partitioning and allocation for inference task in clusters with heterogeneous graphics processing units”的研究论文。该研究创新性地提出了资源感知模型划分与分配方法(RAMPA),其核心思想是在保证服务性能的前提下,优先避免占用对未来服务部署至关重要的GPU和网络链路资源。
为系统解决这一问题,研究人员首先建立了DL服务性能与资源分配间的量化关系模型。他们精确建模了管道周期(Pipeline Cycle)、服务吞吐量(Pk)和执行延迟(Tkr)如何受模型划分方案、GPU计算能力以及阶段间通信路径的影响。特别是对于包含前向和反向边的复杂操作图,论文给出了管道周期的详细计算公式(公式3),确保了性能预估的准确性。
在此基础上,研究团队定义了面向未来服务部署的资源分配成本函数。对于GPU,其成本(Cgg)与GPU的计算能力(FLOPS, fg)、内存容量(mg)以及所在机架可用GPU数量(qg)成正比(公式4)。这意味着性能越高、所在资源池越丰富的GPU,其分配成本也越高,从而引导优化算法在满足需求时优先使用“不那么重要”的GPU。对于网络链路,成本(Cll)则取决于该链路位于重要GPU对之间最短路径上的潜力(公式5)。通过将资源分配问题形式化为一个以最小化总分配成本为目标、以满足服务性能要求为约束的优化问题,RAMPA实现了从“单一服务性能最大化”到“集群整体服务容量最大化”的范式转变。
鉴于该优化问题属于NP难问题,研究人员采用蚁群优化(ACO)算法进行求解。该方法通过模拟蚁群的信息素机制,动态调整对GPU和路径的选择概率(公式7, 8),并引入性能要求检查环节以确保解决方案的可行性。ACO的适应性使其能够有效应对集群资源状态的动态变化。
在技术方法层面,本研究的关键创新点在于将模型划分(确定管道阶段数量)、GPU分配和通信路径选择三者协同优化。这与传统方法(如PipeEdge)仅固定划分策略后优化资源分配有本质区别。RAMPA通过ACO同时搜索最优的划分粒度、GPU组合及连接路径,并实时评估其是否满足服务的吞吐量(γk)、执行延迟(δk)和内存要求。
研究团队通过模拟实验在四种不同配置的GPU集群(基础集群、高带宽集群、高性能集群、大规模集群)和四种不同服务需求分布环境下,对RAMPA进行了全面评估。
实验设置了包含多种NVIDIA GPU(如L4, V100, A30, T4)的异构集群,网络拓扑采用4x4或6x6的二维环面结构。高带宽集群将链路带宽提升至100Gbps,高性能集群则移除了低性能GPU(T4等),大规模集群则扩展了GPU的总数量。这种设计旨在检验RAMPA在不同资源禀赋下的适应性。
实验模拟了六类具有不同性能特征的DL服务:高吞吐量的视频目标识别(YOLOS)和视频分类(VideoMAE)、低延迟的图像分类(Vision Transformer)和文本生成(Gemma2-2b),以及大模型AI聊天服务(Gemma2-27b, Qwen2.5-32B)。每类服务都有特定的吞吐量(tps)和执行延迟(s)要求,确保了测试场景的多样性。
与两种对比方法(PipeEdge-PE和未考虑划分数量的资源感知方法-NCAR)相比,RAMPA在几乎所有测试场景下都能成功分配更多满足性能要求的服务。
图7清晰表明,在相同需求环境下,RAMPA在基础集群中能支持约40个服务,显著优于PE和NCAR的最佳情况。更重要的是,NCAR的最佳表现依赖于特定的、预先固定的管道阶段数组合,而RAMPA通过动态优化划分策略,能够自适应地找到当前资源状态下最节约的部署方案。图8展示了RAMPA为服务所选择管道阶段数量的分布情况,其多样性证明了动态划分策略的必要性和优越性。
尽管RAMPA不以最大化单服务性能为目标,但其分配方案在满足性能要求方面表现稳健。
图9和图10显示,对于高吞吐量服务,当PE采用2阶段划分时,其吞吐量高于RAMPA,但执行延迟也相应增加。RAMPA在大多数情况下能确保服务的吞吐量和延迟在要求阈值之内,虽然其峰值性能可能不及PE,但这恰恰体现了其在“满足需求”与“节省资源”之间的权衡智慧。
RAMPA的计算复杂度主要取决于集群规模(|G|, |L|, |S|)和DL模型的复杂度(|Va|),其复杂度为O(|Va|2·(|G|+|L|+|S|)+|Va|3)。在实际测试中,即使对于操作数超过40的大模型(如Gemma2-27b),在包含上千个GPU的大规模集群中,平均计算时间也能控制在20秒左右(图11),这在实际服务部署中是可接受的。
本研究提出的RAMPA方法,通过将深度学习模型划分、GPU分配和网络路径选择协同优化,并引入以未来服务部署为导向的资源成本模型,显著提升了异构GPU集群的整体服务容量。实验证明,RAMPA能够在不牺牲服务性能要求的前提下,比现有方法支持更多DL服务的同时运行。
该研究的重要意义在于为资源受限环境下的DL服务部署提供了新范式。它表明,在云计算多租户场景下,过于追求单个服务的极致性能可能导致集群整体效率低下。通过“资源感知”的优化视角,可以实现更可持续和高效的资源利用。
当然,RAMPA的有效性依赖于对DL模型在各类GPU上执行性能的准确预估。未来研究可探索更精确的性能估计模型,使其能适应更广泛的、未知的DL服务。此外,将RAMPA与集群调度器深度集成,实现资源的动态重配置,也是值得深入的方向。总之,这项研究为构建更智能、更高效的云原生AI计算基础设施奠定了重要理论基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号