面向异构GPU集群的深度学习模型资源感知划分与分配方法

《IEEE Transactions on Circuits and Systems II: Express Briefs》：Resource aware deep learning model partitioning and allocation for inference task in clusters with heterogeneous graphics processing units

【字体：大中小】 时间：2025年12月01日 来源：IEEE Transactions on Circuits and Systems II: Express Briefs 4.9

编辑推荐：

　　本文针对异构GPU集群中深度学习服务资源分配效率低下的问题，提出了一种资源感知的模型划分与分配方法（RAMPA）。该方法通过定义资源分配成本函数，优化模型划分策略和GPU分配方案，在满足服务性能要求（吞吐量、延迟和内存）的同时最小化关键资源占用。实验结果表明，RAMPA能显著提升集群可同时执行的DL服务数量，为云计算环境下的资源高效利用提供了新思路。

随着深度学习（DL）模型规模的爆炸式增长，云服务提供商纷纷构建异构GPU集群来支持各种DL服务。然而，当前GPU资源供不应求且成本高昂，如何在满足不同服务性能需求的前提下，最大化集群的资源利用效率成为亟待解决的问题。管道并行（Pipeline Parallelism）技术通过将大型DL模型划分为多个阶段并在不同GPU上执行，虽然能有效解决单GPU内存和算力不足的问题，但传统的资源分配方法往往只关注单个服务的性能优化，缺乏对集群整体资源状况的考量，容易导致关键资源被过度占用，从而限制未来服务的部署空间。

针对这一挑战，大阪大学的Akishige Ikoma等研究人员在《IEEE Transactions on Cloud Computing》上发表了题为“Resource aware deep learning model partitioning and allocation for inference task in clusters with heterogeneous graphics processing units”的研究论文。该研究创新性地提出了资源感知模型划分与分配方法（RAMPA），其核心思想是在保证服务性能的前提下，优先避免占用对未来服务部署至关重要的GPU和网络链路资源。

为系统解决这一问题，研究人员首先建立了DL服务性能与资源分配间的量化关系模型。他们精确建模了管道周期（Pipeline Cycle）、服务吞吐量（P_k）和执行延迟（T_k^r）如何受模型划分方案、GPU计算能力以及阶段间通信路径的影响。特别是对于包含前向和反向边的复杂操作图，论文给出了管道周期的详细计算公式（公式3），确保了性能预估的准确性。

在此基础上，研究团队定义了面向未来服务部署的资源分配成本函数。对于GPU，其成本（C_g^g）与GPU的计算能力（FLOPS, f_g）、内存容量（m_g）以及所在机架可用GPU数量（q_g）成正比（公式4）。这意味着性能越高、所在资源池越丰富的GPU，其分配成本也越高，从而引导优化算法在满足需求时优先使用“不那么重要”的GPU。对于网络链路，成本（C_l^l）则取决于该链路位于重要GPU对之间最短路径上的潜力（公式5）。通过将资源分配问题形式化为一个以最小化总分配成本为目标、以满足服务性能要求为约束的优化问题，RAMPA实现了从“单一服务性能最大化”到“集群整体服务容量最大化”的范式转变。

鉴于该优化问题属于NP难问题，研究人员采用蚁群优化（ACO）算法进行求解。该方法通过模拟蚁群的信息素机制，动态调整对GPU和路径的选择概率（公式7, 8），并引入性能要求检查环节以确保解决方案的可行性。ACO的适应性使其能够有效应对集群资源状态的动态变化。

在技术方法层面，本研究的关键创新点在于将模型划分（确定管道阶段数量）、GPU分配和通信路径选择三者协同优化。这与传统方法（如PipeEdge）仅固定划分策略后优化资源分配有本质区别。RAMPA通过ACO同时搜索最优的划分粒度、GPU组合及连接路径，并实时评估其是否满足服务的吞吐量（γ_k）、执行延迟（δ_k）和内存要求。

性能评估与结果分析

研究团队通过模拟实验在四种不同配置的GPU集群（基础集群、高带宽集群、高性能集群、大规模集群）和四种不同服务需求分布环境下，对RAMPA进行了全面评估。

集群资源配置对比

实验设置了包含多种NVIDIA GPU（如L4, V100, A30, T4）的异构集群，网络拓扑采用4x4或6x6的二维环面结构。高带宽集群将链路带宽提升至100Gbps，高性能集群则移除了低性能GPU（T4等），大规模集群则扩展了GPU的总数量。这种设计旨在检验RAMPA在不同资源禀赋下的适应性。

服务需求模型

实验模拟了六类具有不同性能特征的DL服务：高吞吐量的视频目标识别（YOLOS）和视频分类（VideoMAE）、低延迟的图像分类（Vision Transformer）和文本生成（Gemma2-2b），以及大模型AI聊天服务（Gemma2-27b, Qwen2.5-32B）。每类服务都有特定的吞吐量（tps）和执行延迟（s）要求，确保了测试场景的多样性。

RAMPA有效性的验证

与两种对比方法（PipeEdge-PE和未考虑划分数量的资源感知方法-NCAR）相比，RAMPA在几乎所有测试场景下都能成功分配更多满足性能要求的服务。

图7清晰表明，在相同需求环境下，RAMPA在基础集群中能支持约40个服务，显著优于PE和NCAR的最佳情况。更重要的是，NCAR的最佳表现依赖于特定的、预先固定的管道阶段数组合，而RAMPA通过动态优化划分策略，能够自适应地找到当前资源状态下最节约的部署方案。图8展示了RAMPA为服务所选择管道阶段数量的分布情况，其多样性证明了动态划分策略的必要性和优越性。

服务执行性能分析

尽管RAMPA不以最大化单服务性能为目标，但其分配方案在满足性能要求方面表现稳健。

图9和图10显示，对于高吞吐量服务，当PE采用2阶段划分时，其吞吐量高于RAMPA，但执行延迟也相应增加。RAMPA在大多数情况下能确保服务的吞吐量和延迟在要求阈值之内，虽然其峰值性能可能不及PE，但这恰恰体现了其在“满足需求”与“节省资源”之间的权衡智慧。

计算效率分析

RAMPA的计算复杂度主要取决于集群规模（|G|, |L|, |S|）和DL模型的复杂度（|V_a|），其复杂度为O(|V_a|²·(|G|+|L|+|S|)+|V_a|³)。在实际测试中，即使对于操作数超过40的大模型（如Gemma2-27b），在包含上千个GPU的大规模集群中，平均计算时间也能控制在20秒左右（图11），这在实际服务部署中是可接受的。

研究结论与展望

本研究提出的RAMPA方法，通过将深度学习模型划分、GPU分配和网络路径选择协同优化，并引入以未来服务部署为导向的资源成本模型，显著提升了异构GPU集群的整体服务容量。实验证明，RAMPA能够在不牺牲服务性能要求的前提下，比现有方法支持更多DL服务的同时运行。

该研究的重要意义在于为资源受限环境下的DL服务部署提供了新范式。它表明，在云计算多租户场景下，过于追求单个服务的极致性能可能导致集群整体效率低下。通过“资源感知”的优化视角，可以实现更可持续和高效的资源利用。

当然，RAMPA的有效性依赖于对DL模型在各类GPU上执行性能的准确预估。未来研究可探索更精确的性能估计模型，使其能适应更广泛的、未知的DL服务。此外，将RAMPA与集群调度器深度集成，实现资源的动态重配置，也是值得深入的方向。总之，这项研究为构建更智能、更高效的云原生AI计算基础设施奠定了重要理论基础。

热点排行

新闻专题