ESCAN:基于GPU共享优化的级联神经网络在线推理效率提升框架

【字体: 时间:2025年06月16日 来源:Neural Networks 6.0

编辑推荐:

  针对级联神经网络(Cascade Neural Networks)在GPU共享场景下因早期退出机制(early-exit)导致的资源浪费问题,研究人员提出ESCAN框架,通过退出率感知的批量并行执行策略和资源分配算法,在PyTorch中实现19.53%的平均推理效率提升,为交互式在线服务提供低延迟、高精度的优化方案。

  

在人工智能技术深度赋能产业的今天,级联神经网络(Cascade Neural Networks)因其通过多模型组合平衡效率与精度的特性,已成为云推理服务的主流选择。这种网络通过早期退出机制(early-exit)动态调整子模型执行路径——当输入数据满足预设条件时提前终止计算,避免冗余推理。然而,当尝试利用多进程服务(Multiprocessing Services, MPS)等GPU共享技术提升设备利用率时,级联网络的子模型间关联性和不可预测的退出行为导致传统并行优化失效:盲目并行会因未执行的子模型造成资源浪费,而复杂的资源分配搜索空间又带来高昂调度开销。

为解决这一矛盾,湖南大学的研究团队在《Neural Networks》发表论文提出ESCAN框架。该研究首先揭示了级联模型在GPU共享场景下的独特挑战:1)子模型存在执行顺序依赖(intra-correlation);2)早期退出机制导致动态计算负载;3)现有多租户优化策略无法直接迁移。通过分析子模型退出率与资源分配的关系,团队创新性地将设备共享收益与计算浪费纳入统一优化目标。

关键技术方法包括:1)基于真实数据集构建包含CNN/Transformer等异构子模型的级联网络测试集;2)在PyTorch中实现多进程执行引擎与GPU资源共享模块;3)开发退出率感知的批量并行策略,将连续子模型分组并行;4)设计启发式资源分配算法,快速定位最优计算资源配置。实验采用NVIDIA 2080Ti GPU平台,对比全子模型并行等基线方案。

研究结果

  1. 级联模型特性分析
    通过对比串行与并行执行模式发现,当级联子模型退出率差异显著时,传统并行策略会导致高达37%的计算资源闲置。这表明优化需权衡设备共享带来的吞吐提升与早期退出引发的资源浪费。

  2. 设备共享优化瓶颈
    测试显示,直接应用MPS会使级联网络延迟增加22%,主因是子模型间同步开销与不可预测的退出行为。这验证了需开发专用执行策略的必要性。

  3. ESCAN框架设计
    提出的批量并行策略将退出率相近的子模型捆绑执行,减少无效计算;资源分配算法通过动态规划将搜索复杂度从O(n3
    )降至O(n log n),实现毫秒级方案生成。

  4. 实验验证
    在图像分类和自然语言处理任务中,ESCAN平均提升推理效率19.53%,资源分配方案搜索效率提升8.7倍。特别地,对于退出率差异超过40%的级联网络,优化效果尤为显著。

结论与意义
该研究首次系统揭示了级联神经网络在GPU共享场景下的优化规律,提出ESCAN框架通过三方面创新突破性能瓶颈:1)建立退出率-资源分配量化关系模型;2)实现计算负载与设备共享的动态平衡;3)提供轻量级PyTorch集成方案。其价值不仅在于提升单设备服务容量,更开创了面向特定网络架构的设备共享优化方法论,为边缘计算等资源受限场景提供重要技术参考。未来可扩展至多GPU集群调度等领域,进一步释放级联模型的工业应用潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号