
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于自适应连续性感知的MCM-GPU地址转换性能优化框架ACOPT研究
【字体: 大 中 小 】 时间:2025年08月05日 来源:Future Generation Computer Systems 6.2
编辑推荐:
本文推荐:作者团队针对后摩尔时代多芯片模块GPU(MCM-GPU)的统一虚拟内存(UVM)地址转换瓶颈,创新性提出ACOPT框架。该方案通过硬件设计自适应捕获连续多粒度页面,将多个页表项(PTE)合并存储,减少78%页表遍历(PTW)次数,降低70%的L1 TLB缺失延迟,最终实现平均1.54×加速比,为MCM架构性能优化提供新思路。
亮点与结论翻译:
亮点
• 首次系统分析MCM-GPU地址转换性能,量化不同阶段的延迟分布特征,揭示运行时内存访问请求间的连续性规律
• 提出ACOPT双重优化:通过集中调度L2 TLB缺失请求减少页表遍历器(PTW)等待时间,同时将连续物理页合并存入单个L2 TLB条目以提升命中率
• 实验证实ACOPT在13个应用中实现1.54×加速,页表遍历减少78%,L1 TLB缺失延迟降低70%,硬件开销仅轻微增加
MCM-GPU架构
典型4-GPM结构的MCM-GPU通过硅中介层实现芯片间互连,各GPU模块(GPM)配备命令处理器(CP)和直接内存访问(DMA)引擎,采用X-Bar互连架构提供高带宽低延迟通信。
地址转换特性分析
通过实验平台发现:L2 TLB缺失请求导致的PCIe传输延迟、PTW排队时间和页表遍历延迟构成主要瓶颈,且难以被掩盖。虚拟页和物理页均表现出显著的空间连续性特征。
自适应连续性感知优化
ACOPT创新性采用两种技术:1) IOMMU请求管理单元集中处理跨GPM的连续请求;2) 动态多粒度页合并技术,通过连续性检测算法将2n个连续页合并存储,显著扩展L2 TLB覆盖范围。
性能评估
对比实验显示ACOPT全面优于传统方案:在Rodinia测试集中,页表遍历次数降低3.8倍,L2 TLB缺失减少71.3%。敏感性分析证实其在不同GPM数量和页大小下均保持稳定优化效果。
结论
ACOPT通过挖掘地址转换过程中的空间连续性特征,有效解决MCM-GPU中由NUMA效应和PTW延迟导致的性能瓶颈,为异构计算架构的内存管理提供新范式。
生物通微信公众号
知名企业招聘