TernaryGNNs:一种在CPU-FPGA异构平台上运行的高吞吐量、低面积开销的三元权重图神经网络(Ternary Weight GNN)推理框架

《ACM Transactions on Reconfigurable Technology and Systems》:TernaryGNNs: A High-Throughput, Area-Efficient Ternary Weight GNNs Inference Framework on CPU-FPGA Heterogeneous Platform

【字体: 时间:2025年11月12日 来源:ACM Transactions on Reconfigurable Technology and Systems

编辑推荐:

  针对图神经网络部署中的计算不均衡和资源利用率低问题,提出基于三进制量化的软硬件协同框架,将GNN推理转化为稀疏矩阵乘法,显著提升性能与能效。

  

摘要

近年来,图神经网络(GNN)在模拟非欧几里得数据结构和复杂关系方面取得了显著成功。然而,随着图规模和模型复杂性的不断增加,在各种硬件平台上高效部署GNN面临诸多挑战。GNN推理中的两种主要计算模式在稀疏性和计算密度方面存在显著差异,这导致工作负载分配不均,以及计算和内存带宽利用效率低下。此外,为应对片上资源限制而常用的子图划分策略常常引入写回开销和端口冲突,从而限制了整体系统吞吐量。为了解决这些问题,我们提出了TernaryGNNs,这是一种针对CPU-FPGA异构平台的高吞吐量、低面积成本的 ternary-weight GNN 推理框架。首先,我们提出了一种保持精度的高精度 ternary 量化方法,在模型精度降低不到 1.016% 的同时,实现了平均权重稀疏度为 81.1%,以及参数缩减率达到 94.71%。接下来,我们利用稀疏性将 GNN 推理重新表述为稀疏矩阵-密集矩阵乘法(SpMM)或稀疏通用矩阵-矩阵乘法(SpGEMM)计算,并提出了一种统一的稀疏优化处理器架构。最后,我们提出了一个全面的软硬件协同设计框架,以适应不断发展的多样化 GNN 模型架构。我们的框架支持九种主流 GNN 模型。与现有的最先进(SOTA)通用 GNN 处理器 GraphOPU 相比,TernaryGNNs 在硬件性能上平均提升了 2.79;在端到端性能上提升了 1.70;在面积效率上提升了 2.83。与领先的 overlay 加速器 FP-GNN 相比,其硬件性能平均提升了 6.73
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号