TrIM:一种用于卷积神经网络的三角输入运动系统收缩阵列(Triangular Input Movement Systolic Array for Convolutional Neural Networks):数据流分析与建模

《IEEE Transactions on Circuits and Systems for Artificial Intelligence》:TrIM, Triangular Input Movement Systolic Array for Convolutional Neural Networks: Dataflow and Analytical Modelling

【字体: 时间:2025年11月12日 来源:IEEE Transactions on Circuits and Systems for Artificial Intelligence

编辑推荐:

  为解决卷积神经网络(CNN)因冯·诺依曼瓶颈导致的能耗问题,提出基于三角输入移动的Systolic Array(SA)数据流TrIM,通过局部数据利用最大化、权重移动最小化和冗余数据消除,使内存访问量减少10倍以上,同时降低寄存器需求并提升吞吐量至传统流式处理的81.8%。

  

摘要:

为了应对日益增长的计算复杂性和最先进AI模型的数据密集度,人们提出了新的计算范式。这些范式旨在通过缓解冯·诺伊曼瓶颈(即数据在处理核心和内存之间传输时的能耗问题)来提高能效。卷积神经网络(CNN)由于需要处理大量数据,因此容易受到这一瓶颈的影响。收缩阵列(SA)是一种有前景的架构,它能够通过高效利用处理单元(PE)来降低数据传输成本。这些处理单元根据特定的数据流(如权重固定数据和行固定数据)在本地持续交换和处理数据,从而减少对主内存的访问次数。在收缩阵列中,卷积操作可以通过矩阵乘法或滑动窗口的栅格顺序扫描来实现。然而,数据冗余是一个主要问题,它会影响面积、功耗和能源消耗。在本文中,我们提出了一种名为TrIM的新数据流方案,该方案基于三角形输入移动机制,并且与CNN计算兼容。TrIM能够最大化局部数据利用率,最小化权重数据的传输量,并解决数据冗余问题。此外,TrIM不会像行固定数据流那样导致显著的片上内存开销。与现有的收缩阵列数据流相比,TrIM的数据利用率更高,可减少约10倍的内存访问次数。另外,由于处理单元能够连续进行乘法和累加操作,TrIM的吞吐量更高(比行固定数据流高出81.8%),同时所需寄存器数量也更少(最多减少15.6倍)。

引言

如今,人工智能(AI)已经成为一种普遍的现象,它改变了设备辅助日常活动的方式。然而,为了持续满足高精度要求,AI模型正变得越来越依赖数据,尤其是深度神经网络(DNN)。实际上,DNN不仅需要大量的计算资源,还需要大量的内存来存储学习到的权重以及输入和输出数据[1]。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号