在随机计算媒体访问控制(MAC)中,采用横向读取辅助机制实现快速有效比特收集,从而提升实时迁移神经网络(RTM DNNs)的能效

《IEEE Transactions on Computers》:A Transverse-Read-Assisted Fast Valid-Bits Collection in Stochastic Computing MACs for Energy-Efficient in-RTM DNNs

【字体: 时间:2025年12月18日 来源:IEEE Transactions on Computers 3.8

编辑推荐:

  轨道内存与随机计算结合的神经架构设计,提出基于横向读取(TR)的验证位收集方法,通过混合编码和异步调度优化,实现MAC单元高效运算,实验显示速度提升2.88-4.40倍,能耗降低1.26-1.42倍。

  

摘要:

将赛道存储器(RM)和随机计算(SC)相结合以构建超低功耗神经元架构看起来非常有吸引力。然而,这种组合一直存在一个致命的弱点:赛道存储器-磁隧道结(RM-MTJ),也称为累积并行计数器(APCs),在有效位收集方面的性能严重不足,无法满足能效高效的内存驱动深度神经网络(DNN)的需求。幸运的是,最近开发的一种横向读取(TR)技术可以通过检测单根纳米线上两个MTJ之间的畴壁电阻来实现轻量级的有效位收集。在这项工作中,我们首先提出了一种利用并行TR技术的神经元架构,专门针对RTM中的乘累加(MAC)单元设计了一种超快速的有效位收集方案,其中乘法操作本质上涉及两个操作数。为了解决由于TR银行数量有限而导致的完整随机序列存储问题,我们设计了一种混合编码和伪分形压缩方法,通过分段生成随机序列。为了克服并行早期终止导致的对齐问题,进一步设计了一种异步TR调度机制来规范向量化过程,使不同通道的有效位能够在多个RM堆栈中合并,从而实现向量级别的有效位收集。然而,TR的一个固有缺陷是相邻部分无法同时访问,这可能会限制并行向量乘法的吞吐量。因此,我们采用了交错数据放置技术,以充分利用不同向量之间的内存总线。实验结果表明,采用TR的SC-MAC架构相比CORUSCANT(最先进的基于RM的处理器架构)实现了2.88×至4.40倍的加速比,同时能耗降低了1.26×至1.42倍。

引言

随机计算(SC)是一种轻量级的计算方法,通过门级操作减少了面积和能耗[1]。然而,当前的SC解决方案由于二进制数(BN)和随机数(SN)之间的昂贵位转换过程[2],仍远未达到实际应用的水平。最近开发的赛道存储器(RTM)[3]提供了一种横向读取(TR)机制[4],可以全局查看内存中的序列,从而实现轻量级的有效位计数,克服了位转换问题。因此,本研究首次提出了一种基于RTM的处理架构,并结合TR技术来加速DNN的SC操作[5],[6],从而完全消除了繁琐的随机数到二进制数的转换过程。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号