在随机计算媒体访问控制(MAC)中,采用横向读取辅助机制实现快速有效比特收集,从而提升实时迁移神经网络(RTM DNNs)的能效
《IEEE Transactions on Computers》:A Transverse-Read-Assisted Fast Valid-Bits Collection in Stochastic Computing MACs for Energy-Efficient in-RTM DNNs
【字体:
大
中
小
】
时间:2025年12月18日
来源:IEEE Transactions on Computers 3.8
编辑推荐:
轨道内存与随机计算结合的神经架构设计,提出基于横向读取(TR)的验证位收集方法,通过混合编码和异步调度优化,实现MAC单元高效运算,实验显示速度提升2.88-4.40倍,能耗降低1.26-1.42倍。
摘要:
将赛道存储器(RM)和随机计算(SC)相结合以构建超低功耗神经元架构看起来非常有吸引力。然而,这种组合一直存在一个致命的弱点:赛道存储器-磁隧道结(RM-MTJ),也称为累积并行计数器(APCs),在有效位收集方面的性能严重不足,无法满足能效高效的内存驱动深度神经网络(DNN)的需求。幸运的是,最近开发的一种横向读取(TR)技术可以通过检测单根纳米线上两个MTJ之间的畴壁电阻来实现轻量级的有效位收集。在这项工作中,我们首先提出了一种利用并行TR技术的神经元架构,专门针对RTM中的乘累加(MAC)单元设计了一种超快速的有效位收集方案,其中乘法操作本质上涉及两个操作数。为了解决由于TR银行数量有限而导致的完整随机序列存储问题,我们设计了一种混合编码和伪分形压缩方法,通过分段生成随机序列。为了克服并行早期终止导致的对齐问题,进一步设计了一种异步TR调度机制来规范向量化过程,使不同通道的有效位能够在多个RM堆栈中合并,从而实现向量级别的有效位收集。然而,TR的一个固有缺陷是相邻部分无法同时访问,这可能会限制并行向量乘法的吞吐量。因此,我们采用了交错数据放置技术,以充分利用不同向量之间的内存总线。实验结果表明,采用TR的SC-MAC架构相比CORUSCANT(最先进的基于RM的处理器架构)实现了2.88×至4.40倍的加速比,同时能耗降低了1.26×至1.42倍。
引言
随机计算(SC)是一种轻量级的计算方法,通过门级操作减少了面积和能耗[1]。然而,当前的SC解决方案由于二进制数(BN)和随机数(SN)之间的昂贵位转换过程[2],仍远未达到实际应用的水平。最近开发的赛道存储器(RTM)[3]提供了一种横向读取(TR)机制[4],可以全局查看内存中的序列,从而实现轻量级的有效位计数,克服了位转换问题。因此,本研究首次提出了一种基于RTM的处理架构,并结合TR技术来加速DNN的SC操作[5],[6],从而完全消除了繁琐的随机数到二进制数的转换过程。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号