面向超100 TOPS/W能效的并行处理二值神经网络存内计算加速器宏芯片设计

《IEEE Journal on Exploratory Solid-State Computational Devices and Circuits》:Binarized Neural-Network Parallel-Processing Accelerator Macro Designed for an Energy Efficiency Higher Than 100 TOPS/W

【字体: 时间:2025年12月02日 来源:IEEE Journal on Exploratory Solid-State Computational Devices and Circuits 2.7

编辑推荐:

  本文报道了一种基于存内计算架构的二值神经网络加速器宏芯片,该芯片采用创新的单端口存储器阵列设计,通过空间地址映射调制实现八并行乘加运算,无需多端口SRAM单元。研究证实,在能量最低点电压附近运行时,能效超过100 TOPS/W,同时并行处理能力显著提升处理性能。这项研究为高能效边缘计算设备提供了重要的硬件解决方案。

  
随着人工智能技术在边缘计算场景的快速普及,神经网络加速器的能效问题日益成为制约其实际应用的关键瓶颈。传统基于冯·诺依曼架构的处理器在执行神经网络推理时,需要频繁在存储器和运算单元之间传输权重数据,这种"内存墙"问题导致大量能量消耗在数据搬运而非实际计算上。存内计算技术通过将计算功能嵌入存储器阵列,从根本上解决了这一难题,成为当前低功耗人工智能芯片研究的热点方向。
在众多存内计算方案中,二值神经网络加速器因其权重和激活值仅需1比特表示,硬件实现复杂度大幅降低而备受关注。然而,现有数字域存内计算架构面临着一个突出挑战:要实现并行乘加运算通常需要多端口SRAM单元,但这会显著增加芯片面积开销,降低面积效率。如何在保持高能效的同时提升处理性能,成为研究人员亟需解决的关键问题。
东京工业大学的Shiotsu和Sugahara研究团队在《IEEE Journal on Exploratory Solid-State Computational Devices and Circuits》上发表的这项研究,提出了一种创新的并行处理存内计算宏芯片设计。该研究基于团队先前开发的具有超低电压保持和能量最低点操作能力的SRAM技术,通过巧妙的电路架构创新,成功实现了八并行乘加运算而无需使用多端口存储单元。
研究人员采用了几项关键技术方法:首先,设计了具有能量最低点操作特性的10管施密特触发器型SRAM单元(10TE/U),该单元通过三个功率开关和反馈晶体管偏压控制,能够在不同电压模式下工作;其次,提出了具有空间地址映射调制功能的存储器阵列架构,通过将阵列分为上下区域并采用 shuttle-cocked 地址映射方式,实现了单端口细胞的并行读取;此外,开发了完整的并行处理存内计算宏芯片,包含存储器阵列、外围电路以及多个乘加和激活单元。
电路配置
研究采用的EMP/ULVR-SRAM(能量最低点/超低电压保持静态随机存储器)10TE/U细胞通过三个功率开关选择性连接三种电源轨,实现不同的操作模式。该细胞在(VDDcell, VFB)偏压条件下可分别工作在SRAMNorm模式、SRAMEMP'模式和ULVR模式,其中EMP'操作电压为0.35V,超低电压保持模式电压为0.2V。
PPIM宏芯片架构
并行处理存内计算宏芯片的核心创新在于其存储器阵列设计。与传统多端口细胞阵列相比,研究提出的架构通过添加多条位线并结合空间地址映射调制,使单端口细胞能够实现并行读取操作。阵列被分为上下两个区域,每NMAC/2行进行shuttle-cocked地址映射,从而最小化因并行读取结构带来的面积开销。
性能分析
芯片采用65纳米绝缘体上硅技术制造,实验结果表明PPIM1宏芯片(使用改进的10T1E/U细胞)在0.35V工作电压下能效达到138 TOPS/W,在0.275V的真实能量最低点电压下能效进一步提升至164 TOPS/W。与单乘加单元的SPIM宏芯片相比,八并行架构的PPIM1宏芯片在保持相同存储器阵列大小的前提下,处理性能提升近八倍,而功耗增加相对有限。
全连接层网络性能
研究进一步分析了由多个PPIM1宏芯片配置的全连接层网络性能。当网络规模为1024个神经元节点、10层结构时,能量最低点操作下的系统能效显著优于传统1.2V操作。并行处理数Np的增加有效降低了等待处理宏芯片的泄漏功耗贡献,从而提升系统整体能效。建模分析表明,当NMAC在8-16范围内时,PPIM宏芯片可实现最优的性能-面积效率。
本研究成功开发了一种具有八并行乘加处理能力的二值神经网络存内计算加速器宏芯片,通过创新的单端口细胞阵列架构实现了高面积效率的并行读取操作。能量最低点操作被证明可同时优化能效和处理性能,全连接层网络配置展示出超过100 TOPS/W的能效和约10 TOPS的处理性能。这项研究为高能效边缘人工智能计算提供了可行的硬件解决方案,创新的并行处理存内计算架构对未来低功耗神经网络加速器设计具有重要指导意义。
该研究的突出贡献在于巧妙平衡了并行处理能力与面积效率之间的矛盾,通过电路级和架构级协同优化,实现了能效与性能的双重提升。能量最低点操作技术的应用不仅最大化了能量效率,还通过降低功耗为提升并行度创造了条件。超低电压保持模式则为系统提供了有效的功率门控手段,进一步优化了静态功耗。这种设计方法论对未来存内计算芯片的发展方向具有重要启示作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号