面向深度学习的存内计算与神经网络加速器创新设计与优化
《IEEE Transactions on Circuits and Systems for Artificial Intelligence》:2025Q3 Issue of the IEEE Transactions on Circuits and Systems for Artificial Intelligence
【字体:
大
中
小
】
时间:2025年11月12日
来源:IEEE Transactions on Circuits and Systems for Artificial Intelligence
编辑推荐:
本刊聚焦AI硬件前沿,推出8篇创新论文:A1-A4针对存内计算(CIM)瓶颈,分别通过RRAM阵列优化(BFP/FP8精度)、TrIM脉动阵列数据流、数字SRAM-CIM架构(DREAM-CIM)、自适应电荷域宏(IMAGINE)提升能效与面积效率;A5-A8侧重神经形态计算,涵盖模拟SNN射频定位、多精度FMA单元、随机/二值化SNN硬件设计及自适应LIF神经元,在FPGA/CMOS工艺下实现能效提升(最高5097 TOPS/W)与精度保障(SNN达96.7%),为边缘AI部署提供关键技术支撑。
随着人工智能技术在边缘计算和物联网领域的广泛应用,深度学习模型对计算硬件提出了极高要求。传统冯·诺依曼架构存在存储墙瓶颈,导致数据搬运能耗占据系统总能耗的60%以上。为解决这一问题,存内计算(Compute-in-Memory, CIM)技术应运而生,其通过在存储器内部直接执行计算操作,显著减少数据移动开销。然而,CIM硬件面临器件变异大、精度损失、能效受限等挑战,亟需从器件、电路到系统层面的协同创新。
本文聚焦IEEE Transactions on Circuits and Systems for Artificial Intelligence 2025年第3期发表的8篇前沿研究,全面展示了AI硬件领域的最新突破。研究人员通过多维度技术路径,针对不同应用场景优化神经网络加速器设计。在存内计算方向,既有基于电阻随机存储器(Resistive Random Access Memory, RRAM)的模拟计算方案,也有采用数字SRAM的灵活架构;在神经形态计算领域,则涵盖了从精确控制到随机计算的多种实现范式。这些工作共同推动了AI硬件向更高能效、更强鲁棒性和更广适用性的方向发展。
关键技术方法包括:采用22 nm FD-SOI工艺实现电荷域模拟计算(IMAGINE)、设计基于三角输入移动的脉动阵列数据流(TrIM)、开发支持混合精度的浮点融合乘加单元(FMA)、利用射频定位数据集进行神经形态系统验证(MATLAB仿真与消音室测量结合)等。
文章[A1]针对RRAM器件间变异(Device-to-Device Variation, D2D)导致的精度下降问题,提出块浮点(Block Floating Point, BFP)加速方案。通过对比FP8与INT4精度在单层单元(Single-Level Cell, SLC)和多层单元(Multi-Level Cell, MLC)阵列中的表现,发现FP8在显著D2D变异下测试精度比INT4提高1.2倍,而面积仅增加约1.3倍。该研究采用器件-电路-系统协同设计方法,为高变异容忍度的CIM硬件提供了新思路。
文章[A2]提出的TrIM数据流通过三角输入移动模式最大化本地输入复用,消除行驻留数据流固有的冗余访问。与最先进脉动阵列相比,TrIM实现内存访问次数降低约10倍,吞吐量提升最高达81.8%,寄存器使用量减少15.6倍。这种数据流优化特别适用于卷积神经网络(Convolutional Neural Network, CNN)加速,有效缓解了片上存储瓶颈。
文章[A3]开发的DREAM-CIM采用多子阵列权重缓冲宏增加并行度,直接内存读取结合流水线技术提升吞吐量,并以定制增量累加电路替代传统加法树。在22 nm工艺下实现5097 TOPS/W能效和3854 TOPS/mm2面积效率,在MNIST、YOLOv6和CIFAR-10数据集上分别实现0.1 mJ、0.2 mJ和11.02 mJ的每推理能耗,同时保持顶尖精度。
文章[A4]的IMAGINE accelerator采用端到端电荷域宏设计,支持1-8位精度,通过通道级阵列分割实现自适应电压摆动控制,并结合输入串行-权重并行累加策略。相比传统固定点积电压摆动的CIM-SRAM,该设计解决了数据依赖型削波和截断问题,在能量和面积效率上超越先前电荷域设计方案。
文章[A5]将布局后模拟特性融入脉冲神经元训练过程,在20 dB信噪比(Signal-to-Noise Ratio, SNR)下实现96.7%(仿真)和93.9%(测量)定位精度,即使在0 dB SNR仍保持鲁棒性能,系统功耗仅233 nW。这种结合MATLAB仿真和消音室测量的方法为低功耗物联网定位提供了新范式。
文章[A6]设计的可配置浮点融合乘加(Floating-point Fused Multiply-Add, FMA)单元支持8/16/32位混合精度运算,通过硬件复用和冗余单元剔除,在保持灵活性的同时提升能效,为深度学习工作负载的动态精度需求提供硬件支持。
文章[A7]将脉冲信号转换为基于索引的表征,缓解随机神经网络(Stochastic Neural Networks, SNN)信息密度低的问题。权重二值化SNN(Weight-Binarized SNN, WB-SNN)在MNIST上以更小硬件实现更高精度,CIFAR-10实验显示相比传统SNN和二值化神经网络(Binarized Neural Networks, BNN)在精度损失有限前提下显著节省内存。
文章[A8]在Artix-7 FPGA上实现包含突触前脉冲输入、自适应阈值和漏电率的自适应LIF神经元,相比最优当代设计减少切片使用量、LUT占用和延迟分别达44%、61%和60%。在MNIST分类任务中实现95%准确率,分类延迟降低60%,能效提升68%,为高速低功耗SNN部署奠定基础。
综上所述,本系列研究通过创新架构设计、精度优化和能效提升策略,显著推进了AI硬件技术的发展。RRAM CIM硬件对器件变异的鲁棒性设计、脉动阵列数据流的内存访问优化、数字/模拟CIM架构的能效突破、以及神经形态计算能效的显著提升,共同构成了边缘AI部署的关键技术基础。这些成果不仅解决了实际应用中的特定瓶颈,更通过多维度协同创新为AI硬件的未来发展指明了方向——即通过器件-电路-算法跨层优化,实现精度、能效与灵活性的最佳平衡。随着这些技术逐步走向产业化,有望显著加速AI在资源受限环境中的普及应用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号