近似感知训练与MRAM存内计算架构协同优化的高效能神经网络推理
《IEEE Open Journal of Nanotechnology》:Approximation-Aware Training for Efficient Neural Network Inference on MRAM Based CiM Architecture
【字体:
大
中
小
】
时间:2025年11月19日
来源:IEEE Open Journal of Nanotechnology 1.9
编辑推荐:
本研究针对卷积神经网络(CNN)存在的高计算与内存需求问题,提出了一种近似感知训练(AAT)方法,通过线性(LAF)和二次(QAF)近似函数对权重矩阵进行压缩,生成近似函数系数(AFC)并直接用于网络训练。该方法在CIFAR-100数据集上对LeNet-5、VGG8、AlexNet和ResNet18等模型进行验证,在保持精度的同时显著降低了计算复杂度。进一步结合磁性随机存储器(MRAM)存内计算(CiM)架构,通过输入调制和AFC直接映射策略,减少了交叉阵列(crossbar)数量,在ResNet18模型中实现95%延迟降低和93.3%能耗优化,为资源受限设备部署高效神经网络提供了新思路。
在人工智能浪潮中,卷积神经网络(CNN)已成为图像分类、目标检测等任务的核心工具,但其庞大的参数量与计算需求严重限制了在移动设备、物联网终端等资源受限场景的应用。传统的模型压缩技术如剪枝(pruning)和量化(quantization)虽能减少模型体积,却常因忽略训练过程中的近似误差而导致精度显著下降。更棘手的是,传统冯·诺依曼架构中处理器与内存的分离设计,使得数据频繁搬运成为能效瓶颈,难以满足实时计算需求。
为解决这一矛盾,印度理工学院罗尔基分校的Hemkant Nehete等人提出了一种创新性的“近似感知训练”(Approximation-Aware Training, AAT)方法,并设计出基于磁性随机存储器(MRAM)的存内计算(Compute-in-Memory, CiM)硬件架构,相关成果发表于《IEEE Open Journal of Nanotechnology》。该研究通过将权重分组后用线性(LAF)或二次函数(QAF)近似,生成轻量的近似函数系数(AFC)矩阵替代原始权重,在训练中通过反向传播直接优化AFC,使模型在高压縮率下仍保持高精度。例如,在CIFAR-100数据集上,VGG8模型在权重分组数(Nw)=7时,内存占用降低64%,精度仅下降0.84%。
- 1.AAT训练机制:将全连接层权重矩阵按行分组,卷积层按核行分组,用LAF(W′m(n)=AFCm,n,0·n+AFCm,n,1)或QAF(W′m(n)=AFCm,n,0·n2+AFCm,n,1·n+AFCm,n,2)近似生成AFC矩阵;通过反向传播的梯度计算(如?L/?AFCm,n=δm·∑I′·?W′m(n)/?AFCm,n)优化系数。
- 2.CiM架构设计:将AFC矩阵直接映射至MRAM交叉阵列,通过输入调制(对共享系数的输入分组)避免权重重建,减少交叉阵列数量;采用自旋轨道转矩(SOT)器件提升读写速度(延迟0.5 ns)和能效(写能耗100 fJ/bit)。
- 3.硬件映射策略:全连接层AFC按输出神经元分列映射,卷积层将3D核展平为1D向量分块存储,支持多PE并行计算。
在MNIST和CIFAR-100数据集上的实验表明,AAT方法在高压縮率下显著优于传统剪枝与微调。例如,VGG8在Nw=9时,LAF压缩率达4.5倍,精度仍保持94.51%(传统方法仅43.87%);ResNet18在CIFAR-100上精度仅下降3.2%,但计算量减少29.1%。
通过AFC直接映射,CiM架构的交叉阵列数量大幅减少:LeNet-5、VGG8、AlexNet和ResNet18的阵列数分别降低54%、30%、67%和20%。结合SOT-MRAM器件后,ResNet18的推理延迟降低95%,能耗下降93.3%;AlexNet的能效优化达99.3%,面积效率提升74.4%。
在器件变异率10%的极端条件下,VGG8模型精度仅下降2.3%(LAF)至4.9%(QAF),表明AAT对硬件噪声具有一定容忍度。层间流水线设计进一步将AlexNet吞吐量提升至82.45万次推理/秒(SOT架构)。
本研究通过AAT算法与MRAM-CiM架构的深度协同,实现了神经网络在精度、能效和硬件成本间的优化平衡。其创新点在于:
- •算法层面:AAT将近似误差纳入训练循环,使模型自适应压缩过程,突破传统方法的高压缩-低精度瓶颈;
- •硬件层面:AFC直接计算策略减少数据重建开销,SOT-MRAM器件凭借纳秒级延迟与飞焦级能耗,为边缘侧实时智能计算提供可行路径。
该工作为存算一体芯片设计提供了新范式,未来可扩展至脉冲神经网络(SNN)等新兴模型,推动低功耗AI硬件的实际落地。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号