基于亚阈值操作3D交叉点存储器阵列的低能耗高精度神经网络加速器研究
《IEEE Transactions on Electron Devices》:3-D Crosspoint (3DXP) Memory Arrays With Subthreshold Operation for Low-Energy, High-Accuracy Neural Network Accelerators
【字体:
大
中
小
】
时间:2025年12月09日
来源:IEEE Transactions on Electron Devices 3.2
编辑推荐:
本文报道了研究人员针对存内计算(IMC)中因求和电流过大导致的能量效率低和计算精度下降问题,开展了基于亚阈值操作的3D交叉点(3DXP)存储器阵列研究。通过优化编程验证(PV)算法,将工作电流降低两个数量级,并实验演示了向量-向量乘法(VVM)和特征提取等关键操作。结合仿真验证了LeNet5模型在MNIST识别任务中的高精度和低能耗推理,为高能效AI硬件加速器的发展提供了新路径。
随着人工智能(AI)技术在各个领域的快速渗透,特别是大语言模型(LLM)和智能体AI的突破性进展,其对计算能力的需求呈现爆炸式增长。然而,这种增长也引发了人们对AI系统能耗可持续性的深切担忧。在此背景下,存内计算(IMC)作为一种新兴的计算范式,通过直接在存储器内部进行大规模并行的矩阵向量乘法(MVM)运算,显著减少了数据搬运,被视为提升AI计算能效的关键技术之一。非易失性存储器(NVM),如相变存储器(PCM)和阻变存储器(RRAM),因其高集成密度、多级单元操作以及可与后端工艺(BEOL)集成等优势,成为实现高精度IMC的候选技术。然而,这些存储器通常需要较大的读取电流,这不仅导致能量效率低下,还会因导线上的IR压降(IR drop)而引起计算精度损失。
近年来,三维交叉点(3DXP)存储器技术因其高密度集成(采用1个选择器/1个电阻器(1S1R)结构)和潜在的亚阈值操作(工作电流极低)特性,为IMC带来了新的希望。然而,要实现3DXP在AI加速器中的实际应用,仍需系统性地解决其面临的器件差异性、关态漏电流、噪声以及电导漂移(drift)等挑战,以确保计算的高精度和鲁棒性。发表在《IEEE Transactions on Electron Devices》上的这项研究,正是针对这些关键问题展开的深入探索。
研究人员为了验证3DXP在IMC中的应用潜力,主要采用了以下几项关键技术方法:首先,对3DXP器件(包含Ovonic阈值开关(OTS)选择器和PCM存储单元)进行了详细的亚阈值特性表征;其次,开发并优化了一种精密的编程验证(PV)算法,用于在亚阈值区域内精确设定存储器的低阻态(LRS)和高阻态(HRS);第三,在4x4的小规模3DXP阵列上实验演示了向量-向量乘法(VVM)操作,并采用了差分权重映射方案来补偿HRS的非零漏电流,以支持正负权重的表示;最后,通过结合器件实测的噪声、漂移和差异性数据,对用于MNIST手写数字识别的LeNet5卷积神经网络(CNN)进行了二进制(BNN)和三进制(TNN)量化下的推理精度仿真评估。
研究首先对3DXP存储器件的亚阈值特性进行了测量。结果表明,在选定的读取电压Vread下,器件在低阻态(LRS)和高阻态(HRS)的电流分别约为100 nA和10 nA,存储器窗口(ILRS/IHRS)大于10。这种远低于1 μA的工作电流是实现低能耗IMC的基础。
为了克服器件间差异性(D2D)和循环间差异性(C2C)对计算精度的影响,研究团队开发了一套程序验证(PV)算法。该算法在每次SET或RESET操作后都进行读取验证,确保单元电流落在目标窗口内。实验结果显示,经过PV优化后,LRS的C2C标准偏差σC2C降至约8 nA,D2D标准偏差σD2D降至约6.4 nA。总的读取电流变化主要受读至读(R2R)波动(σR2R≈ 14 nA,相对噪声约为15%)主导,该噪声被归因于非晶区域缺陷弛豫引起的1/f噪声。
研究在4x4阵列上实验演示了VVM操作。通过向选定的列同时施加二进制电压向量,并在公共的底电极(BE)测量求和电流。为了补偿HRS的非零漏电流,研究采用了差分方案,即使用两列器件分别映射正权重和负权重。实验结果表明,测量得到的求和电流与理想值具有很好的相关性,验证了二进制VVM操作的准确性。
为了进一步验证3DXP在更复杂计算任务中的能力,研究模拟了卷积神经网络(CNN)中的特征提取过程。使用3x3的3DXP子阵列,将不同的滤波器(如对角线、水平、垂直滤波器)权重编程到器件中,然后对MNIST手写数字图像进行卷积操作。实验结果与仿真结果吻合良好,证明了基于3DXP的二进制特征提取的准确性。
通过仿真研究了完整的LeNet5模型。分析表明,得益于亚阈值操作带来的极低电流,即使在512x512的大规模阵列中,IR压降对推理精度的影响也小于0.1%。在考虑实测的R2R噪声(σR2R/ILRS= 15%)情况下,三进制神经网络(TNN)和二进制神经网络(BNN)在MNIST任务上的分类精度分别达到约93.5%和91.5%。研究还考察了PCM和OTS器件中存在的电导漂移现象(HRS的漂移指数ν约0.08,LRS约0.04),发现通过调整批归一化(Batch Normalization)层的参数,可以在不重新编程权重的情况下有效补偿漂移带来的精度下降。
研究将3DXP与其他NVM技术(如STT-MRAM、SOT-MRAM、RRAM、FeFET等)进行了基准测试。结果显示,3DXP在平均读取电流(约0.055 μA)和单位读取能耗(约4.95 fJ,假设读取时间为50 ns)方面均表现出色,同时具备高集成密度的潜力。
综上所述,这项研究通过实验和仿真系统地论证了基于亚阈值操作的3DXP存储器阵列在存内计算应用中的可行性和优势。其核心结论在于,通过精密的PV算法,可以实现对3DXP器件电导状态的精确控制,从而在极低的工作电流下(比常规3DXP技术低两个数量级)实现高精度的向量-向量乘法和神经网络推理。这种低电流特性不仅显著降低了计算能耗,也极大缓解了大规模阵列中IR压降对计算精度的不利影响。同时,研究提出的差分权重映射和基于批归一化的漂移补偿策略,有效提升了系统的鲁棒性。与现有其他NVM技术相比,3DXP在能效和集成密度方面展现出强大的竞争力。这项工作为开发下一代高能效、高密度的AI硬件加速器提供了重要的技术支撑和实验依据,标志着向实现可持续AI计算迈出了坚实的一步。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号