高阻值自旋轨道矩磁性存储器实现高精度高性能存内计算

《IEEE Transactions on Electron Devices》:High-Accuracy, High-Performance In-Memory Computing With High-Resistance Spin-Orbit Torque (SOT) Magnetic Memory

【字体: 时间:2025年12月11日 来源:IEEE Transactions on Electron Devices 3.2

编辑推荐:

  本文针对人工智能加速器中存内计算(IMC)面临的器件变异影响计算精度、外围电路面积与能耗高、非易失存储器高电压编程验证操作耗时、阵列内求和电流导致IR压降等问题,提出了基于高电阻面积积(RA)自旋轨道矩磁阻存储器(SOT-MRAM)的1位量化网络方案。研究通过SOT-MRAM阵列的统计表征和量化感知训练,证实该技术具备优异均匀性支持高推理精度、高电阻特性实现可忽略的IR压降非线性、快速编程能力保障低功耗重构,为边缘AI提供了数字式可重构IMC加速器解决方案。

  
随着人工智能技术的飞速发展,大语言模型(LLM)正在重塑AI领域格局,但训练和推理任务的计算成本引发了人们对AI能源可持续性的担忧。为了提升AI能效,量化深度神经网络(DNN)和存内计算(IMC)成为两大主流技术路径。量化DNN能显著减少模型规模并加速推理,而IMC通过内存中执行矩阵向量乘法(MVM)实现数据并行处理,有望将能效提升数个数量级。然而,现有IMC方案仍面临多重挑战:器件参数变异影响计算精度,面积和能耗巨大的外围电路,非易失存储器(NVM)的高压编程验证操作耗时,以及阵列内求和电流导致的IR压降问题——这些因素共同限制了计算精度和阵列规模扩展。
为此,研究团队将目光投向具有高电阻面积积(RA)特性的自旋轨道矩磁阻存储器(SOT-MRAM)。这项发表于《IEEE Transactions on Electron Devices》的研究,通过详尽的器件表征和神经网络仿真,系统论证了高RA SOT-MRAM在实现高精度、高性能IMC方面的独特优势。研究表明,该技术不仅能有效解决传统IMC的瓶颈问题,还为边缘AI加速器提供了新的技术路径。
关键技术方法包括:采用高RA SOT-MRAM阵列构建差分对单元实现三元权重(+1/0/-1)映射;利用二进制激活函数简化外围电路;通过统计建模分析器件间(D2D)变异、工艺尾部分布和编程错误率(WER)对推理精度的影响;建立IR压降解析模型评估阵列规模与寄生电阻的相互作用;与相变存储器(PCM)、三维交叉点(3DXP)、阻变存储器(RRAM)等新兴NVM进行基准测试对比。
器件与阵列表征
通过传输电子显微镜(TEM)分析显示,SOT-MRAM器件采用磁隧道结(MTJ)作为读取元件,重金属写入线作为写入元件的三端结构。
测量数据显示,平行态(P态)电阻RP呈现欧姆特性,而反平行态(AP态)电阻RAP随读取电压增加而降低。循环耐久性测试表明器件可承受超过1013次写操作,周期到周期(C2C)变异标准差仅为0.1%。
阵列R-V特性测试证实了低至5纳秒的快速编程能力。在MVM操作中,64个芯片的器件间(D2D)变异系数低至5%,隧道磁阻率(TMR)中值达170%,为高精度计算奠定了基础。
神经网络架构设计
研究针对全连接(FC)网络、LeNet5和VGG9三种架构,在MNIST和CIFAR-10数据集上评估二进制激活/三元权重神经网络(BATWNN)。
差分权重方案通过G+-G-实现正负权重,有效抵消了较大的关态电流。二进制激活函数用符号函数sign(x)简化了模数转换器(ADC)设计,大幅降低了外围电路开销。
推理仿真与分析
D2D变异性仿真表明,5%的变异系数对所有网络精度均无影响,宽网络因通道数增加表现出更强鲁棒性。
tailH)和低尾(ftailL)以及内在高斯分布.(b)、(c)和(d) 假设ftailH=ftailL=ftail时不同百分比值的仿真结果。在我们工艺的所有相关情况下,平均网络精度影响可忽略.'>工艺尾部分析显示,即使尾电流达到额定值三倍,尾部分布概率ftail<2%时精度影响仍可忽略。编程错误率(WER)测试表明,网络对低于5%的WER具有完全容忍度,支持无验证快速重构。
par和器件电导的关系.(a) 高RA,Gp=660nS.(b) 中RA,Gp=6.6μS.(c) 低RA,Gp=66μS。所有情况假设TMR=170%。'>IR压降建模证实,高RA器件在10Ω寄生电阻下可实现256×256大规模阵列无精度损失,而中低RA阵列因求和电流较大受IR影响显著。
存储器性能基准对比
与相变存储器(PCM)、3D交叉点(3DXP)、阻变存储器(RRAM)和自旋转移矩存储器(STT-MRAM)相比,SOT-MRAM在精度损失、读写能耗、编程速度和耐久性方面综合表现最优。
尽管单元面积较大,但计算应用中读出声学和暂存存储器(SPM)通常主导面积需求,高RA SOT-MRAM在可重构性和计算精度方面的优势更为突出。
研究结论表明,高RA SOT-MRAM通过其优异的均匀性、高电阻特性和快速编程能力,为量化IMC提供了理想硬件平台。该技术支持高精度计算、可忽略的硬件引起的性能下降、低能耗和快速重构,特别适用于变压器基LLM中注意力层等写密集型任务。与多柱或多堆栈SOT方案相比,本文提出的基础单元在工艺复杂性、变异控制和技术成熟度方面更具实用价值,为下一代边缘AI加速器奠定了技术基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号