面向忆阻神经网络的误差感知概率训练新方法:突破能效瓶颈的智能计算革新
《Nature Communications》:Error-aware probabilistic training for memristive neural networks
【字体:
大
中
小
】
时间:2025年12月13日
来源:Nature Communications 15.7
编辑推荐:
为解决模拟存内计算器件中随机特性与反向传播算法确定性权重更新间的失配问题,研究人员在《Error-aware probabilistic training for memristive neural networks》中提出误差感知概率更新方法(EaPU)。该方法通过基于器件写入噪声的概率化权重更新,将权重更新次数减少至<1%,在ResNet、Vision Transformer等模型上实现超过60%的精度提升,训练能耗降低50.54倍,为深度学习网络的模拟硬件训练提供了高能效解决方案。
在人工智能浪潮席卷全球的今天,深度神经网络(DNNs)已在图像识别、自然语言处理等领域展现出强大能力。然而,这些网络规模日益庞大,对计算硬件提出了极高要求。传统基于冯·诺依曼架构的图形处理器(GPUs)在执行这些任务时面临能效瓶颈,而模拟存内计算(ACIM)器件通过物理定律直接进行向量矩阵乘法(VMM),被视为突破这一瓶颈的曙光。
忆阻器作为ACIM的核心器件,虽具有非易失性、可调节电导等优势,但其固有的非理想特性如写入噪声(εcell)、弛豫效应等导致实际权重更新过程充满随机性。当算法要求的微小权重更新量(ΔGdesired)远小于器件噪声(εcell)时,学习信息严重丢失,训练过程变得极不稳定。现有硬件感知训练方法虽能部分缓解这一问题,但存在建模偏差、能耗高等局限。如何在保证训练精度的同时实现高效节能的忆阻器原位训练,成为制约其实际应用的关键挑战。
针对这一算法-器件失配难题,浙江实验室与复旦大学芯片与系统前沿技术研究所的联合团队在《Nature Communications》上提出了误差感知概率更新方法(EaPU)。该方法创新性地将概率思想引入权重更新过程,通过扩展更新幅度来匹配忆阻器的随机更新特性。
关键技术方法包括:1)基于伯努利分布的概率更新算法,通过设定阈值ΔWth(通常为SDεcell×Rwg)实现稀疏化更新;2)记忆编程方法(MP),结合二分搜索和步进更新策略应对器件时空变异;3)参考列映射技术,通过差分电导表示有符号权重,将器件利用率提升一倍;4)在180nm工艺制备的TiN/TaOx/HfOy/TiN结构1T1R忆阻阵列上进行硬件验证。
研究团队通过理论分析揭示,当器件电导范围较窄时,ΔGdesired过小会放大εcell的负面影响。即使当前最先进的编程精度达到1μS,εcell仍远大于算法更新量级。EaPU通过概率性地将小于阈值的更新量扩展为ΔWth,保留统计均值的同时显著提升更新幅度。
硬件实验采用包含编码器和解码器的去噪自编码器,使用MNIST数据集进行训练。通过参考列映射方法,仅需162个忆阻单元即可表示135个参数,器件利用率提升约50%。训练结果显示,硬件实验与无噪声软件模拟的结构相似性指数(SSIM)分别达到0.896和0.869,证实了忆阻器在学习非理想特性方面的能力。
在更复杂的超分辨率任务中,研究团队构建了SRNet×2网络,将图像分辨率提升两倍。实验结果表明,EaPU训练后的SSIM达到0.933,较基于脉冲更新方案提升超过0.6。更新脉冲数统计显示,EaPU+MP组合的Nup仅为0.7,较写验证方法降低90倍。
在ResNet34、SRResNet、ResNet152和Swin Transformer等深度网络上的仿真表明,当SDεcell达到2μS时,传统BP算法精度暴跌至1.1%,而EaPU仍保持61.33%的准确率。特别值得注意的是,ResNet152训练过程中的参数更新比率(Rup
能效分析显示,EaPU在180nm技术节点下,训练能耗较经典BP方案降低50.54倍,推理能耗降低35.51倍。当工艺缩放至16nm时,忆阻硬件相比GPUs可实现近6个数量级的能耗优势。与Tiki-Taka v2(TTv2)等先进训练方法相比,EaPU在保持学习稳定性的同时,兼容Adam等高级优化器,实现约30%的训练性能提升。
长期稳定性测试表明,EaPU训练后的RRAM系统无需额外补偿策略即可保持60小时以上的精度稳定,而PCM系统结合电导漂移补偿(GDC)后也能有效维持推理精度。
这项研究通过创新的概率化训练思想,成功解决了忆阻神经网络训练中的算法-器件失配核心难题。EaPU方法不仅展现出对更新噪声的强鲁棒性和对电导范围的不敏感性,更通过稀疏更新特性将参数更新量降低至千分之一以下,显著提升了器件寿命和系统能效。该工作为基于模拟器件的深度学习训练提供了兼具精度、效率和实用性的解决方案,对推动低功耗人工智能硬件发展具有重要里程碑意义。其兼容先进优化器、支持大规模网络训练的特点,为未来智能计算系统的设计开辟了新路径。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号