面向边缘与物联网应用的自适应小面积低功耗神经学习单元(NLU)设计与实现

《IEEE Open Journal of Circuits and Systems》:NLU: An Adaptive, Small-Footprint, Low-Power Neural Learning Unit for Edge and IoT Applications

【字体: 时间:2025年11月13日 来源:IEEE Open Journal of Circuits and Systems 2.4

编辑推荐:

  本文针对边缘设备在线学习面临的内存与计算资源限制问题,提出了一种可重构的神经学习单元(NLU)。该设计通过动态控制单元、块分配引擎和神经计算流水线三大核心策略,显著提升了数据复用率和计算灵活性。在22nm工艺下实现的芯片面积仅0.015mm2,功耗0.379mW,相比RISC-V+FPU方案训练速度提升最高24.38倍,能效提升37.37倍。采用Google语音命令数据集进行片上训练,仅用40%数据即达到89.34%准确率,为边缘智能设备提供了高效的在线学习解决方案。

  
随着人工智能技术向边缘端延伸,设备端的持续学习能力成为实现自适应智能的关键。然而,边缘设备受限于有限的内存和算力,传统基于云端的训练模式难以满足实时性、隐私保护和弱网络环境下的需求。现有硬件加速方案往往面临两难困境:专用架构缺乏灵活性,通用方案又难以兼顾能效。特别是在线学习场景下,小批量或单样本训练使得向量/矩阵运算、元素级操作等多样化计算需求凸显,这对硬件设计提出了更严峻的挑战。
针对这一难题,德累斯顿工业大学的研究团队在《IEEE Open Journal of Circuits and Systems》上提出了一种创新性的神经学习单元(NLU)架构。该研究通过分析多层感知机(MLP)、门控循环单元(GRU)和脉冲循环神经网络(SRNN)等典型网络的训练过程,发现当批量大小为1时,向量-矩阵乘法、元素级运算和外积操作占总计算量的主要部分。基于这一洞察,团队设计了兼具灵活性和能效的专用加速器。
为实现这一目标,研究人员采用了三大关键技术方法:首先开发了动态控制单元(DCU)实现运行时重配置,其次通过块分配引擎(TAE)优化数据分块与内存访问,最后采用包含8个浮点乘加单元(FMA)的神经计算流水线(NCP)支持混合精度计算。研究还利用Google语音命令数据集(GSC)验证了片上训练可行性,通过混合精度策略在bfloat16格式下实现高效学习。
硬件架构设计
NLU采用三层架构设计:DCU负责指令获取与动态调度,TAE管理数据分块与内存访问优化,NCP包含输入缓冲、算术逻辑单元(ALU)和输出缓冲。特别值得关注的是ALU集成了8个支持随机舍入的bfloat16 FMA单元,通过子范数检测和稀疏处理机制降低功耗。架构支持20种基本指令,包括元素级标量-向量-矩阵运算、外积、向量-矩阵乘法和ReLU/STEP激活函数等。这种设计使得单个指令块即可完成复杂运算序列,显著减少处理器干预开销。
性能评估结果
在22nm FDSOI工艺下实现的芯片面积仅0.015mm2,集成于包含RISC-V处理器和256KB存储的片上系统(SoC)。测试显示,NLU在向量-矩阵乘法运算中峰值算力达367 MFLOPS,功耗仅0.379mW。与纯软件实现相比,MLP、GRU和SRNN训练分别获得19.47倍、24.38倍和12.94倍的加速比,能效提升最高达37.37倍。尤其突出的是,元素级运算加速比达81倍,这得益于硬件级的数据复用机制。
片上学习验证
研究团队采用三層SRNN网络结构(32输入-56隐藏-8输出神经元),基于e-prop学习规则在GSC数据集上完成端到端训练验证。通过混合精度策略,将前向传播和梯度计算部署于NLU,而损失函数(交叉熵)和优化器(ADAM)等精度敏感操作保留在RISC-V处理。实验结果表明,仅使用40%训练数据即可达到89.34%准确率,随机舍入策略相比就近舍入展现出更优的训练稳定性。
该研究通过算法-硬件协同设计思路,成功解决了边缘设备在线学习的核心痛点。NLU架构的创新性在于打破了传统GEMM加速器的局限性,通过可重构计算单元支持多样化神经网络训练任务。与现有方案对比,在能效指标(968 GFLOPS/W)上显著优于向量协处理器Vecim(230 GFLOPS/W),而面积效率更是达到RedMule GEMM加速器的42.7倍。这种小面积、低功耗特性使得NLU特别适合集成于多核系统或资源受限的物联网终端设备。
值得注意的是,当前设计仍存在进一步优化空间。例如激活函数支持范围可扩展至Sigmoid、Tanh等复杂函数,缓冲区和内部带宽的增强将带来更大吞吐量提升。未来通过多NLU芯片网络互联架构,有望支撑更复杂神经网络模型的分布式训练。这项研究为边缘侧持续学习提供了重要的硬件基础,对实现真正自适应的边缘智能具有里程碑意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号