基于1.58位FeFET的三元神经网络:通过权重-输入变换实现稳健存内计算

《IEEE Journal on Exploratory Solid-State Computational Devices and Circuits》:1.58-b FeFET-Based Ternary Neural Networks: Achieving Robust Compute-In-Memory With Weight-Input Transformations

【字体: 时间:2025年11月14日 来源:IEEE Journal on Exploratory Solid-State Computational Devices and Circuits 2.7

编辑推荐:

  为解决边缘人工智能平台在能效和面积限制下面临的硬件非理想性问题,研究人员开展了基于铁电晶体管(FeFET)的三元权重神经网络(TWN)存内计算(CiM)研究。通过设计三种FeFET-CiM阵列(1T、2T-diff、2T-PUPD)并引入静态权重变换(WT)和权重-输入变换(WIT)技术,显著提升了1.58-b 1T设计的推理准确性(73.61%),同时实现面积和能耗分别降低1.98倍和1.91倍。该研究为高密度、高能效的边缘AI加速器设计提供了重要技术路径。

  
随着深度学习神经网络(DNN)在各类应用中的广泛部署,其庞大的参数规模和计算需求对边缘设备的能效和面积提出了严峻挑战。传统冯·诺依曼架构中存储与计算单元分离的特性导致数据频繁迁移,成为性能瓶颈。存内计算(Compute-in-Memory, CiM)架构通过将存储与计算功能集成在同一单元,直接在内嵌存储器中执行乘累加(MAC)操作,有望大幅降低数据移动开销,提升能效。与此同时,神经网络权重量化技术,尤其是将权重压缩到三态(-1, 0, +1)的三元权重神经网络(Ternary Weight Neural Network, TWN),能在保持较高推理精度的前提下,显著减少模型存储 footprint 和计算复杂度。将CiM与TWN相结合,并采用新兴的非易失性存储器(Nonvolatile Memory, NVM)技术,如铁电晶体管(Ferroelectric Transistor, FeFET),被认为是实现高能效边缘AI加速器的有前景方案。
然而,在先进工艺节点下,CiM阵列的硬件非理想性(如互连线电阻引起的IR压降)会严重劣化计算精度。FeFET基CiM设计面临一个关键权衡:使用单个FeFET存储三态(1.58位)可实现高密度,但其抗非理想性能力较弱;而使用两个二进制(1位)FeFET构成的差分结构(2T-diff)虽更稳健,却以面积为代价。那么,能否在享受1.58位FeFET高密度优势的同时,获得媲美2T设计的计算稳健性?
为了解决这一问题,美国普渡大学的研究团队在《IEEE Journal on Exploratory Solid-State Computational Devices and Circuits》上发表了他们的研究成果。他们首先通过二维相位场(Phase-Field)模型精确模拟了FeFET的多域(Multidomain)极化效应,发现FeFET在饱和区的电流对VDS的灵敏度低于标准FinFET,这一特性有助于缓解IR压降的影响。基于此,他们设计并比较了三种FeFET基TWN-CiM阵列:1)基于1.58位FeFET的1T设计;2)基于1位FeFET的2T差分(2T-diff)设计;3)基于1位FeFET的2T上拉/下拉(2T-PUPD)设计。研究发现,标准的1.58位1T设计由于CiM输出分布较宽,在非理想性影响下推理精度严重下降(仅19.9%)。为此,他们提出了静态权重变换(Weight Transformation, WT)和静态权重动态输入变换(Weight-Input Transformation, WIT)策略,通过调整权重和输入的映射方式,将CiM输出分布向低值区域偏移,从而显著降低非理想性的影响。
研究人员采用的关键技术方法主要包括:利用二维相位场模型模拟FeFET的多域极化行为及其对电流特性的影响;开发了一个集成的推理模拟平台,该平台包含一个定制化的CiM阵列求解器,能够自洽地求解基尔霍夫电压/电流定律(KVL/KCL),并考虑硬件非理想性和器件非线性;基于7纳米工艺设计规则(ASAP-7 PDK)和工业参数对三种CiM阵列进行设计和布局面积评估;使用ResNet18网络在CIFAR100数据集上训练TWN,并评估不同CiM设计下的推理精度、能耗和面积。
II. 2-D PHASE-FIELD MODELING of FeFET: CAPTURING MULTIDOMAIN EFFECTS
该部分通过二维相位场建模分析了FeFET的特性。研究采用Hf0.5Zr0.5O2 (HZO)作为铁电材料集成到FinFET的栅栈中。模拟结果表明,FeFET可以被编程到不同的极化状态,从而在ID-VGS特性上呈现出多级存储能力。更重要的是,由于多域极化效应,FeFET在饱和区的输出特性(ID-VDS)显示出比标准FinFET更低的电流灵敏度,这意味着在发生IR压降时,FeFET的电流偏差更小,有利于提升CiM的稳健性。
III. FeFET-BASED CiM DESIGNS
本研究设计了三种基于FeFET的CiM阵列结构。1T设计使用单个FeFET存储三态权重(0, 1, 2),布局面积最小(约0.00518 μm2)。2T-diff设计使用两个1位FeFET以差分方式存储权重(-1, 0, 1),面积是1T设计的两倍(约0.01036 μm2),但通过共模噪声抵消具有更高的稳健性。2T-PUPD设计则使用一个p-FeFET和一个n-FeFET构成上拉/下拉分支,实现自然的电流相减,无需额外的数字减法器,但布局面积最大(约0.0155 μm2),且对偏置点的对称性要求极高,易受非理想性影响。所有设计的电流承载线(如位线BL、敏感线SL)均布设在电阻较低的M4金属层以减轻IR压降。
IV. WEIGHT AND INPUT TRANSFORMATION(WIT) FOR ROBUST 1.58-b 1T-FeFET-TWN-CiM
分析发现,标准1T设计的CiM输出分布较宽(输出值最高可达128),而高输出值对应的非理想性误差更大,导致精度严重劣化。为此,研究人员提出了WT和WIT两种变换技术。WT是一种静态权重变换,在软件层面对权重矩阵的列进行检查,如果列权重和大于64(即“2”状态多于“0”状态),则将该列权重变换为2-W‘,从而将列权重和上限限制在64以内。WIT则在WT基础上增加了动态输入变换,在推理过程中,如果输入向量中“1”的个数超过一半,则应用1-In进行变换。这两种变换的共同作用是将CiM输出分布向低值区域大幅偏移,减少了高输出值的出现频率,从而显著增强了1T设计的抗非理想性能力。
V. Results
A. Simulation Framework
研究团队开发了一个定制化的PyTorch基CiM阵列求解器,该求解器能够自洽地求解KVL/KCL,并利用从相位场模型导出的FeFET电流查找表(LUT)来精确模拟硬件非理想性和器件非线性对推理精度的影响。该模拟器经过SPICE验证,误差小于0.3%。
B. Inference Accuracy Analysis
在ResNet18 TWN于CIFAR100数据集上的推理精度评估中,2T-diff设计表现出色,精度达到76.4%,仅比软件基线(77.3%)下降0.9%。2T-PUPD设计在使用全字线激活(FWA)时精度仅为22.3%,但采用部分字线激活(PWA=32)后,精度显著恢复至71.3%,代价是延迟增加一倍。标准的1T设计(无WIT)精度极低,仅为19.9%。而应用WT后,1T设计精度提升至73.4%,进一步应用WIT后,精度达到73.61%,与2T-diff设计的差距缩小至2.79%以内,表现出强大的竞争力。
C. Hardware Analysis
硬件分析比较了达到可接受精度的三种设计(2T-diff, 2T-PUPD PWA32, 1T-WIT)的宏级面积和CiM能耗。2T-diff设计每列需要两个6位ADC和一个7位数字减法器。2T-PUPD设计虽然阵列面积最大,但每列只需一个7位ADC,无需减法器,总体面积小于2T-diff。1T-WIT设计的CiM阵列面积最小,且得益于WIT将列输出上限降至64,每列仅需一个6位ADC。考虑所有外围电路(包括用于后处理的复用器、加法器树和减法器)后,1T-WIT设计相比2T-diff设计,总体面积减少了1.98倍,CiM总能耗降低了1.91倍。
D. WT vs WIT
WT和WIT的效益与推理工作负载的特性相关。在本研究使用的4位输入(ReLU激活后In∈{0,1})且输入稀疏性较高的场景下,大部分输入向量本身∑In就小于32,因此WIT中的输入变换激活频率不高,主要的精度提升来自于WT。然而,对于输入稀疏性较低的工作负载(如二进制神经网络BNN),输入变换预计会带来更显著的改善。需要注意的是,WIT相比WT会引入额外的面积和延迟开销,因为∑In的计算需要在CiM操作之前完成,使得加法器树进入关键路径。
VI. CONCLUSION
本研究对基于FeFET的TWN-CiM设计进行了全面的比较分析。结果表明,虽然高密度的1.58位1T设计最初因硬件非理想性而精度低下,但通过引入创新的权重-输入变换(WIT)技术,可以有效地恢复其计算稳健性,使其推理精度与稳健的2T-diff设计相当。同时,1T-WIT设计在面积和能耗方面具有显著优势,为实现高能效、高密度的边缘AI加速器提供了一条可行的技术路径。该研究突出了器件-电路协同优化以及算法-硬件协同设计在应对先进CiM系统挑战中的重要性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号