一种基于电荷陷阱闪存突触阵列以及连续集成与重缩放神经元的完全集成式模拟处理内存系统

《Advanced Intelligent Systems》:A Fully Integrated Analog Processing-in-Memory System Based on Charge-Trap Flash Synapse Arrays and Successive Integration-and-Rescaling Neurons

【字体: 时间:2025年11月08日 来源:Advanced Intelligent Systems 6.1

编辑推荐:

  提出了一种基于电荷陷阱闪存(CTF)的模拟处理在内存(PIM)系统,集成CTF突触数组、CMOS驱动器和创新的SIR神经元电路,通过CoB设计实现大容量神经网络的能效计算,在MNIST数据集上达到72.93%的准确率。

  随着数据驱动型应用的不断增长,例如深度学习和人工智能,现代计算平台面临着前所未有的挑战。这些应用不仅需要强大的计算能力,还要求极高的能效。然而,传统的冯·诺依曼架构在这一过程中暴露出一个核心瓶颈:内存与计算单元之间的物理分离导致了数据传输的带宽限制。这一现象被称为“冯·诺依曼瓶颈”,严重制约了整体系统性能的提升。为了解决这一问题,研究人员提出了多种创新方案,其中“存内计算”(Processing-in-Memory, PIM)被认为是极具前景的解决方案之一。

存内计算的基本理念是将计算过程直接嵌入到内存阵列中,从而减少数据在内存和计算单元之间的传输需求。这一技术的核心在于选择合适的“突触设备”(synaptic device),即用于模拟神经网络中连接权重的存储单元。在众多非易失性存储器技术中,如阻变存储器(RRAM)、相变存储器(PCM)、磁随机存取存储器(MRAM)和铁电存储器(FRAM)等,电荷陷阱闪存(Charge-Trap Flash, CTF)因其成熟的互补金属氧化物半导体(CMOS)兼容制造工艺、良好的可扩展性和固有的多级存储能力而脱颖而出。CTF技术不仅可以实现高密度的存储,还能通过调节电荷存储量来精确控制电流输出,从而满足存内计算中对电流精度的要求。

在本研究中,团队提出了一种基于CTF突触阵列、CMOS架构的字线驱动器以及一种新型的连续积分与重标(Successive Integration and Rescaling, SIR)神经元电路的存内计算系统。该系统采用“芯片上板”(Chip-on-Board, CoB)的集成方式,将多个CTF突触芯片与神经元芯片和字线驱动器芯片进行互联,构建了一个具有可扩展性的大规模神经网络结构。这一架构的关键创新在于SIR神经元电路的设计,它能够在模拟域中完成逐位的积分与重标操作,从而避免了传统设计中对模拟-数字转换器(ADC)的依赖。相比传统的神经元电路,SIR神经元大大减少了ADC的使用次数,从而显著提升了系统的能效。

传统的神经元电路通常需要对每一位输入进行独立的ADC转换,这不仅增加了系统的硬件复杂度,还带来了较高的能耗。而SIR神经元则通过在模拟域中逐位进行电流积分和重标,最终仅需一次ADC转换即可得到完整的输出结果。这一设计策略不仅降低了对ADC的依赖,还提升了系统的线性度和计算精度。在系统测试中,SIR神经元的能效达到了179 pJ每图像,比传统设计的685 pJ每图像提升了近4倍。这一显著的能效提升是由于SIR神经元能够通过模拟电路实现位级的并行计算,从而避免了数字电路中的复杂逻辑运算和多次转换过程。

此外,SIR神经元的实现还依赖于一种特殊的电容分离技术,以确保在积分过程中能够稳定地处理每一位输入电流。在传统方案中,由于所有位的电流需要在一个电容中进行累积,因此需要较大的电容来存储所有位的信息,导致电路面积增加。而本研究中采用的电容分离策略,使得每个位的积分操作可以在独立的电容上完成,从而有效减少了电路面积。通过这种方式,SIR神经元不仅实现了更高的能效,还提升了系统的集成度和可扩展性。

为了进一步验证系统的性能,团队构建了一个196×10的神经网络结构,其中包含了七块CTF突触阵列芯片,每块阵列的尺寸为28×10。这些突触阵列通过字线驱动器芯片进行并行激活,确保了整个系统的高效运行。实验中,团队使用了修改后的MNIST数据集,对系统进行了手写数字分类测试。测试结果显示,该系统在与软件基线相同精度条件下,分类准确率达到72.93%,仅比软件实现低3.91个百分点。这一结果表明,基于CTF突触的存内计算系统在实际应用中具有很高的可行性。

系统的设计还充分考虑了可扩展性和模块化。通过将多个突触阵列芯片与对应的字线驱动器芯片进行互联,团队能够灵活地扩展系统的规模,而无需对核心神经元电路进行大规模的重新设计。这种模块化的设计思路使得系统能够兼容不同的突触技术,例如非CMOS架构的突触阵列芯片,从而实现异构集成。这种集成方式为未来的神经形态计算系统提供了更大的灵活性和扩展性,使得基于CTF技术的存内计算能够适用于更大规模的神经网络和更复杂的计算任务。

在硬件实现方面,团队采用了一种标准的180 nm CMOS工艺,将字线驱动器和神经元电路进行了高度集成。字线驱动器的主要功能是为突触阵列提供精确的电压脉冲,以确保每一位输入都能被正确地激活并进行计算。通过一个六级反相器链的缓冲结构,字线驱动器能够有效隔离驱动电路与突触阵列之间的干扰,确保信号的稳定传输。同时,团队还对系统中的关键组件进行了详细测试,包括突触阵列的电流特性、神经元的线性度以及字线驱动器的驱动能力。

在实际测试中,团队还发现,由于系统采用了多板多芯片的配置,板间连接和长PCB走线可能会引入额外的噪声干扰。为了评估这一影响,他们测量了信号与噪声比(SNR),结果显示在1 kHz频率下,SNR约为104 dB,而在100 MHz的系统运行频率下,SNR为70 dB。这些数据表明,尽管存在一定的噪声,但其水平仍处于可接受范围内。如果未来系统采用单板多芯片的配置,进一步减少寄生效应,系统噪声有望进一步降低,从而提升整体性能。

从更广泛的视角来看,这项研究不仅在技术层面实现了突破,还在系统设计和集成方面提供了重要的参考。传统的存内计算系统往往局限于单芯片实现,难以满足大规模神经网络的需求。而本研究提出的CoB架构为多芯片协同工作提供了可行的路径,使得存内计算能够在更复杂的计算任务中发挥作用。此外,CTF突触阵列的多级存储能力也使得系统能够支持更高的精度和更灵活的计算模式,为未来的高性能、低功耗计算平台奠定了基础。

在实际应用中,基于CTF突触的存内计算系统具有显著的优势。首先,其成熟的CMOS兼容制造工艺使得系统能够利用现有的半导体制造基础设施,从而降低研发和生产的成本。其次,CTF突触阵列的可扩展性使得系统能够适应不同规模的神经网络需求,无论是小型的感知模型还是大型的深度神经网络。此外,由于CTF突触阵列的电流特性较为稳定,系统在长时间运行中能够保持较高的计算精度,这对于需要长期运行的人工智能系统尤为重要。

尽管本研究在实验中取得了良好的结果,但仍然存在一些需要进一步优化的地方。例如,当前的系统采用了2位精度的突触权重存储,虽然能够满足基础的计算需求,但在更高精度的应用场景中可能需要更多的位数。此外,系统的噪声水平虽然在可接受范围内,但随着芯片数量的增加,噪声干扰可能会变得更加显著。因此,未来的系统设计需要在提高信号完整性的同时,进一步优化电路布局和封装技术,以减少噪声对计算精度的影响。

总的来说,这项研究为存内计算技术的发展提供了新的思路和实践路径。通过将CTF突触阵列、SIR神经元电路和CMOS字线驱动器集成到一个完整的系统中,团队成功构建了一个具有高能效和可扩展性的存内计算平台。这一平台不仅能够支持大规模的神经网络推理任务,还能够为未来的神经形态计算系统提供重要的技术基础。随着技术的不断进步,基于CTF突触的存内计算有望在更多领域得到应用,例如边缘计算、物联网和高性能计算,从而推动人工智能技术的进一步发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号