NeuroScale:一种基于分布式时间同步的可扩展确定性神经形态架构

《Nature Communications》:A deterministic neuromorphic architecture with scalable time synchronization

【字体: 时间:2025年11月25日 来源:Nature Communications 15.7

编辑推荐:

  为解决当前神经形态系统因全局同步协议而面临的可扩展性瓶颈,研究人员开发了NeuroScale架构。该架构采用去中心化的非周期性同步机制,在确保计算确定性的同时,实现了系统性能的O(1)扩展。研究通过FPGA原型验证了其硬件-软件等效性,并在迷宫导航等应用中展现出优于TrueNorth和Loihi的显著性能优势。

  
想象一下,一个由数百万个“电子神经元”组成的庞大网络,它们需要像大脑一样协同工作。为了让这个网络能够稳定、可预测地运行,工程师们必须解决一个核心问题:如何让这些分散的“神经元”保持步调一致?传统的解决方案是使用一个“中央指挥”,即全局同步信号,它像节拍器一样,每隔一段时间就敲击一次,命令所有神经元同时前进。这种方案虽然简单,但随着网络规模的扩大,问题也随之而来。信号需要穿越整个芯片,其延迟会随着系统规模的平方根(O(√N))而增加,这就像在一个巨大的城市里,让所有人同时听到一个钟声,钟声的传播需要时间,城市越大,等待的时间就越长。这严重限制了系统向更大规模扩展的能力。
为了打破这一瓶颈,来自耶鲁大学和佐治亚理工学院的研究团队在《Nature Communications》上发表了一项名为NeuroScale的研究。他们提出了一种全新的、去中心化的神经形态架构,其核心思想是:只要直接相连的神经元之间保持同步,就足以保证整个网络计算的正确性,而无需进行全局同步。这就像在一个团队中,每个成员只需要与自己的直接合作伙伴协调进度,而不需要等待整个团队的指令,从而极大地提高了效率。
为了回答上述问题,研究人员开发了NeuroScale架构,并采用了一系列关键技术方法。他们首先设计了一种基于本地、非周期性消息交换的分布式同步协议,该协议通过“前进(advance)”和“完成(done)”两种消息来协调相邻核心之间的时间步进。其次,他们使用基于Hoare CSP的通信硬件进程(CHP)语言来设计异步数字电路,并利用异步电路工具(ACT)进行实现。此外,研究还通过ACT2FPGA自动化流程将异步设计转换为功能等效的Verilog模型,并在FPGA平台上进行原型验证。最后,他们构建了详细的硬件仿真模型,用于比较NeuroScale与TrueNorth和Loihi架构在可扩展性、同步行为和能耗方面的性能差异。
结果
时间同步
NeuroScale的核心创新在于其分布式同步协议。与TrueNorth的全局触发信号和Loihi的网格级屏障同步不同,NeuroScale允许每个核心独立地推进其模拟时间。每个核心的操作遵循一个严格的步骤序列:首先向所有输入核心发送“前进”消息,表明自己即将推进时间;然后等待来自所有输出核心的“前进”消息,以确保输出核心不会落后太多(由参数Tadv控制);接着更新神经元状态并产生脉冲;之后向所有输出核心发送“完成”消息;最后等待来自所有输入核心的“完成”消息,以确保已收到当前时间步的所有输入脉冲,然后才将本地时间步加一。这种机制确保了计算的确定性,同时避免了全局同步的开销。
确定性和FPGA原型
为了验证NeuroScale的确定性执行,研究人员开发了一个FPGA原型。他们运行了一个包含200个神经元的递归神经网络,并将FPGA实现的脉冲输出与软件模型和硬件仿真进行了比较。结果显示,三者产生了完全相同的脉冲时间序列,证明了NeuroScale架构在硬件和软件之间实现了1:1的等效性。这种确定性对于算法开发和调试至关重要,因为它将算法设计与底层硬件过程解耦,使开发人员无需处理硬件中的非确定性。
扩展性研究
为了评估NeuroScale的可扩展性,研究人员进行了一项扩展性研究,比较了NeuroScale、TrueNorth和Loihi在不同系统规模下的性能。结果显示,随着核心数量的增加,NeuroScale的挂钟时间(wall-clock time)保持恒定(O(1)扩展),而TrueNorth和Loihi的挂钟时间则随着系统规模的增大而增加(O(√n)扩展)。在包含16,384个核心的系统中,NeuroScale的性能比Loihi和TrueNorth快了四倍以上。此外,研究还发现,当系统规模增大但只有一小部分核心处于活动状态时,NeuroScale的优势更加明显,其挂钟时间依然保持恒定,而其他两种架构的性能则会下降。NeuroScale的性能优势在通信距离更近(高局部性)和脉冲活动更稀疏(低活动度)的情况下更为显著。
同步行为
NeuroScale的同步行为与基于屏障的架构有本质区别。在TrueNorth和Loihi中,所有核心必须同步推进时间,导致系统性能受限于最慢的核心。而在NeuroScale中,核心可以根据其局部活动水平自适应地推进时间。活动度低的核心可以“跑得更快”,而活动度高的核心则“跑得更慢”。这种异步性使得系统能够更好地适应网络动态,从而更快地完成模拟。
计算开销
与TrueNorth和Loihi相比,NeuroScale的分布式同步方法引入了适度的计算开销。每个核心的内存开销为4.51%,主要用于时间缓冲和本地同步管理。在16,384个核心的系统中,NeuroScale相对于TrueNorth和Loihi的能耗开销分别为24.97%和17.40%。这些开销主要来自额外的消息跳数和内存访问操作。然而,考虑到NeuroScale在性能上带来的显著提升,这种性能-开销权衡是相当有利的。
应用基准:迷宫导航
研究人员还通过一个迷宫导航问题来评估NeuroScale的实际应用性能。该问题要求智能体在包含不规则障碍物的迷宫中规划从起点到终点的最短无碰撞路径。结果显示,NeuroScale在迷宫规模不断增大的情况下,其性能始终优于Loihi和TrueNorth,并且随着系统规模的增大,其优势更加明显。
结论与讨论
本研究提出的NeuroScale架构,通过一种去中心化的分布式同步协议,成功解决了神经形态系统在可扩展性方面面临的根本性挑战。该架构不仅保证了计算的确定性,实现了硬件与软件的完全等效,更重要的是,其性能不再受限于全局同步带来的O(√N)延迟,而是能够随着系统规模的增大而保持恒定(O(1)扩展)。研究通过详细的硬件仿真和FPGA原型验证,证明了NeuroScale在可扩展性、同步行为和实际应用性能方面均显著优于现有的TrueNorth和Loihi架构。NeuroScale所采用的这种自适应时间表示方法,为神经形态算法的设计开辟了新的可能性,有望推动更大规模、更高效率的神经形态计算系统的发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号