《Nature Methods》CAVE:神经连接组注释版本控制引擎,开启大规模神经连接组学研究新征程

【字体: 时间:2025年04月10日 来源:Nature Methods 36.1

编辑推荐:

  在电子显微镜、图像分割和计算基础设施发展的背景下,大规模神经连接组数据集不断涌现。为解决数据校对和分析难题,研究人员开展了 CAVE(Connectome Annotation Versioning Engine)的研究。结果显示,CAVE 能支持大规模数据集的校对和灵活注释,意义重大,推动了神经连接组学研究进展。

  

在生命科学的微观世界里,对大脑神经连接的探索一直是科学界的热门话题。随着电子显微镜技术的进步,我们如今能够获取大规模且注释丰富的神经连接组数据集。这些数据集犹如一把把钥匙,有望解锁大脑神经回路的奥秘。然而,在这一探索过程中,诸多难题也接踵而至。

在大规模数据校对方面,手动校对自动化分割结果不仅耗时久,可能长达数年,而且在协作过程中,现有工具和工作流程仅支持校对完成后的静态导出,无法满足科学家们在数据持续变化时进行即时分析的需求。同时,分析校对过程中的数据也面临挑战,每一次校对编辑都会改变细胞标签和超微结构特征的分配,这就需要重新计算神经元的形态特征,而传统系统难以应对这一复杂任务。正是在这样的困境下,开展这项研究显得尤为必要,它旨在突破现有局限,为神经连接组学研究开辟新道路。


普林斯顿大学(Princeton University)、艾伦脑科学研究所(Allen Institute for Brain Science)等多个研究机构的研究人员共同开展了关于神经连接组注释版本控制引擎(Connectome Annotation Versioning Engine,CAVE)的研究。研究结果表明,CAVE 是一个强大的计算基础设施,为大规模数据集的校对和注释提供了可扩展的解决方案,能够实现任意时间点的快速分析查询,这一成果发表在《Nature Methods》上。


为开展此项研究,研究人员运用了多种关键技术方法。在数据存储和处理方面,他们基于 ChunkedGraph 进行优化,创建了 ChunkedGraph v2,通过改进存储方案和编辑处理方式,实现了对皮升规模(petascale)数据集的高效校对。在注释管理上,采用了独特的注释方案,结合传统数据库查询和 ChunkedGraph 对神经元编辑历史的跟踪,实现了对数据的快速查询。


下面详细介绍研究结果:


  1. 皮升规模重建的协作校对:研究人员对 ChunkedGraph 进行了两项改进。一方面,重新实现了 ChunkedGraph,创建了 ChunkedGraph v2,通过混合存储方案,将超体素(supervoxel)边缘压缩存储在传统存储上,八叉树层次结构存储在 BigTable 中,使成本降低了 6.5 倍以上,能够支持皮升规模的校对。另一方面,改进了用户编辑的处理方式,通过特定算法辅助分裂操作,添加多合并操作,提高了校对速度。在对 MICrONS65 数据集和 FlyWire 数据集的实际校对测试中,ChunkedGraph v2 展现出了良好的性能,如在 MICrONS65 数据集上,查看分割的响应时间中位数为 69.5 毫秒,95% 分位数为 199 毫秒;合并操作的中位数时间为 4116 毫秒,分裂操作的中位数时间为 5813 毫秒。

  2. 校对神经元的形态分析:利用 ChunkedGraph 树结构,研究人员创建了 L2-Cache 来缓存和重用网格及形态特征。对于 FlyWire 神经元和 MICrONS65 神经元,体积信息的计算分别能在客户端中位数时间 710 毫秒和 3176 毫秒内完成。同时,通过 L2-graph 和 TEASAR 算法的改进,能够快速生成拓扑正确的骨架,MICrONS65 和 FlyWire 神经元的骨架计算中位数时间分别为 5996 毫秒和 1171 毫秒。

  3. 快速分析查询的注释方案:CAVE 支持多种手动和自动来源的注释。用户可以根据不同的模式(schema)创建注释表,注释通过空间点与底层超体素绑定,再映射到根段。CAVE 还引入了参考模式,方便用户添加数据条目。在多个数据集(如 MICrONS65、FlyWire 等)中,用户已创建了大量注释表,涵盖了多种生物学信息。

  4. 任意时间点的查询:为解决因持续校对和注释导致的 “实时” 数据库不适合分析查询的问题,CAVE 结合物化快照和基于 ChunkedGraph 的神经元编辑历史跟踪。通过这种方式,CAVE 能够实现对任意时间点的分析查询。以 FlyWire 数据集为例,虽然查询时间会因查询类型和神经元编辑情况而有所不同,但这种查询方式为研究人员提供了极大的便利。

  5. 广泛传播的模块化开放设计:CAVE 遵循模块化和开放的设计原则,由一组松散耦合的服务组成,使用现有的基础设施和存储解决方案。它提供了多种访问接口,包括认证的 API、Python 客户端(CAVEclient)、适配的神经 glancer 查看器等,方便用户进行交互和分析。目前,CAVE 已助力多个数据集的校对和分析,来自全球的 500 多名用户进行了超过 400 万次编辑。


研究结论和讨论部分再次强调了 CAVE 的重要意义。CAVE 是一个开源软件基础设施,实现了分布式科学家群体对数据的并发校对、注释和分析,支持任意时间点的注释查询,为无缝分析提供了可能,也是目前唯一成功展示皮升规模神经连接组数据集校对的系统。虽然 CAVE 受到了先前工具的启发,但它在功能上有了显著的提升。随着神经连接组数据和生物成像数据的不断增长,对可互操作和灵活工具的需求日益迫切,CAVE 的开放 API 为拓展其功能提供了便利,能够满足不同社区的需求。


然而,CAVE 在扩展到未来更大规模数据集时仍面临挑战,如 ChunkedGraph 和注释存储方式需要进一步升级,以应对存储成本和性能方面的问题。同时,手动校对在数据集创建过程中仍然是成本高昂且耗时的步骤,未来需要进一步推进自动化重建技术的发展,而 CAVE 系统中丰富的数据资源有望为自动化校对提供支持。总体而言,CAVE 的出现为神经连接组学研究带来了新的契机,推动了该领域的发展,为我们深入理解大脑神经回路的奥秘奠定了坚实的基础。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号