巧用掩码变分自编码器!解锁神经与行为数据条件分布建模新密码

【字体: 时间:2025年02月24日 来源:Cell Reports 7.5

编辑推荐:

  为解决神经科学中高维神经和行为数据关系提取难题,德国图宾根大学等机构研究人员开展用掩码变分自编码器建模条件分布的研究。结果实现相关数据联合降维等。推荐阅读,助力理解大脑与行为关系研究新突破12。

  
在神经科学的奇妙世界里,科学家们一直致力于探索大脑活动与复杂行为之间的神秘联系。随着科技的飞速发展,实验技术取得了巨大进步,能够对动物进行实时行为追踪,还能同时记录多个大脑区域数百个神经元的活动。这使得神经科学的数据集变得越来越庞大、复杂,不仅维度高,还包含多种模态,比如神经活动和行为,而它们之间往往存在着复杂的非线性关系。

面对如此复杂的数据,神经科学家们遇到了不少难题。一方面,他们希望通过神经编码和解码模型,搞清楚神经活动与行为之间的关系,也就是计算给定行为时神经活动的条件分布,以及反过来给定神经活动时行为的条件分布。但这些任务具有不确定性,需要用概率的方法来处理,可传统方法在这方面表现得不太给力。另一方面,为了从复杂的数据中提取有价值的信息,需要对数据进行降维,找到低维的表示形式,然而现有的降维方法也存在各种局限。

就像拼图少了关键的几块,这些问题让神经科学的研究陷入了困境。不过,来自德国图宾根大学机器学习科学系(Machine Learning in Science, University of Tübingen )等机构的研究人员没有放弃,他们决心攻克这些难题。经过不懈努力,他们在《Cell Reports》期刊上发表了一篇名为 “Modeling conditional distributions of neural and behavioral data with masked variational autoencoders” 的论文,为神经科学研究带来了新的曙光。

研究人员在这篇论文中提出了一种基于变分自编码器(Variational Autoencoders,VAEs)的创新方法,成功地实现了对神经和行为数据条件分布的建模。这一成果不仅实现了高维多模态数据的联合降维,还能在指定模态的情况下进行条件生成。而且,该方法在多种数据集和任务中都表现出色,为神经科学研究开辟了新的道路。

那么,研究人员是如何做到的呢?他们主要用到了以下几个关键技术方法:

  • 改进的 VAE 训练方法:通过结构化掩码(structured masking)修改经典 VAE 的训练方案和损失函数。在训练过程中,根据想要的条件分布随机掩蔽数据子集,然后在剩余数据上计算损失。这样,模型就能学习到不同条件下的分布,从而处理神经科学中常见的条件分布问题。
  • 模拟数据集验证:利用高斯潜在变量模型(Gaussian Latent Variable Model,GLVM)生成模拟数据集,这个数据集的条件分布和后验分布是已知的。通过在这个数据集上测试,评估训练方案和损失修改是否能让模型学习到正确的分布。
  • 校准测试评估模型质量:引入基于模拟的校准测试方法,评估模型生成的条件分布的质量。对于连续数据,计算置信区间来判断模型的校准情况;对于计数数据,计算累积分布函数(CDFs)来评估预测的放电率是否准确。

接下来,让我们一起深入了解一下这项研究的具体结果:

  1. 利用掩蔽训练估计条件分布:研究人员改进了经典 VAE 的训练方案,提出用结构化掩码来建模条件分布。在训练时,根据所需的条件分布指定结构化掩码,并随机选择掩码应用于数据子集,同时用固定值(如零或均值)替换被掩蔽的输入。通过这种方式,模型学会了在部分观测数据的情况下,正确推断潜在变量的分布,从而能够从感兴趣的分布中进行采样。这一方法具有很强的通用性,适用于多种条件分布和 VAE 设置123
  2. 在可处理的高斯潜在变量模型中推断条件分布:研究人员在模拟的 GLVM 数据集上进行实验,对比了掩蔽 VAE 和普通 VAE 在捕捉数据条件分布方面的能力。结果发现,普通 VAE 在处理部分观测数据时,无法准确捕捉真实的数据分布,其预测存在偏差,后验方差也过小。而掩蔽 VAE 则能够成功重建观测值,并对掩蔽值进行合理估计,准确推断出真实的后验分布和条件分布。通过校准测试进一步验证,掩蔽 VAE 的预测校准良好,而普通 VAE 则存在过度自信的问题456
  3. 果蝇行走行为中掩蔽关键点轨迹的概率条件建模:研究人员将掩蔽训练方法应用于果蝇行走行为的高维时间序列数据集。他们跟踪果蝇的 32 个身体部位,得到 64 维的时间序列数据,并构建了具有卷积和循环神经网络结构的 VAE。通过掩蔽对行走行为至关重要且具有特征变异性的身体关键点(如左侧的后爪、后胫跗关节等),模型能够准确地对这些掩蔽腿部进行条件建模。与普通 VAE 相比,掩蔽 VAE 产生的预测和不确定性估计更加准确,表明该方法适用于复杂的时间序列数据789
  4. 从神经群体活动中解码连续动作:研究人员在经典的猴子抓握任务中应用掩蔽训练方案,该任务具有连续的结构,挑战性较大。他们构建了一个适用于多模态数据(包括连续的行为数据和离散的神经脉冲计数数据)的顺序 VAE,并指定了编码和解码分布的掩码。实验结果表明,掩蔽 VAE 在重建行为轨迹时比普通 VAE 更准确,并且能够从条件分布中采样。虽然在该数据集上掩蔽 VAE 的校准并不完美,但仍然明显优于普通 VAE,说明这种方法可以应用于多模态数据集101112
  5. 在神经群体活动中编码连续动作:研究人员评估了训练好的模型在反向任务(根据二维行为轨迹建模初级运动皮层中 213 个神经元的高维条件分布)上的性能。结果发现,掩蔽和普通 VAE 都能大致捕捉到给定抓握轨迹的观察到的脉冲计数直方图,但掩蔽 VAE 在群体平均估计方面表现更优,其对数似然值更高,并且在预测时能显示出更高的变异性,反映出更高的后验不确定性。这表明掩蔽 VAE 在编码任务中也具有优势131415
  6. 从部分神经记录的潜在空间中解码:研究人员探索了潜在不确定性与下游任务性能之间的关系。他们训练了一个仅基于神经活动的 VAE,并设置不同的掩蔽水平。结果发现,随着掩蔽神经元数量的增加,掩蔽 VAE 能够增加其最具信息性潜在变量的潜在不确定性,而普通 VAE 则无法做到这一点。通过线性回归分析,发现掩蔽 VAE 的不确定性预测与解码性能之间存在负相关,即不确定性越高,解码性能越低,这符合预期。而普通 VAE 则没有这种关系,说明掩蔽 VAE 在处理部分神经观测数据时,能够更好地反映预测的不确定性161718

在研究的结论和讨论部分,研究人员总结了他们的主要成果。他们提出的用掩蔽变分自编码器建模条件分布的训练方法,成功地将降维、生成建模以及神经科学中的编码和解码分析联系起来。通过实验验证,这种方法能够让 VAE 准确地建模指定的条件分布,实现高维多模态数据的联合降维,并在不同的神经科学数据集和任务中表现出色。

此外,研究人员还强调了评估模型不确定性估计的重要性。他们引入的校准测试方法,为评估基于深度学习的降维模型的不确定性提供了有效的手段。在实际应用中,准确的不确定性估计可以帮助研究人员更好地理解模型的预测,判断何时可以信任模型的结果,何时需要进一步的研究。

不过,这项研究也存在一些局限性。比如,该方法依赖于少量指定的结构化掩码,无法考虑所有可能的组合掩码条件;在处理长时间尺度和不同时间尺度的相互作用时存在困难;VAE 本身存在一些问题,如潜在空间维度的选择缺乏原则性方法,可能导致模型性能下降;此外,该方法在处理离散数据的不确定性评估时也面临挑战。

尽管存在这些不足,但这项研究的意义依然不可小觑。它为神经科学研究提供了一种强大的工具,使得研究人员能够更好地分析高维多模态数据,揭示神经活动与行为之间的复杂关系。未来,研究人员可以进一步改进这些方法,拓展其应用范围,为神经科学领域带来更多的突破。就像为神经科学研究打开了一扇新的大门,让我们看到了更多探索大脑奥秘的可能性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号