编辑推荐:
本文聚焦动物行为分析,对比 B - SOiD、BFA、VAME 和 Keypoint - MoSeq 四种无监督学习算法。研究从多方面评估算法性能,为研究者依需求选合适工具提供指引,助力神经科学中动物行为研究。
研究背景
在现代神经科学研究里,行为测试极为关键。通过将动物行为与大脑活动或操控相关联,研究人员能推断特定脑区、神经回路、细胞类型和基因的功能作用。同时,行为测试还用于验证帕金森病、阿尔茨海默病等神经疾病模型,评估新型药物疗效。
然而,传统行为测试存在局限性。它通常在受控实验室条件下分离单一行为成分,像用新物体交互时长衡量记忆功能,用开阔场测试中的运动活性指示运动障碍。这些测量方式受限,无法深入洞察动物行为的复杂性。
随着技术发展,姿势估计工具如 DeepLabCut 和 SLEAP 取得显著进展。它们能以前所未有的精度,在视频记录中精确追踪动物身体位置。不过,这些工具虽擅长运动追踪,却不能自动进行行为分类。此时,无监督学习算法应运而生。它无需预标记数据集,就能从姿势追踪数据中识别重复行为模式的聚类,减少观察者偏差,挖掘新行为模式,推动了计算神经行为学发展。本文正是基于此,对四种无监督学习算法展开深入研究。
研究方法
实验选用成年 C57BL/6J 小鼠,在标准饲养条件下饲养,实验经当地伦理委员会批准,遵循相关指令。实验采用开阔场测试,在 40×40 - cm 的 arena 中进行,用 Basler acA1920 - 155um 相机从顶部拍摄,每只小鼠记录 10 分钟,共分析 56 只小鼠。利用 DeepLabCut(版本 2.3.3)进行身体部位追踪,标记 11 个身体部位标记点(keypoints),采用 ResNet - 50 神经网络训练。
为选择各方法的最优模型,研究人员依据原论文指导方针进行操作。例如,VAME 分析使用默认 z_dim 参数,设置时间窗口为 15 帧;B - SOiD 采用默认最小聚类大小;Keypoint - MoSeq 使用 kappa = 1e?6;BFA 应用默认管道建议的 25 个聚类。同时,研究人员对 3 只小鼠的 3000 帧视频进行手动标注,标注行为包括右转、左转、行走等多种,由三位专家达成一致。此外,还创建模拟行为数据,验证外部有效性度量的假设。
研究结果
- 定性比较
- 特征空间:B - SOiD 对 100 - ms 数据点求和或平均创建特征,并用 UMAP 降维;BFA 计算多种特征,用滚动时间窗口处理数据,特征更丰富;VAME 和 Keypoint - MoSeq 先进行身体部位的自我中心对齐,VAME 用变分自编码器降维,Keypoint - MoSeq 用主成分分析(PCA)降维,且二者都处理数据噪声。整体数据转换量排序为 BFA < Keypoint - MoSeq < B - SOID < VAME 。
- 聚类算法:B - SOiD 用 HDBSCAN 聚类,能自动发现聚类、处理任意形状聚类和噪声;BFA 用 K - means 聚类,存在确定最优聚类数困难和处理非质心形状数据的问题;VAME 和 Keypoint - MoSeq 用隐马尔可夫模型(HMM),Keypoint - MoSeq 的自回归 HMM(AR - HMM)考虑时间依赖性,且 Keypoint - MoSeq 能直接从数据推断隐藏状态数量,更具适应性。
- 标签转移:Keypoint - MoSeq 在标签转移方面最强大,训练后的 AR - HMM 可直接应用于新数据集;BFA 用顺序神经网络,泛化能力强,但可能需微调;B - SOiD 用随机森林分类器,仅在数据集相似时有效;VAME 因依赖变分自编码器,特征空间特定于数据集,难以进行标签转移。
- 数据可视化和模式示例:B - SOiD 和 VAME 为每个行为模式提供单独视频,B - SOiD 可调整视频长度;Keypoint - MoSeq 同时显示多个示例,但可能不易解释;BFA 可视化工具最灵活,但使用难度较大。在数据可视化方面,各算法各有特色,BFA 提供多种可视化方式,Keypoint - MoSeq 能直观展示关键点骨骼。
- 技术方面:不同算法在数据采集视角、视频频率、关键点选择和环境因素考虑上存在差异。Keypoint - MoSeq 对不同记录设置适应性最强,B - SOiD 也能适用于多种设置,BFA 和 VAME 相对更受限。BFA 能方便地处理和添加环境因素参数,其他算法在这方面存在不足或有实验性限制。
- 局限性:这些无监督学习算法主要为啮齿动物开发,评估其在非啮齿动物中的可用性超出研究范围。在社交行为研究方面,只有 BFA 提供开放环境添加相关特征,其他算法直接添加特征可能产生意外结果。
- 定量比较
- 模式特征:VAME 和 BFA 需用户预先选择聚类数,B - SOiD 和 Keypoint - MoSeq 自动优化。实验中,B - SOiD 检测到 12 个聚类,Keypoint - MoSeq 检测到 24 个,BFA 为 25 个,VAME 为 40 个。B - SOiD 和 VAME 产生的行为模式持续时间最短,BFA 和 Keypoint - MoSeq 较长,且用户可在 Keypoint - MoSeq 和 VAME 中调整模式持续时间相关超参数。
- 不同样本的一致性:B - SOiD 在行为分割上最一致,但检测到的行为模式数量最少;VAME 聚类存在一些问题,产生过多不同动物中不常见的聚类;BFA 在一致性和分辨率之间表现中等。
- 有效性度量:研究采用轮廓系数(silhouette score)和修正兰德指数(MARI)评估聚类有效性。轮廓系数显示 B - SOiD 的数据点分离最好,VAME 和 BFA 得分一般,Keypoint - MoSeq 表现较差。MARI 表明 Keypoint - MoSeq 和 B - SOiD 聚类与手动标注最相似,BFA 表现中等,VAME 最低。
- 局限性:不同算法产生的聚类或行为模式差异大,难以直接比较特定行为;各算法对实验操作后行为表型变化的敏感性需具体情况具体分析,BFA 的 BFF 分析工具箱可用于此类分析。
研究结论
研究发现,四种无监督学习算法整体性能相当,但各有优劣,适用于不同实验场景和研究问题。B - SOiD 简单且可重复性高,适合分析简单行为范式;BFA 灵活性强,能考虑环境因素,适用于复杂实验设置。VAME 和 Keypoint - MoSeq 注重运动序列和结构,但 VAME 对噪声敏感,缺乏标签转移框架,受记录设置影响大。Keypoint - MoSeq 最稳健、通用,能有效处理噪声,提供高级可视化工具,其位置感知模型在未来空间相关研究中有应用潜力。研究人员应根据具体研究需求选择合适算法,本研究为行为神经科学领域的研究者提供了重要参考,助力其选择最恰当的工具开展实验研究。