AI 助力揭秘兔子行为：视频中动作精准定位，开启动物研究新篇

【字体：大中小】 时间：2025年02月18日 来源：Scientific Reports 3.8

编辑推荐：

　　为解决动物行为视频数据标注难题，圣彼得堡电工大学等机构研究人员开展兔子行为视频时间动作定位研究。结果显示能高精度定位，还减少标注时间。推荐科研读者阅读，助您了解前沿 AI 动物研究成果。

在生物学研究的广阔天地里，动物行为的研究犹如一颗璀璨的明珠，吸引着众多科研人员的目光。动物的行为，就像是它们与环境对话的独特语言，不仅反映了它们对环境的适应策略，还在很大程度上决定了它们的生存和繁衍机会。想象一下，一只小兔子在野外，它的每一个动作，无论是警觉地竖起耳朵，还是小心翼翼地探索周围环境，都蕴含着生存的智慧。而准确解读这些行为，对于我们深入理解动物的生态习性、神经系统运作以及进化历程至关重要。

目前，在动物行为研究领域，视频记录成为了实验室研究中最常用的 “秘密武器”。通过它，科研人员可以细致地观察动物的一举一动。然而，这看似简单的视频记录背后，却隐藏着诸多棘手的问题。其中，最让人头疼的莫过于视频数据的标注工作。你能想象吗？研究那些持续时间不足一秒的行为事件时，科研人员需要逐帧分析动物的行为，确定行为模式的精确时间边界，这可是一项极其繁琐的任务。比如，要从一段视频中提取一个行为模式，且精确到 1 帧，对于一段 15 分钟的视频，就可能需要耗费大约 1 小时的时间。而且，不同的科研人员对行为模式的判断标准也很难统一，即使是经验丰富的观察者之间，也常常出现意见不一致的情况。更糟糕的是，人类在识别一些对动物来说可能意义重大的快速行为模式时，往往力不从心。这些问题就像一道道难以跨越的沟壑，严重阻碍了动物行为研究的进展。

为了攻克这些难题，来自圣彼得堡电工大学（Saint Petersburg Electrotechnical University “LETI”）等机构的研究人员展开了一场科研探索之旅。他们的研究成果发表在了《Scientific Reports》期刊上，论文题目是《Temporal action localisation in video data containing rabbit behavioural patterns》。经过不懈努力，他们成功开发出了一种基于视频数据的自动时间动作定位系统，就像是为动物行为研究打造了一把精准的 “手术刀”。这个系统能够以高达 0.978 的 F1 分数（一种衡量模型性能的指标，数值越接近 1 表示性能越好）实现自动时间动作定位，在确定感兴趣动作的起始和结束时间方面，时间精度更是达到了 100%。这一成果意义非凡，它不仅可以大大减少视频数据标注所需的时间和人力成本，还为那些需要高精度动物动作时间定位的研究提供了强有力的支持，比如研究动物的快速行为，或者从神经层面探究动物对各种动作和面部微表情的感知等。

在这项研究中，研究人员运用了多种关键技术方法。首先是数据收集，他们挑选了 4 只 “苏联龙猫” 品种的兔子作为研究对象，让这些兔子在适度食物剥夺的状态下，训练它们形成一种条件反射 —— 听到声音刺激后，用前爪按压踏板获取食物奖励，同时用摄像机以每秒 30 帧的速度记录兔子的行为。接着是数据处理，他们开发了一套基于单视频帧二分类的自动时间动作定位系统。在这个过程中，运用了数据预处理技术，将输入数据分为训练集和评估集，还对训练集进一步细分处理；利用迁移学习对预训练的人工神经网络进行定制化训练；最后通过计算 F1 分数等指标来评估模型的性能。

下面我们来看看具体的研究结果。

1. 最佳模型的选择

研究人员从 PyTorch Image Models（TIMM）库中挑选了 8 种预训练的图像分类模型，这些模型就像是参加比赛的 “选手”，各有各的特点。他们在训练过程中发现，随着模型参数数量的增加，训练和评估速度通常会下降，但也有例外，比如 EfficientFormer-L1 架构的模型虽然参数比 RegNetY-16GF 略多，但训练速度却是最快的。经过一系列测试，他们发现增加模型参数数量与分类质量的提升有关，而且 Transformer 架构的模型数据泛化能力稍强。最终，综合各项因素，他们选择了 BEiT-large v.2 模型，并且发现不进行视频帧归一化处理时，该模型的表现更优。这就好比在众多选手中，BEiT-large v.2 脱颖而出，成为了最适合这项任务的 “冠军”。

2. 平衡数据集和不平衡数据集的选择

在训练数据集中，不同类别的帧数量比例最初是 1:7，存在较大的不平衡。研究人员就像在做一场选择实验，他们尝试了三种训练场景：一是在平衡数据集上训练，但减少总帧数；二是在与第一种场景相同大小的不平衡数据集上训练；三是在最大可用大小的不平衡数据集上训练。结果发现，使用平衡训练数据集会对人工神经网络分析不熟悉演员动作的能力产生负面影响，而使用最大可用大小的不平衡数据集效果最佳。这就像是在选择一条通往成功的道路，最终发现最大可用大小的不平衡数据集这条路最顺畅。

3. 训练数据集中演员数量的选择

研究人员深知不同演员的数据对训练模型的重要性，就像不同的食材对烹饪出美味菜肴的影响一样。他们对比了三种训练场景，分别是使用来自 1 个演员、2 个演员和 3 个演员的数据进行训练。结果表明，不同的训练场景各有利弊。只使用一个演员的数据训练，网络对该演员动作的处理效果更好，但处理未知演员动作时可能会出现性能下降；随着训练数据集中演员数量的增加，模型的性能有所提升。最终发现，使用来自最多可用演员数量的数据进行训练的场景最有前景。这就好比做菜时，丰富多样的食材能让菜肴更加美味，模型训练也需要多样化的演员数据来提升性能。

4. 训练数据集中帧数的选择

为了确定成功训练模型所需的最佳数据量，研究人员进行了一场数据量探索之旅。他们在使用三个演员的数据训练模型时，改变训练数据集的大小，分别尝试了 1 千、2 千、4 千、8 千、16 千和 32 千帧。结果发现，增加训练数据集中的数据量确实能提高帧分类的质量，但随着样本量的增加，这种提升效果会逐渐减弱。通过进一步分析，他们确定了在当前基于分类的兔子时间动作定位案例中，16 千帧是最优的选择。这就像是在寻找一个最佳平衡点，16 千帧这个数据量能让模型在训练效果和资源投入之间达到最好的平衡。

5. 数据漂移条件下的模型评估

时间的变化在研究中是一个不可忽视的因素，就像时间会改变很多事物一样，它也可能影响动物的行为模式。研究人员考虑到这一点，引入了额外的数据，这些数据来自实验进行 10 个月后兔子的行为视频以及相应的手动注释。新的实验设置与之前有很多不同之处，比如实验箱的外观、喂食器和踏板的位置和外观、实验箱的照明、摄像机的位置以及兔子自身的状态等。研究人员通过改变训练数据集的数据组成，分别使用来自原始设置、原始与新设置按 3:1 比例混合、原始与新设置按 1:1 比例混合的帧进行训练，然后评估模型性能。结果发现，使用混合训练数据集会使原始设置数据的时间动作定位质量略有下降，但能提高对新设置数据的分析质量。这表明模型有一定的能力分析新数据，但在这个方向上的进展还受到许多因素的影响，比如行为模式的性质、实验设置的变化、收集数据的数量和质量、数据集平衡策略以及数据预处理程序等。这就像是在不同的环境中考验模型，虽然模型表现出了一定的适应性，但还有很多因素会影响它的发挥。

在研究结论和讨论部分，研究人员对自动算法和人类专家在事件检测以及事件起始和结束时间检测的时间精度方面进行了一致性评估。他们发现，所提出的模型在标注视频数据中的兔子站立行为方面表现出色，各项指标值均高于 0.97。通过制定严格的事件起始和结束标准，并应用于自动标注数据，他们发现算法检测到的所有事件起始和结束时间与人类专家的标注完全一致。而且，与两个人类专家之间的标注一致性（94%）相比，算法与人类专家之间的时间一致性达到了 100%，这充分显示出自动算法在标注大量视频数据集时的优势。

这项研究成果为动物行为研究领域带来了新的曙光。它不仅成功解决了视频数据中动作时间定位的难题，还大大提高了研究效率，降低了人力成本。同时，该研究也为后续进一步研究和开发这种方法指明了方向，比如可以拓展系统识别行为模式的范围，增加可识别的演员数量，在更多不同的环境中研究动物行为，甚至可以将研究拓展到动物的自然栖息地。相信在未来，随着研究的不断深入，这一成果将为我们揭示更多动物行为背后的奥秘，帮助我们更好地理解动物的世界。

1. 最佳模型的选择

2. 平衡数据集和不平衡数据集的选择

3. 训练数据集中演员数量的选择

4. 训练数据集中帧数的选择

5. 数据漂移条件下的模型评估

热点排行

新闻专题