编辑推荐:
在视觉感知研究中,人类虽能轻松感知液体流动方向,但相关计算建模困难重重。研究人员拓展 V1-MT 模型探究此现象,发现加权平均模型比赢家通吃模型能更精准预测感知方向。这为理解视觉系统处理非刚性运动提供新视角。
在日常生活中,我们只需一眼,就能轻松判断出水流的方向,可别小瞧这个简单的动作,背后的原理却复杂得很。在视觉运动处理领域,人类视觉系统对各种运动的感知一直是研究的热点。以往研究发现,人们能根据视觉图像特征辨别液体的多种属性,比如从运动速度感知液体的黏度,从时空变形频率判断液体的透明度等。然而,一个关键问题却长期被忽视,那就是人类究竟是如何感知液体流动方向的呢?由于液体的非刚性本质,从动态视觉线索预测其流动方向极具挑战性,这也使得相关的计算建模工作困难重重。此前基于初级视觉皮层(V1)和中颞叶区域(MT)神经活动的模型,在解释刚性运动感知方面表现出色,但在液体流动这类非刚性运动感知上的能力却不明确。为了填补这一空白,来自 NTT Communication Science Laboratories 的研究人员开展了一项极具意义的研究 。
研究人员通过一系列精心设计的实验,得出了重要结论。他们发现,在预测液体流动方向时,加权平均模型的表现明显优于赢家通吃模型,这表明人类视觉系统在处理液体流动这类非刚性运动时,很可能采用了空间整合方向能量的加权平均策略。这一研究成果发表在《Scientific Reports》上,为理解视觉系统如何处理非刚性运动提供了新的视角,拓宽了 V1-MT 模型的应用范围,也为后续相关研究奠定了基础。
为开展此项研究,研究人员主要运用了以下关键技术方法:一是心理物理学实验,招募了不同数量的参与者(实验 1 有 14 人,实验 2 有 16 人 ),让他们观察经过处理的液体流动视频片段,并通过调整箭头方向报告感知到的液体流动方向;二是构建 V1-MT 模型,该模型包含提取方向能量(模拟 V1 特性)和提取运动能量(模拟 MT 特性)两个处理阶段,通过对模型的运算来预测液体流动方向 。
评估 V1-MT 模型的基本性能
研究人员首先用二维白噪声刺激评估 V1-MT 模型推断运动方向的能力。向参与者呈现不同方向移动的白噪声图案,分析 MT 神经元方向能量分布。结果显示,赢家通吃模型和加权平均模型都能较准确推断刚性噪声刺激的运动方向,二者绝对误差均约 2°,且差异无统计学意义。这表明在处理简单刚性运动时,两个模型都有不错的表现。
应用于液体流动感知方向的研究
实验 1 中,参与者观看时长 4 秒的液体流动视频片段并报告感知方向。研究人员用 V1-MT 模型分析所有片段,对比赢家通吃模型和加权平均模型的预测结果。结果发现,加权平均模型的平均绝对误差为 10.76°,而赢家通吃模型高达 48.00°,二者差异显著。这说明加权平均模型能更准确地捕捉液体流动的感知方向。不过,由于实验 1 中视频片段较长,无法确定结果是源于 MT 感受野内运动向量的空间整合,还是涉及时间累积的运动方向判断。
因此,研究人员开展了实验 2,将视频片段时长缩短至 0.167 秒 。结果显示,加权平均模型的中位绝对误差为 12.25°,赢家通吃模型为 40.83°,差异依然显著,且加权平均模型在两个实验中的表现无显著差异。这进一步证明,在感知液体流动方向上,加权平均模型更具优势,同时也表明运动向量的时间累积在判断液体流动方向中可能并非起主要作用。
研究结论表明,加权平均模型在液体流动方向感知中发挥着重要作用,而赢家通吃模型的预测结果与实际感知方向偏差较大。这是因为液体流动的复杂性使得依赖单个神经元输出推断方向并不可靠,视觉系统似乎采用加权平均策略来避免这种风险。不过,该模型也存在局限性,只能解释约一半视频片段的液体流动感知方向,对于另一半片段,绝对误差较高,这意味着仍有其他因素影响液体流动方向的感知,还需要进一步研究。
此外,本研究也存在一些不足之处。由于使用的是自然视频片段,无法确定液体的真实流动方向,难以判断参与者报告的方向和模型预测的方向哪个更准确。未来研究可采用物理模拟的液体流动刺激,以便更精确地评估感知准确性。同时,研究人员还指出,加权平均策略可能在热折射引起的图像扭曲、烟雾运动等非刚性视觉运动感知中也发挥作用。将 V1-MT 模型与特征跟踪等其他运动处理模型相结合,或许能提高对液体流动方向的计算估计精度,这也为后续研究提供了新的方向。总之,这项研究虽然只是迈出了探索液体流动方向感知机制的一小步,但却为该领域的进一步发展开辟了广阔的道路,有望推动视觉感知研究取得更多突破。