编辑推荐:
研究人员为探究 configural processing 在视觉识别中的作用,开展相关研究,发现其有助于提高识别鲁棒性,意义重大。
在日常生活中,我们能轻松识别不同角度、大小的物体,可你是否想过大脑是如何做到的呢?在视觉识别领域,configural processing(构型加工,指对物体各组成部分空间关系的感知)对物体识别至关重要,但人们对其功能优势和潜在机制却知之甚少。以往研究虽表明它在复杂物体识别中发挥作用,像专家识别鸟类、汽车等,但 configural processing 为何比逐个分析局部特征更具优势,尚无定论。而且,此前关于它的诸多假设也缺乏有力的计算验证。为了深入了解这些问题,韩国大学、麻省理工学院和富士通美国研究院的研究人员展开了深入研究,相关成果发表在《Communications Biology》上。
研究人员运用了深度学习模型、构建视觉刺激集、设计不同任务以及进行多种分析方法等关键技术。他们构建了由字母模式组成的视觉刺激集,设计了局部任务、构型任务和局部加构型任务,通过这些任务来区分局部特征和构型特征的作用。同时,使用了多种神经网络架构,包括前馈卷积神经网络(如 ResNet18、ResNet34 和 ResNet50)、递归卷积神经网络(如 CORnet-S、BLnet、BLTnet 和 ConvLSTM)以及视觉 Transformer(ViT-B-16),并对模型进行了两阶段训练。此外,还进行了层神经元敏感性分析和表征相似性分析等,从不同层面探究神经网络对局部和构型线索的处理机制。
下面来看看具体的研究结果:
- 深度神经网络可有效捕捉构型线索:研究人员利用 EMNIST 数据集创建复合模式,设计了专注于局部特征处理的 “局部任务” 和关注构型处理的 “构型任务”。通过单样本四向分类范式评估神经网络在不同任务下的表现,结果发现神经网络能有效处理局部任务,利用局部特征进行识别;在构型任务中,虽初始表现一般,但随着训练类别的增加,网络能有效利用构型线索,达到较高准确率。这表明神经网络在不同变换条件下,对构型和局部特征线索都能有效利用。
- 构型处理独立于单个局部特征:研究人员进一步使用由新字母组成的模式测试网络性能。结果显示,在局部任务中,网络性能显著下降,但仍高于随机水平;而在构型任务中,性能几乎不变。这突出了构型处理独立于局部特征,在局部特征变化时,构型线索仍能维持稳定的识别性能。
- 构型线索比局部特征线索更受青睐:研究人员引入 “局部加构型任务”,让网络在同时拥有局部和构型信息时进行选择。结果发现,网络在该任务中表现出对构型线索的偏好,在构型任务中的准确率更高。单神经元分析和表征相似性分析也表明,网络早期层对局部特征更敏感,后期层逐渐转向对构型线索更敏感,高层级更依赖构型信息进行稳健的特征表示。
- 网络架构和训练损失函数的影响:研究人员对比了前馈和递归神经网络,发现两者都更倾向于构型线索,递归计算对增强构型处理作用不明显。与卷积神经网络相比,Transformer 架构对构型线索的偏向更强。此外,使用标准分类损失函数训练的网络对构型线索的依赖更强,这表明可通过调整损失函数来调节构型处理。
- 推广到真实世界面部刺激:研究人员利用 FaceScrub 数据库训练神经网络,并使用 MakeHuman 工具生成特定面部刺激集。通过单样本五向分类任务测试发现,在旋转或缩放变换下,网络识别具有独特构型的面部表现更好。而在 ImageNet 上训练的网络则没有这种偏好,这进一步证实了构型线索在面部识别中的重要性。
在讨论部分,研究人员指出,他们的研究验证了 configural processing 在增强视觉识别系统鲁棒性方面的重要作用。深度学习模型能有效利用构型线索进行识别,且构型处理具有独立机制,不受局部特征变化的影响。在不同条件下,构型线索比局部特征线索更可靠,面部识别网络对构型线索的偏好可能是对大量面部刺激适应的结果。此外,研究还发现网络架构和损失函数会影响对局部或构型线索的偏好,增加训练类别多样性可提高网络对旋转和缩放变化的适应性。但研究也存在局限性,如未深入探讨构型处理在视角不变性方面的作用,未来研究可利用 3D 刺激和相关数据集进行拓展。同时,任务需求、视觉经验和发展轨迹等因素对构型处理策略的影响也有待进一步研究。
总的来说,这项研究为理解 configural processing 在视觉识别中的作用提供了重要依据,揭示了神经网络处理构型线索的机制,对开发更强大、适应性更强的神经网络模型具有重要指导意义,也为深入探究人类视觉识别的奥秘奠定了基础。