基于形状的人与绒猴基本水平面孔分类比较揭示灵长类视觉系统保守性

《Scientific Reports》:Comparison of human and marmoset basic-level face categorization based on shape

【字体: 时间:2025年12月18日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对非人灵长类面孔识别研究长期依赖纹理线索的局限,通过构建仅依赖三维几何形状的面孔分类任务,系统比较人类与绒猴在姿态、光照变化下的行为表现。结果表明,绒猴具备与人类相当的形状驱动面孔分类能力,且二者均表现出面孔特异性行为特征(如倒置效应),但存在量化差异。该研究为探索灵长类视觉系统进化保守性提供了新范式,并凸显生物视觉系统在几何特征处理上优于人工神经网络(DNN)的独特优势。

  
在认知神经科学领域,面孔识别能力被视为灵长类社会交互的核心基础。传统观点认为,人类和非人灵长类动物共享一套高度特化的视觉处理机制,其核心位于腹侧视觉通路(ventral visual pathway)中的特定脑区。然而,以往针对非人灵长类面孔识别的研究多依赖于二维面部照片,这些刺激材料往往混杂着纹理、颜色等低阶视觉线索,使得动物可能通过简单的局部特征而非真正的高阶形状分析来完成任务。这种实验设计的局限性引发了一个关键问题:非人灵长类动物是否真的具备基于三维几何形状(3D geometry)进行不变性面孔识别(invariant face recognition)的能力?为了回答这一问题,来自哥伦比亚大学祖克曼心智脑行为研究所(Zuckerman Mind Brain Behavior Institute)的You-Nah Jeon、Hector Y.H. Cho、Ashley C. Green和Elias B. Issa*研究团队进行了一项开创性的研究。
研究人员选择了一种小型新世界猴——普通绒猴(Callithrix jacchus)作为研究对象。绒猴因其社会性行为和相对较小的大脑,是研究视觉认知机制的理想模型。本研究设计了一项基于形状的基本水平面孔分类任务(basic-level face categorization task),要求受试者(人类和绒猴)区分两个仅内部几何形状不同、且去除所有纹理信息的3D面孔模型(一个人脸和一个猕猴脸)。这些面孔刺激在呈现时,经历了复杂的身份保持变换(identity-preserving transformations),包括三维空间中的旋转(rotation)、尺度变化(scale)、光照方向(lighting direction)以及自然背景的叠加,从而极大地增加了任务的挑战性。
令人惊讶的是,与最先进的人工视觉系统相比,这项看似基础的分类任务却显得异常困难。研究人员使用在ImageNet数据集上预训练的ResNet-50深度卷积神经网络(DCNN)作为基准模型,发现其在类似的物体分类任务上表现优异(准确率达92.5%),但在本研究的形状基面孔分类任务上,其性能骤降至接近随机水平(59%)。即便是专门针对人脸识别训练的VGG-Face模型,在该任务上也仅达到57%的准确率。与此形成鲜明对比的是,人类受试者(4名被试)的平均任务准确率高达91%,而绒猴(4只被试)也达到了78%的优异水平,且两者在面孔任务上的表现与其在对照物体分类任务(如骆驼vs大象)上的表现相当,未出现显著下降。这一结果强烈表明,基于形状的不变性面孔分类能力在人类和绒猴中都得到了很好的保留,并且这种能力是当前主流人工视觉模型所欠缺的。
为了进一步验证该任务是否真正触及了面孔特异性加工机制,研究人员分析了经典的面孔感知现象——面孔倒置效应(face inversion effect)和对比度反转效应(contrast reversal effect)。结果发现,在人类受试者中,面孔倒置和对比度反转均导致了显著的行为绩效下降,且这种下降幅度显著大于在对照物体分类任务中观察到的效应。这表明,本研究采用的形状基面孔分类任务确实成功诱发了与经典面孔处理相关的行为特征。
更为重要的是,绒猴也表现出了类似的行为模式:与正常光照下的正立面孔相比,倒置面孔、对比度反转面孔以及从下方照明的面孔都导致了其分类绩效的下降。然而,细致的量化比较揭示了物种间的差异:人类表现出更强的倒置效应,而绒猴则对对比度反转更为敏感。这种定性相似但定量不同的模式提示,虽然灵长类可能共享某些高级面孔分类的基本神经机制,但在处理细节上可能存在物种特异性的适应策略。
研究人员还深入分析了图像水平的行为模式(image-level behavioral patterns),即比较人类和绒猴在面对每一个特定图像时的相对难度(通过d‘指标衡量)。他们发现,在光照条件与平面旋转一致的“自然”情境下(如正立且上方照明),人类与绒猴的图像水平行为模式存在中等程度的相关性(r=0.38)。然而,在光照与旋转不一致的“非自然”情境下(如倒置且上方照明),两者行为模式的相关性则变得非常弱(r=0.03)。这种图像水平行为模式的差异,进一步支持了人类与绒猴在面孔处理策略上存在细微但重要的区别,这与他们在先前物体识别研究中观察到的高度跨物种一致性形成了对比。
关键技术与方法
本研究的关键技术方法包括:1)三维面孔刺激生成:利用苹果ARKit API的TrueDepth摄像头捕获真实人脸和猕猴脸的3D网格(mesh),在Blender软件中进行后期处理(添加眼睛、平滑网格),生成仅保留几何形状的无纹理3D面孔模型。2)参数化图像渲染:通过自定义平台(MkTurk,基于ThreeJS)控制3D场景参数(姿态、尺度、光照方向、背景),批量生成包含身份保持变换的刺激图像。3)行为学范式:采用双选择迫选任务(2AFC),要求受试者(人类通过Amazon Mechanical Turk平台,绒猴在家庭笼舍触摸屏上)根据短暂呈现的样本图像判断其所属面孔类别(人/猴)。4)计算模型基准测试:使用预训练的深度神经网络(ResNet-50, VGG-Face)提取图像特征,并训练线性支持向量机(SVM)分类器评估其任务表现。5)行为数据分析:计算灵敏度指数(d‘)和图像水平性能模式(i1n),并进行噪声校正的相关性分析以比较物种间行为模式。
研究结果
人类与绒猴均能基于形状进行不变性面孔分类
研究核心发现是,人类和绒猴都能够稳健地完成基于纯几何形状的面孔物种分类任务,其表现显著优于最先进的DNN模型。两者在该面孔任务上的表现与其在基本水平物体分类任务上的表现相当,表明这种高阶视觉能力在两种灵长类中都得到了很好的发展。
人类在形状基面孔分类中表现出倒置和对比度反转效应
在人类受试者中,面孔倒置和对比度反转均导致了分类绩效的显著下降,且这种下降幅度显著大于在控制物体分类任务中观察到的效应。这证实了本研究的任务范式有效触及了人类面孔特异性加工机制。
绒猴同样表现出面孔特异性行为缺陷但存在量化差异
绒猴也表现出与人类定性相似的行为模式,即对倒置、对比度反转和异常光照下的面孔分类能力下降。然而,量化分析显示,绒猴的倒置效应弱于人类,而对比度反转效应则强于人类,揭示了物种间处理策略的差异。
绒猴与人类在图像水平行为模式上部分一致
通过分析每个图像的具体难度模式发现,在自然光照条件下,人类与绒猴的行为模式存在显著但中等程度的相关性。而在非自然情境下,相关性急剧下降,表明物种间行为模式的相似性高度依赖于具体的视觉上下文。
研究结论与意义
本研究通过精心设计的形状基面孔分类任务,首次系统地证明了绒猴具备与人类相似的、基于三维几何形状进行不变性面孔分类的高级视觉能力。这不仅打消了人们对绒猴因其小脑体积和复杂自然栖息地而可能视觉能力有限的疑虑,更确立了绒猴作为研究灵长类视觉神经机制的强大模型动物的地位。研究结果支持了灵长类腹侧视觉通路功能同源性的观点,即从绒猴到人类,可能共享着处理形状信息的高级视觉脑区。同时,观察到的定量行为差异(如对倒置和对比度反转的不同敏感度)提示,不同灵长类物种可能演化出了适应其特定生态和社会需求的细微面孔处理策略。此外,该研究凸显了当前顶尖人工视觉系统在处理精细三维几何变化方面的显著不足,为改进人工智能模型提供了重要的行为基准。未来研究可以进一步探索绒猴对同种面孔的识别、纹理与形状线索的交互作用,以及其背后的神经机制,从而更深入地理解灵长类面孔感知的进化与发展。该论文已发表在《Scientific Reports》期刊上。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号