生成式AI合成人脸在生物特征识别中的替代性评估:基于年龄、性别与种族检测的跨维度研究

【字体: 时间:2025年08月27日 来源:Pattern Recognition Letters 3.3

编辑推荐:

  本文系统评估了基于扩散模型生成的合成人脸在生物特征识别任务中的替代潜力。研究通过构建涵盖多年龄、性别与种族的平衡数据集(40K样本),对比12种前沿生物特征分类器在真实与合成数据上的性能,发现合成数据不仅可媲美真实数据训练效果,更能显著提升模型跨数据集泛化能力,为规避真实数据的伦理法律风险(如GDPR合规)提供新思路。

  

Motivation & contribution

生成式模型,尤其是文本到图像(Text-to-Image, T2I)方法,通过可定制的提示词实现对面部图像合成的精确控制,生成超真实人脸,并规避了真实人类数据涉及的诸多伦理、法律与后勤挑战。这种合成图像在生物特征应用中的“替代性”潜力引出一个关键问题:合成人脸能否有效替代真实图像完成生物特征任务? 近期扩散模型展现出卓越的图像生成能力,促使我们探索其合成数据是否能为生物特征模型训练提供可行替代方案。

Dataset construction

生物特征模型在 underrepresented groups(如非白人和女性面孔)上的性能不一致,一直是生物特征研究领域的公认难题。这种挑战通常源于不平衡的训练数据集,限制了生物特征系统在敏感场景中的部署。既往研究[8]表明,具有多样年龄、性别与种族特征的平衡数据集可提升分类性能的一致性。

Methodology & experiments

本研究核心目标是评估合成人脸图像在面部属性分类任务(特别是年龄、性别和种族检测)中替代真实人脸图像的可行性。为确保“替代性”,我们试图验证真实与合成人脸图像能否在面部属性分类器中互换使用而不影响性能——尤其是在作为训练数据时。最终目标是确定合成数据能否成为真实数据的可行替代品,同时提升模型跨数据集的泛化能力。

Primary results

我们主要进行了四类实验:(1)在真实数据上训练并测试(Real-Real);(2)在合成数据上训练并测试(Synthetic-Synthetic);(3)在真实数据上训练,在合成数据上测试(Real-Synthetic);(4)在合成数据上训练,在真实数据上测试(Synthetic-Real)。此外还设置了“真实-真实跨数据集”基线(RealA-RealB)以评估泛化差距。

On ‘substitutability’

为评估“替代性”,我们探索了多种真实与合成数据的训练-测试配置(“跨数据集场景”,实验5),从泛化角度考察SOTA模型性能。我们定义了‘跨真实’场景:在真实数据集A{Adience(年龄)、CelebA(性别)、UTKFace(种族)}上训练,在另一真实数据集B{FairFace}上测试,并将其与“合成-真实”训练-测试配置(即合成数据训练,真实数据测试)进行对比。

Impact of attribute proportions

在上述实验中,我们使用的合成数据在年龄、性别及种族类别上均保持平衡。为进一步探究类别分布对结果的影响,我们针对每个属性(年龄、性别、种族)在模型M4上进行了消融实验,旨在确定特定类别比例调整(即类别增强)如何影响检测器在Synthetic-Synthetic(S-S)中的整体性能,以及更关键的是——其在Synthetic-Real(S-R)泛化场景中的表现。

Conclusion

真实人脸数据日益突出的法律与隐私问题,激发了人们对生物特征应用中合成替代方案的兴趣。本研究引入了一个包含40K合成人脸的平衡数据集,覆盖多种族、年龄与性别,使用七种主流扩散模型生成。我们的目标是评估合成人脸能否在生物特征任务中可行地替代真实数据。我们在多种训练-测试配置下评估了12种SOTA面部属性分类器(年龄、性别、种族各四类),发现合成数据不仅达到与真实数据相当的性能,有时甚至更优,同时显著提升了模型跨数据集的泛化能力。这些发现表明,合成数据集有望成为真实数据的可行替代品,并为改进当前生物特征检测器的跨(真实)数据集泛化能力指明了方向。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号