编辑推荐:
为解决非接触式掌静脉识别中低对比度成像、复杂背景干扰和多尺度特征共存问题,研究人员提出融合多尺度卷积与 Swin-Transformer 的分割模型。在 PolyU 和 CASIA 数据集上,模型 accuracy 达 97.8%、Dice 系数 94.5%,提升了复杂环境下识别鲁棒性。
掌静脉识别作为一种高安全性的非侵入式生物识别技术,近年来在金融支付、智能门禁等领域备受关注。它通过近红外成像(波长 760-960nm)捕捉皮下静脉分布,利用血红蛋白对近红外光的吸收差异形成静脉图案,相比指纹识别,具有强活体检测能力(False Acceptance Rate<0.00008%)且不受表皮损伤影响。然而,该技术面临三大核心挑战:一是静脉与周围组织吸收差异小(灰度差约 5-10%),信噪比(SNR)低,皮下脂肪层(>3mm)会显著削弱近红外光穿透,尤其 850nm 光源下,脂肪层较厚手掌的静脉可见度下降 40%;二是皮肤纹理、毛发及光反射产生的噪声与静脉结构重叠,实验表明手掌表面反射可导致局部灰度值波动 15-20%,掩盖周边静脉分支;三是需要同时分割主静脉(直径 2-5mm)和周边分支(<0.5mm),传统算法对细静脉的 Dice 系数通常低于 85%。为提升掌静脉识别的鲁棒性和准确性,南京工业大学浦江学院的研究人员开展了相关研究,其成果发表在《Scientific Reports》。
研究人员提出了一种融合多尺度卷积与 Swin-Transformer 自注意力机制的掌静脉图像分割模型。该模型基于增强的 U-Net 架构,在降采样路径采用多尺度卷积模块提取层次特征,升采样路径通过滑动窗口注意力机制捕捉全局静脉分布,并利用特征融合模块整合跨层信息以抑制背景干扰。研究中用到的主要关键技术方法包括:一是多尺度卷积模块,采用 3×3、5×5、7×7 不同核大小的并行卷积操作提取不同尺度特征;二是深度可分离卷积,将传统卷积分为深度卷积和逐点卷积,降低计算成本;三是扩张卷积,通过在卷积核中插入 “扩张” 扩大感受野;四是 Swin-Transformer 自注意力模块,利用移位窗口机制捕捉长距离依赖;五是特征融合模块,将多尺度卷积提取的局部特征与注意力机制捕捉的全局特征进行融合。样本来源于 PolyU 和 CASIA 两个公开掌静脉数据集,PolyU 数据集包含 250 名受试者的 6000 张图像,CASIA 数据集包含 100 名受试者的 3600 张图像。
实验结果
- 模型性能对比:在 PolyU 数据集上,该模型 Overall accuracy(OA)达 97.8%、Dice 系数 94.5%、Intersection over Union(IoU)89.4%,相比 U-Net 分别提升 2.3%、4.2%、5.2%;在 CASIA 数据集上,OA 为 97.8%、Dice 系数 93.8%、IoU88.7%,均优于 ResNet、Swin-Transformer 等传统模型。
- 消融实验:仅使用多尺度卷积时,OA 为 93.2%、Dice 系数 89.3%、IoU83.2%;去掉扩张卷积,OA 降至 95.5%、Dice 系数 91.7%、IoU86.3%;移除注意力模块,OA 为 94.1%、Dice 系数 90.5%、IoU84.7%;去掉深度可分离卷积,OA 为 96.0%、Dice 系数 92.3%、IoU87.0%,验证了各模块的协同有效性。
- 复杂场景鲁棒性:在模拟突发光照变化(PSNR=22dB)、高斯噪声(σ=0.1)、30° 旋转变形等复杂场景下,该模型的综合鲁棒性指数(CRI)达 0.879,显著优于 U-Net、ResNet 等模型,表明其在低光照、噪声及变形条件下仍能保持较高分割精度。
模型效率分析
与 U-Net、ResNet-50+FPN、Swin-Tiny 相比,该模型参数数量为 28.3M,与 Swin-Tiny 相同,GFLOPs 为 0.75,显著低于其他模型,单帧推理时间 14.7ms(68FPS),GPU 内存使用量 2.4GB,在保持 mIoU89.3% 的同时,实现了高效的计算效率。
研究结论表明,该模型通过融合多尺度卷积与 Swin-Transformer,有效解决了掌静脉图像分割中光照、背景噪声及复杂纹理变化带来的挑战,其多尺度卷积模块能高效提取掌静脉图像的多层次特征,注意力机制增强了对长距离依赖的捕捉,显著提升了分割精度和鲁棒性。该研究为非接触式掌静脉识别技术在实际复杂场景中的应用提供了新的解决方案,推动了生物识别领域的技术进步,尤其在金融安全、智能安防等对身份识别精度和可靠性要求高的场景具有重要的应用价值。