掩码自编码器在超声信号中的应用:面向下游任务的鲁棒表示学习

《IEEE Access》:Masked Autoencoders for Ultrasound Signals: Robust Representation Learning for Downstream Applications

【字体: 时间:2025年12月23日 来源:IEEE Access 3.6

编辑推荐:

  本文推荐一项针对工业超声信号分析中标注数据稀缺、任务特定处理繁琐等挑战的创新研究。作者将计算机视觉领域的掩码自编码器(MAE)与视觉变换器(ViT)架构适配于一维超声信号,通过自监督预训练从大量无标注合成数据中学习通用表征。研究系统优化了模型规模、patch尺寸和掩码比例等关键参数,结果表明预训练模型在飞行时间(ToF)分类等下游任务中显著优于从头训练的模型及强卷积神经网络(CNN)基线,且合成数据预训练展现出优异的跨现实数据泛化能力。该工作为超声信号分析提供了可扩展、低依赖标注数据的解决方案,对无损检测(NDT)、结构健康监测(SHM)等工业应用具有重要推进作用。

  
在工业无损检测、结构健康监测等领域,超声信号分析扮演着至关重要的角色。然而,传统方法高度依赖任务特定的信号处理流程,且标注数据获取成本高昂、专家依赖性强,严重限制了深度学习技术的应用。此外,真实场景数据量有限、变异性大,而合成数据虽可大规模生成,但其到真实数据的泛化能力常受质疑。如何从原始超声信号中直接学习鲁棒、通用的表征,以降低对标注数据和定制化处理的依赖,成为该领域的关键挑战。
为此,德国科堡应用技术大学传感器与执行器技术研究所的Immanuel RoBteutscher、Klaus S. Drese和Thorsten Uphues在《IEEE Access》上发表了题为“Masked Autoencoders for Ultrasound Signals: Robust Representation Learning for Downstream Applications”的研究论文。该研究首次将掩码自编码器(MAE)这一在计算机视觉中表现卓越的自监督学习方法,系统性地适配于一维原始超声信号,旨在通过预训练从大量无标注合成数据中学习高质量表征,进而提升下游任务的性能与数据效率。
研究人员采用Vision Transformer(ViT)作为主干网络,构建了非对称编码器-解码器结构的MAE。在预训练阶段,输入的一维超声信号(长度L=512样本)被划分为不重叠的patch,高比例随机掩码后,仅可见patch送入编码器学习潜在表征;轻量解码器则基于编码器输出和可学习掩码令牌重构原始信号,以重构平均绝对误差(RMAE)为损失函数。预训练后,解码器被丢弃,编码器接入任务特定头(如分类器)进行微调,应用于飞行时间(ToF)分类等下游任务。
关键技术方法包括:1)使用ViT架构处理一维信号patch,避免二维图像patch展平操作;2)针对超声信号周期性、高冗余特性,优化掩码比例(62.5%-87.5%)、patch大小(8-128样本)及注意力头维度(非方形矩阵);3)采用合成超声数据集(60K样本)预训练,真实测量数据集(12K样本)评估泛化能力;4)下游任务为ToF分类(200类别),通过微调预训练编码器实现;5)以Top-1准确率、RMAE为评估指标,并与强CNN基线对比。
模型规模影响
研究比较了Tiny(T)、Small(S)、Medium(M)、Large(L)四种参数规模的模型。结果表明,除T模型外,S、M、L模型经预训练后微调,其下游Top-1准确率均显著高于从头训练(如M模型:75.38% vs 44.25%),且收敛更快、过拟合减轻。M模型与L模型性能接近,但M模型参数更少,更利于工业部署。
注意力头优化
针对一维信号模型维度(dmodel)较小导致注意力子空间狭窄的问题,作者采用非方形查询、键、值权重矩阵,允许头维度(dhead)独立于h。实验显示,M-dh64模型(dhead=64, h=4)较标准方形矩阵(dhead=32)Top-1准确率提升至79.28%,RMAE降至1.33,表征学习效果更优。
掩码与分块策略
系统评估掩码比例(62.5%、75%、87.5%)和patch大小(P=8,16,32,64)组合发现,75%掩码比例配合P=32时下游性能最佳(Top-1准确率89.05%)。过小patch(P=8)因破坏信号周期性结构、易导致简单插值重建而性能较差;过高掩码比例(87.5%)则使任务过难。
真实信号泛化与数据效率
在真实测量信号(与合成数据存在分布偏移,如脉冲长度差异)上微调预训练模型,合成数据预训练准确率(87.58%)显著高于真实数据预训练(78.68%)及从头训练(68.03%),且组合数据预训练无额外增益。数据效率实验表明,随标注数据量减少(12K→2K),MAE模型性能下降缓于强CNN基线,在2K样本时准确率仍达51.25%(CNN基线38.50%),凸显其低数据需求下的优势。
该研究证实,MAE可有效适配一维超声信号,通过自监督预训练从合成数据中学习泛化能力强的表征,显著提升下游任务性能、数据效率及跨域泛化能力。尽管MAE架构较CNN复杂、需精细调参,但其能克服Transformer低归纳偏置的局限,在标注稀缺场景下优于强CNN基线。研究为超声信号分析提供了新范式,降低了对任务特定处理与大规模标注数据的依赖,对工业无损检测、健康监测等应用具有推进作用。未来工作可扩展至缺陷检测、材料分类等多任务验证,并探索更大规模、多源数据预训练以构建超声基础模型。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号