机器学习模型抗辐射可靠性研究:关键变量与粒子无关性分析

《IEEE Transactions on Nuclear Science》:Key Variables in the Reliability of ML Models Exposed to Neutrons, Protons, and Heavy Ions

【字体: 时间:2025年12月09日 来源:IEEE Transactions on Nuclear Science 1.9

编辑推荐:

  本文针对机器学习(ML)模型在辐射环境下可靠性评估的复杂性,研究了不同粒子(中子、质子、重离子)对Google Coral Edge TPU上运行的视觉变换器(ViT)和分割卷积神经网络(CNN)等模型的影响。研究发现,虽然重离子引起的静默数据损坏(SDC)截面比大气中子高8个数量级,但SDC特征与粒子种类和线性能量转移(LET)无关,而模型复杂度和输入选择是导致错误分类的关键因素。该研究为高效规划辐射实验提供了重要指导,成果发表于《IEEE Transactions on Nuclear Science》。

  
随着人工智能技术的飞速发展,机器学习(ML)模型在图像分类、语义分割等任务中展现出卓越性能,这些模型通常被部署在高效的低成本商用现成品(COTS)硬件加速器上。然而,在自动驾驶、无人机和星载处理等安全关键领域应用这些系统时,其可靠性评估面临巨大挑战。由于ML模型架构多样、配置复杂、输入选择多变,加之加速器硬件架构各异,通过辐射实验穷尽测试所有组合几乎不可能。此外,针对特定模型-加速器组合获得的辐射数据难以推广到其他配置,而辐射设施资源有限、成本高昂,使得全面可靠性表征变得异常困难。
正是在这样的背景下,一项发表于《IEEE Transactions on Nuclear Science》的研究应运而生。该研究团队进行了一项大规模实验,旨在揭示影响ML模型可靠性的关键因素,并探索实验数据的可推广性。他们提出了三个核心研究问题(RQ):不同辐射设施获得的数据能否相互推演?特定ML模型的实验数据能否用于估计其他模型在同一设备上的故障率?输入图像有哪些关键特征能提高实验效率?为了回答这些问题,研究人员开展了一项涵盖6个辐射设施、多种粒子类型和多个ML模型的综合性实验研究。
研究采用了几个关键技术方法:在Google Coral Edge TPU(张量处理单元)上部署了视觉变换器(ViT-8, ViT-16)、语义分割CNN(U-Net128, U-Net256)及微基准测试;在ChipIR、TRIUMF(中子)、RADEF、UCL(重离子)、CNAO(质子、碳离子)、TIFPA(质子)等设施进行辐照;通过自动化测试系统监测静默数据损坏(SDC)和系统崩溃;使用32张具有不同分类置信度的输入图像分析错误特征;采用Weibull曲线拟合截面数据并分析模型复杂度和硬件利用率的影响。
A. Impact of LET on the reliability
实验结果显示,重离子引起的SDC截面比大气中子高出6-8个数量级,而质子的影响介于两者之间。有趣的是,不同模型的相对截面差异在不同辐射源间保持恒定。Weibull曲线分析表明,截面饱和值(平台期)取决于模型复杂度,而曲线的其他参数(尺度=1.55,宽度=13.5)则与Coral TPU硬件特性相关。对于充分占用硬件资源的模型(如ViT-16、U-Net256),其饱和截面值相近,而资源利用率较低的ViT-8则显示出较低的SDC概率。
B. Impact of LET on error characteristics
对13,000多个SDC事件的深入分析揭示了一个关键发现:粒子种类和LET并不影响SDC的特征特性。无论是错误分类概率、输出向量中错误元素的数量,还是错误幅度,在不同辐射条件下都保持一致。例如,只有2%-12%的SDC会导致错误分类,且这一比例在不同粒子间无显著差异。这意味着辐射仅影响错误发生的概率,而不改变错误的本质特征。
C. Impact of input selection
研究发现,输入图像的分类置信度是影响错误分类概率的关键因素。对于分类置信度低的图像,辐射诱导的错误分类概率显著更高。ViT-16几乎只对置信度非常低的图像产生错误分类(约30%的错误率),而ViT-8则对低置信度和中等置信度图像都较敏感。这表明模型训练和输入特性共同决定了系统对辐射错误的脆弱性。
研究结论部分强调,SDC特征与粒子种类和LET无关这一发现具有重要实践意义。它意味着研究人员可以选择最便利的辐射设施进行测试,而不必严格匹配目标部署环境的粒子类型。例如,即使是为太空应用 qualifying DUT(受试设备),也可以利用大气中子实验来深入了解辐射对模型输出的影响模式,从而更高效地利用重离子束时间进行针对性表征。
此外,研究证实模型复杂度是影响SDC截面的主要因素,而输入选择则主导了错误分类概率。这一认识为标准化辐射实验方法提供了理论基础:通过测试一两个具有代表性的复杂模型配置,可以合理推演其他类似架构模型的可靠性表现。同时,研究强调了精心选择输入数据集的重要性,不当的输入选择可能严重低估系统的实际错误分类风险。
这项研究为ML模型和加速器的可靠性评估提供了实用指导,使研究人员能够更智能地规划实验方案,最大化利用有限的辐射设施资源。研究结果尤其适用于基于脉动阵列(systolic array)的ML加速器(如TPU、Versal ACAP的AI引擎、NVIDIA GPU的Tensor Core等),为安全关键领域部署人工智能系统提供了重要的可靠性设计依据。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号