基于扰动的错误检测与校正方案在可靠大规模机器学习系统中的研究

【字体: 时间:2025年05月19日 来源:Future Generation Computer Systems 6.2

编辑推荐:

  传统神经网络容错方案需冗余或改变正常操作,开销大,不适合大规模 ML 系统。本文研究 PBEDC 方案,利用推理过程实现错误检测与校正。以 CLIP 网络为例,其检测率超 95%,可处理单比特翻转错误,复杂度不随网络规模增加,具重要意义。

  
在人工智能快速发展的今天,大规模机器学习(ML)系统如神经网络(NN)凭借数十亿参数在计算机视觉、自然语言处理等领域大显身手。然而,复杂的网络结构和海量数据下,硬件错误导致模型参数损坏的问题日益凸显,传统容错方案要么依赖冗余设计,要么改变正常推理流程,不仅增加计算开销,还难以适配包含多个复杂网络的大规模系统。如何在不引入额外冗余的前提下,高效检测并校正这类错误,成为保障系统可靠运行的关键挑战。

为解决这一难题,研究人员开展了基于扰动的错误检测与校正(Perturbation-Based Error Detection and Correction, PBEDC)方案研究。论文发表在《Future Generation Computer Systems》。

研究人员采用的关键技术方法包括:利用对比语言 - 图像预训练(Contrastive Language-Image Pre-Training, CLIP)网络作为案例研究对象,选取 CIFAR10(含 10 类 32×32 RGB 图像)和 Mini-imagenet(含 100 类多尺寸 RGB 图像)数据集进行零 - shot 分类推理,通过预计算并存储一组输入样本(PBEDC 样本)推理过程中节点的值,将模型运行时的节点值与之对比来检测扰动(即错误),同时结合奇偶校验码实现错误校正。

扰动基错误检测与校正(PBEDC)


PBEDC 基于推理过程中一组输入样本的节点值预计算与存储,通过对比模型运行时的节点值检测扰动(错误)。该方案依赖错误向校验节点的传播实现检测,先探讨了神经网络中的错误传播,再阐述校验节点(如 softmax 向量)的选择,利用少量有代表性的 PBEDC 样本监控校验节点的中间信号。

实现细节


在推理阶段使用 CIFAR10 和 Mini-imagenet 数据集,对 CLIP 网络进行零 - shot 分类并记录 “黄金结果”,相关代码和复现实验脚本公开可用。

结论与未来工作


PBEDC 方案利用中间信号(如 softmax 向量)作为校验节点,借助少量代表性 PBEDC 样本检测错误引发的扰动,无需实现冗余。复杂度分析表明,该方案开销低,复杂度不随网络规模扩大而增加,在大规模 ML 系统中优势显著。未来可进一步拓展其在更多复杂网络和场景中的应用,提升大规模机器学习系统的可靠性。

论文提出的 PBEDC 方案为大规模 ML 系统的可靠性提升提供了新路径,其高检测率、低复杂度及对单比特翻转错误的处理能力,为自动驾驶、医疗诊断等对可靠性要求极高的领域奠定了关键技术基础,有望推动可靠人工智能的发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号