FP-CLIP:用于零样本异常检测的前景-全景提示学习方法
《Digital Signal Processing》:FP-CLIP : Foreground-Panorama Prompt Learning for Zero-Shot Anomaly Detection
【字体:
大
中
小
】
时间:2025年12月03日
来源:Digital Signal Processing 3
编辑推荐:
针对零样本异常分割中背景干扰导致的假阳性问题,提出基于CLIP和Llama3.2-vision的框架,通过可学习提示分离前景与背景特征,并构建鱼病检测数据集FishAD验证其有效性,在多个领域数据集上取得高精度检测效果。
Ao Lu|刘金村|魏耀光|闫萌|董安
中国农业大学数字渔业国家创新中心,北京,100083,中国
摘要
异常检测与分割在工业检测、医学成像和农业监测等多个领域发挥着关键作用。这些技术对于对复杂系统进行详细分析至关重要,例如识别生产过程中的缺陷、医学图像中的异常情况或跟踪环境条件的动态变化。现有的零样本异常分割方法面临的一个主要挑战是误报率较高,这通常是由于将背景中的异常与主要关注对象相关的异常混淆所致。为了解决这个问题,我们提出了一种先进的零样本异常分割框架,该框架能够有效区分前景(特定于主题)特征和背景特征。这一改进减少了由于无关背景异常导致的误报。此外,我们的方法集成了多模态大型语言模型,以更好地理解前景与全景之间的关系,从而提高了异常识别的准确性。该方法采用了一种可学习的提示机制,结合了主题提示、全景提示、正常提示和异常提示,并通过基于CLIP的文本编码器进行编码,以提高异常识别能力。我们在多个基准数据集上的实验表明,该框架在异常检测和分割方面表现出领先性能,凸显了其在零样本场景中的有效性和适应性。这项研究为农业、医疗保健、工业质量控制等领域的应用提供了强大的工具。
引言
异常检测与分割在工业检测、医学成像和农业等多个领域受到了广泛关注。准确识别和定位异常对于确保系统可靠性和决策准确性至关重要。传统的监督式异常检测方法严重依赖于大规模标注的数据集,而这些数据集通常成本高昂且难以针对每种可能的异常类型进行获取。为了解决这个问题,零样本异常分割应运而生,它利用预训练的视觉-语言模型来泛化异常检测,而无需标注异常样本。
然而,如图1所示,现有的零样本异常分割方法常常由于背景异常而产生较高的误报率。这些方法通常将整个图像视为一个整体,无法区分属于主要对象的异常和存在于背景中的异常。在现实应用中,诸如光照变化、纹理不一致或无关的外来物体等背景干扰因素可能会被误认为是异常,从而降低异常检测模型的可靠性。这凸显了需要一个能够区分与主题相关的异常和由背景引起的误报的框架。
为了解决这一挑战,我们提出了一种新颖的零样本异常分割框架,该框架明确区分了局部(背景)特征和特定于主题的特征,从而降低了误报率。我们的方法引入了一种可学习的提示机制,包括主题提示、全景提示、正常提示和异常提示,这些提示通过基于CLIP的文本编码器进行处理,以增强异常感知能力。此外,我们利用了流行的V-V注意力机制[1]来有效融合全局和局部特征,从而提高异常分割的准确性,而无需引入定制的注意力结构。
我们的贡献可以总结如下:
•解决由背景引起的误报 – 我们提出了一种新的特征分离策略,能够明确区分与主要对象相关的异常和由背景变化引起的异常。
•用于农业AI的新鱼类疾病分割数据集 – 我们创建并发布了首个专门针对农业AI应用的领域特定数据集,该数据集结合了鱼类疾病分割和异常分类(检测疾病存在),包含500张图像,为该关键领域的模型训练和评估提供了坚实的基础。
•有效的零样本检测能力 – 我们的方法在多个基准数据集上表现出强大的性能,获得了较高的AUROC分数(例如,在Lemon数据集上为98.9%,在植物数据集上为96.4%),验证了其在实际AI应用中的适用性。
相关工作
相关研究
视觉-语言模型(VLMs)通过从大规模图像-文本配对数据集中学习统一的表示方式,彻底改变了多模态AI的发展,像CLIP系列这样的框架在零样本图像分类和跨模态检索方面取得了突破性进展。然而,尽管取得了成功,基于CLIP的模型在密集预测任务(如语义分割)中仍存在固有局限性,因为这些任务具有复杂性。
方法概述
在本文中,我们提出了一个新框架,将Llama3.2-vision和CLIP应用于零样本异常检测(ZSAD)。如图2和图3所示,我们的框架首先使用Llama3.2-vision生成前景和全景描述。然后,这些描述通过四个可学习的提示被转化为相应的文本特征:前景、全景、正常和异常。生成的文本特征使用CLIP文本编码器进行编码,并与图像进行对比对齐
实验设置
我们在16个公开可用的数据集上进行了广泛的实验(包括我们新提出的用于鱼类异常检测的FishAD数据集),涵盖了各种工业检测场景、医学成像领域(包括摄影、内窥镜检查和放射学)以及农业应用(如水产养殖监测和作物健康评估),以评估FP-CLIP的性能。在工业检测中,我们使用了MVTec AD [20]、VisA [21]、BTAD [22]、SDD [23]等数据集
CRediT作者贡献声明
Ao Lu:概念化、方法论、软件、撰写——初稿;撰写——审阅与编辑。刘金村:方法论、软件、撰写——审阅与编辑。魏耀光:监督、方法论、验证。闫萌:数据整理、撰写——审阅与编辑。董安:方法论、软件、撰写——审阅与编辑。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号