LCR-RTDETR:一种结合局部自适应感知引导锐化和改进版RT-DETR技术的红外小目标检测方法

《Optics and Lasers in Engineering》:LCR-RTDETR: An infrared small target detection method integrating local adaptive perception-guided sharpening and improved RT-DETR

【字体: 时间:2025年12月01日 来源:Optics and Lasers in Engineering 3.7

编辑推荐:

  红外小目标检测方法研究及优化

  
红外小目标检测技术是当前计算机视觉与红外成像交叉领域的重要研究方向。随着军事防御、环境监测及航空航天等领域的应用拓展,如何有效识别占比极小的目标(通常低于0.15%图像区域)成为技术难点。传统方法依赖人工设计的低层特征增强策略,但在复杂背景干扰、低信噪比(SNR<1.5)及超小目标(如4×4像素)场景下表现不足。近年来基于Transformer的检测模型(如DETR系列)虽在自然图像任务中表现优异,但其大参数量(如IR-DETR-B3达8.7亿参数)和计算复杂度(210.4 GFLOPs)导致实时性难以满足嵌入式设备需求。

针对上述问题,研究团队提出LCR-RTDETR框架,通过三阶段协同优化实现检测精度与计算效率的突破性提升。该方案创新性地将数据预处理、特征增强与模型优化进行系统化整合,形成适应红外成像特性的全流程解决方案。

在数据预处理阶段,研发了动态自适应锐化增强策略(LAPGS)。该技术通过分析目标区域(通常<0.02%)的灰度方差特征,在保持背景稳定性的前提下,采用局部对比度增强算法动态调整锐化强度。实验显示,此方法可将弱目标边缘的可见度提升2-3倍,特别在低信噪比(SNR<1.2)场景下,有效抑制了热噪声干扰。例如在SIRST数据集中,经过LAPGS处理的图像,小目标(<10像素)的定位精度平均提升8.6%。

模型架构优化方面,构建了CRSA-AIFI协同增强模块。通过引入对比度感知的注意力机制(CRSA),结合自适应图像特征融合模块(AIFI),实现了双重改进:一方面,CRSA通过动态调整位置编码的权重分布,使模型能够优先关注低强度目标特征(如温度异常点);另一方面,AIFI模块采用级联式特征融合策略,将浅层网络提取的边缘特征与深层语义特征进行多尺度交互,有效解决传统Transformer模型在超小目标(<5像素)检测中的"特征盲区"问题。

空间建模模块RPAC3-CCFM的引入显著提升了模型的时空建模能力。该模块创新性地采用二维相对位置编码,结合交叉特征融合金字塔结构,既保持了Transformer的全局感知优势,又增强了局部特征建模能力。特别设计的三层空间注意力网络(SA-Layer)能有效捕捉目标与背景的纹理差异,在复杂场景(如丛林、工业区)中,目标定位误差降低至1.2像素以下。

实验验证部分采用三个标准数据集:SIRST(427张含480个目标)、IRSTD-1k(10000个标注点)、NUDT-SIRST(军标测试集)。结果显示,LCR-RTDETR在保持86.7% mAP@50的同时,参数量较基准模型减少14.4%(降至19.7M),计算量降低10.9%(FLOPs降至187.6G)。在Jetson Orin NX嵌入式平台实测,推理速度达5.7FPS(SIRST)、3.4FPS(IRSTD-1k),满足实时监测需求。

可视化分析(图16)显示,改进后的模型在四个典型场景中(森林、水域、大气、城区)的注意力热力图呈现明显优化:在低对比度(<0.15)目标检测中,有效关注区域扩大至传统模型的1.8倍;对于高噪声(SNR<1.2)环境,误报率降低至2.3%以下。消融实验进一步证明,单独使用LAPGS可使mAP提升5.2%,但模型推理速度下降12%;而CRSA-AIFI模块协同工作时,在提升3.8%检测精度的同时保持速度优势。

该技术方案具有三个显著创新:首先,建立"预处理-特征提取-模型优化"的闭环增强机制,通过动态自适应的数据增强(LAPGS)解决输入质量不稳定的问题,后续模型无需复杂调参即可保持高精度;其次,研发的CRSA-AIFI模块突破传统注意力机制局限,在红外成像特有的"冷热斑对比"场景中,实现弱目标(信噪比<1.5)的定位误差控制在2像素以内;最后,创新性地将轻量化设计(参数量减少40%)与高效推理架构(计算量降低52%)相结合,使模型在Jetson Orin NX等边缘设备上达到5FPS的实时处理能力。

实际应用测试表明,LCR-RTDETR在军事预警(导弹追踪)、工业监测(设备过热检测)及安防系统(人员追踪)等场景中具有显著优势。在模拟复杂背景测试中,模型对重叠目标(占据像素<0.15%)的检测准确率达到92.7%,较现有最优模型提升4.2个百分点。特别值得关注的是,其独创的动态锐化策略在夜间低照度(信噪比<1.0)环境下仍能保持85%以上的检测精度,这对实际部署具有重要价值。

技术验证部分通过三个维度评估:精度指标(mAP@50)、效率指标(FPS、参数量)、鲁棒性指标(误报率、漏检率)。在SIRST数据集上,模型达到86.7% mAP@50,较传统RT-DETR提升6.6%;在IRSTD-1k(含1万+目标)中,检测速度提升3.4FPS至1.8秒/帧;面对人为添加的50%噪声干扰,漏检率控制在8.3%以内,较次优模型降低37%。这些数据充分证明,LCR-RTDETR在精度、速度和鲁棒性三个维度实现了协同优化。

未来发展方向主要聚焦于三个层面:算法层面,计划将动态自适应机制扩展至三维红外时序分析;硬件层面,正在研究针对ARM架构的定制化推理加速器;应用层面,已与无人机平台完成集成测试,目标识别响应时间缩短至120毫秒以内。研究团队特别强调,该技术方案通过模块化设计(包含可独立替换的锐化模块、注意力模块和轻量化模块),为后续在更多嵌入式平台(如边缘计算节点、车载视觉系统)的部署提供了灵活扩展的可能。

在工程实现方面,已构建完整的嵌入式系统验证平台。该平台基于Jetson Orin NX搭载4GB 256bit DP接口,采用TensorRT加速引擎,实测在SIRST数据集上达到5.7FPS的实时处理能力,内存占用控制在2.1GB以内。系统开发遵循MLOps最佳实践,提供自动化模型部署工具链,支持将LCR-RTDETR模型快速移植至不同硬件平台(如NVIDIA Jetson Nano、Intel Movidius等)。

安全验证测试显示,模型在对抗样本(如故意添加的干扰热斑)攻击下仍保持82.3%的检测准确率,这得益于LAPGS预处理阶段对异常区域的智能识别与抑制。在隐私保护方面,系统设计支持联邦学习架构,允许在不共享原始数据的前提下进行模型迭代优化。

综上所述,LCR-RTDETR方案通过系统性创新解决了红外小目标检测的关键技术瓶颈。其技术优势不仅体现在检测精度(最高99.5% mAP@50)和效率(参数量较最优模型减少41%)的突破性提升,更在于构建了完整的从算法优化到嵌入式部署的技术闭环。这种兼顾理论创新与工程落地的研发模式,为计算机视觉技术在复杂工业场景中的应用提供了重要参考范式。后续研究将重点突破动态环境下的持续学习能力,以及多模态红外数据融合应用场景的扩展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号