扰动蒸馏与后门特征诱导:深度视觉模型中的通用防御机制

《Pattern Recognition》:Perturbation Distillation and Backdoor Feature Induction for Universal Defense in Deep Vision Models

【字体: 时间:2025年10月02日 来源:Pattern Recognition 7.6

编辑推荐:

  本文提出参数高效的行动规划器PEAP-LLM,包含目标规划器(LGP)和LoRA行动规划器(LAP)。LGP从高-level指令中提取目标物体和房间,LAP结合视觉观察、目标计划和高-level指令生成单步导航指令。通过监督微调和直接偏好优化两阶段细调,有效减少LLM的幻觉和偏见,显著提升REVERIE基准上的远程物体定位和导航性能。

  近年来,随着人工智能技术的迅速发展,视觉-语言导航(Vision-and-Language Navigation, VLN)任务逐渐成为研究的热点。VLN旨在让智能体根据自然语言指令,在三维模拟的室内环境中进行导航,从而完成特定目标。这一任务涉及计算机视觉、自然语言处理以及导航技术等多个领域,对智能体的环境理解、指令解析和路径规划能力提出了较高的要求。在众多VLN任务中,REVERIE(Remote Embodied Referring Expression in Indoor Environments)因其独特的任务设定和挑战性而备受关注。REVERIE要求智能体在没有预探索的前提下,通过高层面的指令,例如“给我带个勺子”,找到目标物体。与传统的详细分步指令不同,REVERIE的指令更简短且更接近人类的自然表达,这使得任务更加复杂,也对智能体的推理和规划能力提出了更高的要求。

在REVERIE任务中,智能体需要在不直接看到目标物体的情况下,通过对环境的探索和理解,最终定位目标物体。这一过程不仅需要智能体对指令的准确理解,还需要在复杂环境中进行有效的路径规划。传统的导航方法通常依赖于预先构建的路径或固定策略,难以应对REVERIE中高阶指令带来的不确定性。为此,研究人员提出了一系列方法,如基于语言模型(Large Language Model, LLM)的导航规划方法,试图通过自然语言处理技术,提升智能体的导航能力和目标定位能力。

LLM在导航任务中的应用显示出巨大的潜力,它们能够生成自然语言指令,并基于这些指令进行推理和规划。然而,LLM在实际应用中仍面临一些挑战,例如生成偏见信息、产生幻觉(hallucination)以及对复杂环境的适应能力不足。此外,传统的LLM方法通常需要大量的人工干预,以确保生成的指令准确且适用于特定任务。为了克服这些限制,研究人员提出了一种参数高效的LLM行动规划器(Parameter-Efficient Action Planner using Large Language Models, PEAP-LLM),该方法通过结合LLM目标规划器(LLM Goal Planner, LGP)和LoRA行动规划器(LoRA Action Planner, LAP)两个模块,实现了对导航任务的高效处理。

LGP的主要任务是从高阶指令中提取目标物体和目标房间的信息。例如,对于指令“带我去浴室拿垃圾桶”,LGP需要识别出目标物体是“垃圾桶”,目标房间是“浴室”。这一过程依赖于LLM的常识知识和对语言的理解能力。LAP则基于LGP提取的信息,结合当前的视觉观察,生成单步指令。这一过程需要考虑环境中的可见物体、目标物体的可能位置以及导航路径的合理性,从而确保生成的指令能够引导智能体有效移动并最终定位目标物体。

为了提升LLM在导航任务中的表现,PEAP-LLM采用了两种细粒度的微调方法:监督微调(Supervised Fine-Tuning, SFT)和直接偏好优化(Direct Preference Optimization, DPO)。SFT通过使用真实的导航数据,提高LLM生成指令的准确性和相关性;而DPO则利用环境反馈和导航过程中的偏好数据,进一步优化LLM的行为,使其更符合实际导航需求。这种方法不仅减少了模型的训练时间和计算资源,还有效避免了LLM生成错误或偏见信息的问题。

实验结果表明,PEAP-LLM在REVERIE基准测试中表现出色,相较于基线模型,其在SPL(Success Percentage with Length)和RGSPL(Remote Grounding SPL)指标上分别提升了4.00%和3.20%(在验证未见过的数据集上)以及2.10%和2.20%(在测试未见过的数据集上)。这说明PEAP-LLM在提升智能体的导航能力和目标定位能力方面具有显著的优势。此外,通过消融实验(Ablation Study)进一步验证了LGP和LAP两个模块的独立和联合贡献。结果表明,单独使用LAP模块在导航和目标定位方面已经比基线模型有显著提升,而结合LGP和LAP的PEAP-LLM则在所有指标上都实现了最优性能。

在实际应用中,PEAP-LLM能够实时与LAP交互,生成单步指令,帮助智能体进行路径规划。这种方法不仅提高了导航的效率,还增强了智能体对复杂环境的适应能力。通过引入PEFT(Parameter-Efficient Fine-Tuning)技术,如前缀微调(Prefix Tuning)和低秩适应(LoRA),PEAP-LLM能够在保持模型参数数量较少的同时,实现接近全量微调的效果。此外,DPO方法通过利用环境反馈和导航偏好数据,进一步优化了LLM的行为,使其更符合实际任务需求。

值得注意的是,PEAP-LLM在减少人工干预方面也具有优势。传统的LLM方法通常需要人工设计提示模板,以确保生成的指令准确有效。而PEAP-LLM通过自动化的提示生成和指令生成过程,降低了对人工干预的依赖。同时,通过合理设计的提示模板,LLM能够更准确地理解任务目标,并生成符合要求的指令。

在实验分析中,PEAP-LLM的性能不仅体现在定量指标上,还通过定性分析得到了验证。例如,在REVERIE的验证未见过的数据集中,基线模型在导航和目标定位方面存在明显不足,而PEAP-LLM能够更有效地引导智能体找到目标物体。此外,通过对比不同微调方法的效果,发现LoRA在单步行动预测任务中表现更为出色,而结合LoRA和DPO的两阶段微调方法则进一步提升了模型的性能。

总的来说,PEAP-LLM为REVERIE任务提供了一种全新的解决方案,通过结合LLM的目标规划和行动规划模块,以及采用参数高效的微调策略,显著提升了智能体的导航能力和目标定位能力。这种方法不仅适用于REVERIE任务,也为其他复杂的VLN任务提供了新的思路和方法。未来的研究可以进一步探索如何优化提示模板,提高LLM在不同环境下的适应能力,以及如何在实际应用中降低计算资源的消耗,以实现更高效的导航系统。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号