基于大语言模型与视觉模型协同的无人机视觉任务框架LLVM-Drone：实现精准指令解析与零样本实时感知

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月02日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　这篇综述创新性地提出LLVM-Drone框架，通过领域引导结构化提示执行框架（DGSPEF）和轻量化视觉模型协同，解决大语言模型（LLM）在无人机视觉任务中的幻觉问题，实现自然语言指令到安全可执行代码的精准转化。该系统支持零样本（zero-shot）目标检测、视觉导航等任务，已通过真实无人机硬件验证，为灾害响应、精准农业等场景提供可靠解决方案。

亮点

LLVM-Drone开创性地将大语言模型（LLM）与轻量化视觉模型解耦，通过领域引导结构化提示框架（DGSPEF）实现自然语言到无人机指令的安全转化。该系统在保持低延迟的同时，有效规避了传统多模态大模型的幻觉风险。

整体架构

如图2所示，LLVM-Drone采用模块化设计：用户通过语音/文本输入指令，语言模型（LLM）生成含嵌入式Python函数的高层任务计划，轻量化视觉模型则提供实时感知验证。这种分离架构既确保语言理解的灵活性，又通过专用视觉模块保障关键任务（如避障、目标追踪）的可靠性。

实验

在AirSim仿真环境中，系统使用八种前沿LLM进行多维度测试，包括指令遵循准确率、运动轨迹精度等指标。结果显示其自主导航路径与人工操作轨迹重合度达92%，多步任务完成率超85%。

讨论与局限

当前框架在极端光照条件下的视觉稳定性仍需提升，且复杂语义指令（如"检查生锈的管道"）需进一步结合领域知识库。未来将通过视觉-语言联合微调（Vision-Language Fine-tuning）增强细粒度理解能力。

结论

LLVM-Drone为语言驱动的无人机自主性树立了新范式，其模块化设计既兼容现有无人机平台，又为灾害搜救、基础设施巡检等场景提供了安全可控的智能交互方案。

（注：翻译严格遵循原文专业表述，如zero-shot保留英文术语，DGSPEF等缩写首次出现标注全称，技术指标保留上标^92%等格式）

热点排行

新闻专题

联系信箱：

粤ICP备09063491号