编辑推荐:
该综述聚焦蓝藻水华监测难题,提出将机器视觉系统(MVS)集成至自主水面航行器(ASV),利用卷积神经网络(CNN)监测。针对数据不足,采用 DreamBooth 微调 Stable Diffusion XL(SDXL)模型,结合大语言模型(LLM)生成多样提示词,提升合成图像真实性与多样性,优化双任务 CNN 模型性能。
1. 引言
水是维持生命和生态平衡的重要自然资源,但易受多种环境压力影响。蓝藻水华在全球水生系统中频发,对环境和公共健康构成严重威胁,还会造成经济损失。早期检测和持续监测蓝藻水华对水质管理至关重要,但传统方法资源消耗大,遥感技术受气象和时间分辨率限制。
近期研究利用配备机器视觉系统(MVS)的自主水面航行器(ASV)检测蓝藻水华,ASV 可在这些水生生态系统中导航,同时确保安全航行和有效避障。然而,训练和验证深度学习模型缺乏足够真实图像,且真实图像存在 licensing 问题,合成图像真实感不足。蓝藻水华的动态行为也增加了获取真实图像的难度。因此,本研究提出一种新方法生成足够真实的合成图像,以训练和验证深度学习模型,图像需包含 ASV 的导航障碍物和蓝藻水华。
文本到图像模型如 DALL-E2、Stable Diffusion 等能生成逼真图像,但难以合成蓝藻水华等新概念,因其训练数据未包含这些概念。为此,研究采用个性化图像生成技术,基于少量代表特定概念的图像微调预训练的文本到图像模型。
2. 相关工作
2.1 文本到图像合成
文本到图像合成旨在弥合人类语言与视觉内容的语义鸿沟,近年来因深度学习、大数据和高性能计算的发展取得显著进展,从生成对抗网络(GANs)、自回归模型到扩散模型不断演进。扩散模型如 Stable Diffusion 在生成高质量、多样化图像方面表现出色,但难以准确生成训练数据中未充分呈现的新概念,如蓝藻水华,需结合定制化微调与语义增强策略。本研究选择 SDXL 作为基础模型,因其输出分辨率高、开源且支持微调与定制。
2.2 个性化图像合成
标准文本到图像模型在生成训练数据未包含的特定定制概念时存在局限,模型定制技术通过少量参考图像使模型整合并生成用户定义的特定概念。本研究采用 DreamBooth 技术微调 SDXL 模型,该技术能利用唯一标识符将新概念与特定主题匹配,通过有限参考图像生成新概念的多样图像,保留输入概念的视觉特征。
2.3 文本到图像生成的提示工程
大语言模型(LLM)和文本到图像扩散模型的发展推动了提示工程的发展,其关键在于设计高质量提示词。手动生成符合要求的提示词耗时费力,需利用 LLM 自动化生成多样有效提示词。本研究经对比分析,采用少样本 / 上下文学习(ICL)技术,通过提供具体示例引导 LLM 生成符合结构和细节要求的提示词,平衡效果与实施可行性。
3. 方法
3.1 数据集
本研究使用两个数据集。第一个数据集包含从真实图像提取的蓝藻水华斑块,经数据增强后合成到背景图像,用于微调 SDXL 模型。第二个数据集含 3286 张训练图像和 822 张验证图像,描绘多种水生环境,包含各类物体和蓝藻水华,用于训练和评估双任务模型,该数据集提供对象级和像素级注释。
3.2 双任务模型
采用基于 CNN 的双任务架构,由主干、颈部和头部组成,头部分为对象检测和语义分割分支。对象检测分支基于 YOLOv3 结构,因其速度、易用性和准确性,颈部采用卷积块注意模块(CBAM)。语义分割分支对比 BiSeNet、DeepLabV3 + 和 PSPNet,最终采用 PSPNet,因其性能最佳。
3.3 Stable Diffusion XL 微调
为生成包含蓝藻水华的合成图像,使用 DreamBooth 技术微调 SDXL 模型。从第一个数据集选取 10 个真实蓝藻水华斑块,为避免与 SDXL 模型常见概念重叠,分配唯一标识符 “hcb”,类名为 “cyanobacterial blooms”,构建实例提示词 “a photo of hcb cyanobacterial blooms”。
3.4 提示词生成
利用 LLaMa 2 自动生成提示词,采用少样本 / 上下文学习技术,提供两个示例 “Shot 1: Obstacle Example (No Cyanobacterial Bloom)” 和 “Shot 2: Obstacle with Cyanobacterial Bloom Example”,包含主体、环境、视角、 lighting、风格等细节。指令 LLaMa 2 按结构生成 140 个提示词,涵盖 7 类障碍物在有无蓝藻水华情况下的多样场景。
3.5 图像生成
使用微调后的 SDXL 模型生成合成图像,每个障碍物类型根据提示词生成 100 张图像,共 700 张障碍物图像和 700 张蓝藻水华图像。手动筛选后,最终训练集含 600 张合成图像。尽管数量看似较少,但足以验证方法有效性。
3.6 实施细节
图像生成使用 SDXL 预训练模型,通过 huggingface 的第三方实现进行 DreamBooth 微调,设置批量大小、学习率和训练步数。双任务模型采用随机梯度下降(SGD)优化器,经网格搜索确定学习率、衰减、动量等超参数,训练约 100 个 epoch,模型损失稳定下降,证明超参数有效性。
3.7 评估指标
通过双任务 CNN 模型评估 SDXL 生成的合成图像,对象检测采用平均精度均值(mAP),置信度阈值 0.5;语义分割采用平均交并比(mIoU)。
4. 结果与讨论
4.1 定量比较
双任务 CNN 模型分别在三个数据集上训练并在同一测试集评估。仅使用真实数据集时,模型在部分类表现良好,但少数类因多样性不足和类不平衡表现不佳。使用 SDXL 生成的合成图像训练的模型,在少数类上显著提升,如 “dog”“bird”“rock”“trunk” 类的 mAP 提升明显。混合数据集训练的模型整体性能最佳,得益于更大更丰富的图像集。语义分割分支中,合成图像训练的模型在低代表性类提升显著,混合数据集进一步优化性能。
4.2 定性比较
从视觉结果看,不同数据集训练的双任务 CNN 模型在样本图像上均有不错表现。真实数据集训练的模型对象检测和语义分割合理;合成图像训练的模型预测更准确;混合数据集训练的模型在对象检测和语义分割边界清晰度上略有提升,但整体视觉和定性差异不显著。
5. 结论
本研究提出结合 DreamBooth 微调 SDXL 模型与 LLM(LLaMa 2)生成提示词的方法,合成蓝藻水华和导航障碍物的真实图像,解决 CNN 训练验证样本不足问题,提升 ASV 搭载 MVS 系统检测蓝藻水华和识别障碍物的能力。实验表明,合成图像加入训练验证数据集可改善真实图像数据集中少数类性能,合成数据集使对象检测和语义分割分别提升达 15.74% 和 6.48%,混合数据进一步提升。该方法在环境监测中有效,且在医学成像、遥感等领域有应用潜力。
研究也存在局限,如合成图像可能存在细微伪影,提示词质量依赖 LLM 能力,合成数据更适合作为真实数据补充。未来将探索更复杂提示工程、多模态扩散模型、新型对象检测架构,以及在 ASV 上实时实施图像生成管道,实现闭环学习系统。