
-
生物通官微
陪你抓住生命科技
跳动的脉搏
融合全局线性注意力的视频Transformer模型在烧结工况识别中的鲁棒性研究
【字体: 大 中 小 】 时间:2025年08月27日 来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
本文创新性地提出融合全局线性注意力(VLA)与视频Swin Transformer(VST)的混合架构,通过空间移位窗口机制提取局部时空特征,辅以线性注意力模块增强全局建模能力,有效解决了火焰视频弱纹理、快速变化导致的特征提取难题。在真实回转窑数据集上达到97.76%准确率,较基线模型提升2%,为工业燃烧过程智能控制提供了新范式。
Highlight
本研究通过结合全局与局部注意力机制,构建了针对弱纹理快速变化火焰视频的轻量化视频Transformer模型。VST模块采用移位窗口策略捕捉局部形态特征,而创新的VLA模块以线性计算复杂度实现全局时序动态建模,二者协同提升模型对烧结工况的识别鲁棒性。
Related works
烧结工况识别方法历经三个发展阶段:
1)基于分割的方法:通过统计火焰/物料区域形态特征进行分类,但对噪声敏感且依赖人工阈值;
2)全局特征方法:采用LBP等纹理描述符,但难以表征快速动态变化;
3)深度学习方法:CNN虽取得进展,但受限于局部感受野和固定卷积核,对长程时空依赖建模不足。
Methodology
Sintering conditions description
回转窑火焰区工况按温度分为三类(图7):
正常工况:火焰轮廓清晰,物料燃烧充分;
过冷工况:火焰短小伴随大量未燃颗粒;
过热工况:火焰剧烈抖动并产生热浪畸变。
Conclusions
本研究提出的混合注意力架构在保持线性计算复杂度的同时,显著提升了模型对工业火焰视频的时空特征提取能力。实验证明其识别准确率达97.76%,F1值提升4.96%,为实时燃烧过程控制提供了可靠的技术支撑。
生物通微信公众号
知名企业招聘