融合全局线性注意力的视频Transformer模型在烧结工况识别中的鲁棒性研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月27日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　本文创新性地提出融合全局线性注意力(VLA)与视频Swin Transformer(VST)的混合架构，通过空间移位窗口机制提取局部时空特征，辅以线性注意力模块增强全局建模能力，有效解决了火焰视频弱纹理、快速变化导致的特征提取难题。在真实回转窑数据集上达到97.76%准确率，较基线模型提升2%，为工业燃烧过程智能控制提供了新范式。

Highlight

本研究通过结合全局与局部注意力机制，构建了针对弱纹理快速变化火焰视频的轻量化视频Transformer模型。VST模块采用移位窗口策略捕捉局部形态特征，而创新的VLA模块以线性计算复杂度实现全局时序动态建模，二者协同提升模型对烧结工况的识别鲁棒性。

Related works

烧结工况识别方法历经三个发展阶段：

1）基于分割的方法：通过统计火焰/物料区域形态特征进行分类，但对噪声敏感且依赖人工阈值；

2）全局特征方法：采用LBP等纹理描述符，但难以表征快速动态变化；

3）深度学习方法：CNN虽取得进展，但受限于局部感受野和固定卷积核，对长程时空依赖建模不足。

Methodology

Sintering conditions description

回转窑火焰区工况按温度分为三类（图7）：

•
正常工况：火焰轮廓清晰，物料燃烧充分；
•
过冷工况：火焰短小伴随大量未燃颗粒；
•
过热工况：火焰剧烈抖动并产生热浪畸变。

Conclusions

本研究提出的混合注意力架构在保持线性计算复杂度的同时，显著提升了模型对工业火焰视频的时空特征提取能力。实验证明其识别准确率达97.76%，F1值提升4.96%，为实时燃烧过程控制提供了可靠的技术支撑。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号