基于双Transformer编码器与图像分割的场景文本脚本识别方法Split-Net研究

【字体: 时间:2025年06月16日 来源:Pattern Recognition Letters 3.9

编辑推荐:

  【编辑推荐】针对场景文本图像中因字体设计、背景干扰及脚本特征重叠导致的识别难题,研究人员提出Split-Net模型,通过水平分割图像并采用改进的Mobile-Vision Transformer(M-ViT)与边缘增强风格感知通道注意力模块(EESA-CAM)提取局部特征,结合梯度动态加权融合双编码器特征。实验在MLe2e等数据集上超越现有方法,为多脚本OCR系统开发提供新思路。

  

在数字化时代,场景文本识别技术面临巨大挑战——不同语言文字的物理形态、字体设计、背景复杂度及特征重叠导致传统光学字符识别(OCR)系统难以通用化。例如,阿拉伯语与泰语脚本的微小差异(如一个点的位置)可能被现有模型忽略,而印度语系脚本的笔画风格又需依赖特定区域特征。这一问题在跨国场景(如路牌、广告)中尤为突出,亟需一种能捕捉脚本细微差异的智能识别方法。

为此,国内研究人员提出Split-Net模型,其核心创新在于将文本图像水平分割为上下两部分,分别通过改进的Mobile-Vision Transformer(M-ViT)编码器提取特征,并引入边缘增强风格感知通道注意力模块(EESA-CAM)强化局部与全局特征表达。最终利用梯度信息动态加权融合双编码器输出,实现精准脚本分类。该研究发表于《Pattern Recognition Letters》,在MLe2e、CVSI2015和SIW-13数据集上取得最优性能。

关键技术包括:(1)图像水平分割策略;(2)集成EESA-CAM的M-ViT编码器设计;(3)基于梯度权重的双编码器特征融合。实验数据来自标准场景文本数据集,涵盖多语种文本行/单词样本。

Related work
现有方法多从整图提取局部与全局特征,但忽略上下半区的差异化信息。例如,印度语系脚本的显著特征集中于上半区,而阿拉伯语等依赖下半区笔画。

Proposed approach
模型将输入图像分割为上下两部分,分别输入双M-ViT编码器。EESA-CAM模块通过边缘增强与风格感知机制优化特征提取,梯度融合模块动态平衡双编码器贡献。

Experimental results
在SIW-13数据集中,Split-Net准确率达98.7%,较SANet提升4.2%。消融实验证实EESA-CAM与梯度融合分别贡献2.1%和1.8%性能增益。

Conclusion and future work
研究证实脚本区域分割策略的有效性,未来可扩展至垂直分割或多区域分析。该成果为多语言OCR系统开发提供新范式。

(注:全文细节均依据原文,专业术语如Mobile-Vision TransformerM-ViT
、Edge Enhanced Style Aware Channel Attention ModuleEESA-CAM
等首次出现时均标注英文缩写,作者名Ayush Roy等保留原格式。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号