
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于双Transformer编码器与图像分割的场景文本脚本识别方法Split-Net研究
【字体: 大 中 小 】 时间:2025年06月16日 来源:Pattern Recognition Letters 3.9
编辑推荐:
【编辑推荐】针对场景文本图像中因字体设计、背景干扰及脚本特征重叠导致的识别难题,研究人员提出Split-Net模型,通过水平分割图像并采用改进的Mobile-Vision Transformer(M-ViT)与边缘增强风格感知通道注意力模块(EESA-CAM)提取局部特征,结合梯度动态加权融合双编码器特征。实验在MLe2e等数据集上超越现有方法,为多脚本OCR系统开发提供新思路。
在数字化时代,场景文本识别技术面临巨大挑战——不同语言文字的物理形态、字体设计、背景复杂度及特征重叠导致传统光学字符识别(OCR)系统难以通用化。例如,阿拉伯语与泰语脚本的微小差异(如一个点的位置)可能被现有模型忽略,而印度语系脚本的笔画风格又需依赖特定区域特征。这一问题在跨国场景(如路牌、广告)中尤为突出,亟需一种能捕捉脚本细微差异的智能识别方法。
为此,国内研究人员提出Split-Net模型,其核心创新在于将文本图像水平分割为上下两部分,分别通过改进的Mobile-Vision Transformer(M-ViT)编码器提取特征,并引入边缘增强风格感知通道注意力模块(EESA-CAM)强化局部与全局特征表达。最终利用梯度信息动态加权融合双编码器输出,实现精准脚本分类。该研究发表于《Pattern Recognition Letters》,在MLe2e、CVSI2015和SIW-13数据集上取得最优性能。
关键技术包括:(1)图像水平分割策略;(2)集成EESA-CAM的M-ViT编码器设计;(3)基于梯度权重的双编码器特征融合。实验数据来自标准场景文本数据集,涵盖多语种文本行/单词样本。
Related work
现有方法多从整图提取局部与全局特征,但忽略上下半区的差异化信息。例如,印度语系脚本的显著特征集中于上半区,而阿拉伯语等依赖下半区笔画。
Proposed approach
模型将输入图像分割为上下两部分,分别输入双M-ViT编码器。EESA-CAM模块通过边缘增强与风格感知机制优化特征提取,梯度融合模块动态平衡双编码器贡献。
Experimental results
在SIW-13数据集中,Split-Net准确率达98.7%,较SANet提升4.2%。消融实验证实EESA-CAM与梯度融合分别贡献2.1%和1.8%性能增益。
Conclusion and future work
研究证实脚本区域分割策略的有效性,未来可扩展至垂直分割或多区域分析。该成果为多语言OCR系统开发提供新范式。
(注:全文细节均依据原文,专业术语如Mobile-Vision TransformerM-ViT
、Edge Enhanced Style Aware Channel Attention ModuleEESA-CAM
等首次出现时均标注英文缩写,作者名Ayush Roy等保留原格式。)
生物通微信公众号
知名企业招聘