基于双Transformer编码器与图像分割的场景文本脚本识别方法Split-Net研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月16日 来源：Pattern Recognition Letters 3.9

编辑推荐：

　　【编辑推荐】针对场景文本图像中因字体设计、背景干扰及脚本特征重叠导致的识别难题，研究人员提出Split-Net模型，通过水平分割图像并采用改进的Mobile-Vision Transformer（M-ViT）与边缘增强风格感知通道注意力模块（EESA-CAM）提取局部特征，结合梯度动态加权融合双编码器特征。实验在MLe2e等数据集上超越现有方法，为多脚本OCR系统开发提供新思路。

在数字化时代，场景文本识别技术面临巨大挑战——不同语言文字的物理形态、字体设计、背景复杂度及特征重叠导致传统光学字符识别（OCR）系统难以通用化。例如，阿拉伯语与泰语脚本的微小差异（如一个点的位置）可能被现有模型忽略，而印度语系脚本的笔画风格又需依赖特定区域特征。这一问题在跨国场景（如路牌、广告）中尤为突出，亟需一种能捕捉脚本细微差异的智能识别方法。

为此，国内研究人员提出Split-Net模型，其核心创新在于将文本图像水平分割为上下两部分，分别通过改进的Mobile-Vision Transformer（M-ViT）编码器提取特征，并引入边缘增强风格感知通道注意力模块（EESA-CAM）强化局部与全局特征表达。最终利用梯度信息动态加权融合双编码器输出，实现精准脚本分类。该研究发表于《Pattern Recognition Letters》，在MLe2e、CVSI2015和SIW-13数据集上取得最优性能。

关键技术包括：（1）图像水平分割策略；（2）集成EESA-CAM的M-ViT编码器设计；（3）基于梯度权重的双编码器特征融合。实验数据来自标准场景文本数据集，涵盖多语种文本行/单词样本。

Related work
现有方法多从整图提取局部与全局特征，但忽略上下半区的差异化信息。例如，印度语系脚本的显著特征集中于上半区，而阿拉伯语等依赖下半区笔画。

Proposed approach
模型将输入图像分割为上下两部分，分别输入双M-ViT编码器。EESA-CAM模块通过边缘增强与风格感知机制优化特征提取，梯度融合模块动态平衡双编码器贡献。

Experimental results
在SIW-13数据集中，Split-Net准确率达98.7%，较SANet提升4.2%。消融实验证实EESA-CAM与梯度融合分别贡献2.1%和1.8%性能增益。

Conclusion and future work
研究证实脚本区域分割策略的有效性，未来可扩展至垂直分割或多区域分析。该成果为多语言OCR系统开发提供新范式。

（注：全文细节均依据原文，专业术语如Mobile-Vision Transformer^M-ViT
、Edge Enhanced Style Aware Channel Attention Module^EESA-CAM
等首次出现时均标注英文缩写，作者名Ayush Roy等保留原格式。）

热点排行

新闻专题

联系信箱：

粤ICP备09063491号