基于两级多分支卷积神经网络的手写古吉拉特文字符识别框架研究
《IEEE Access》:A Two-Level Multi-Branch Convolutional Neural Network Framework for Handwritten Gujarati Character Recognition
【字体:
大
中
小
】
时间:2025年12月11日
来源:IEEE Access 3.6
编辑推荐:
本刊编辑推荐:针对手写古吉拉特文字符结构复杂、视觉相似度高导致的识别难题,研究人员提出了一种两级多分支卷积神经网络(BCNN)框架。该研究通过构建包含186个类别11.16万样本的手写古吉拉特文字符数据集(HGCD),采用MobileNet/VGG16/NASNet作为骨干网络,实现了粗分类(元音/辅音/数字/连字)与细分类的层次化识别。实验表明MobileNet-BCNN模型准确率达98.32%,较传统CNN提升14%,有效降低了类间混淆,为复杂印度文字识别提供了新思路。
在数字化浪潮席卷全球的今天,如何让古老的文字在数字世界重焕生机,成为文化遗产保护的重要课题。古吉拉特文作为印度四大古典文字之一,不仅承载着《吠陀经》等宗教典籍的智慧,更在当代被5000万人口日常使用。然而,这种拥有复杂连字结构和修饰符的文字系统,却给光学字符识别(OCR)技术带来了巨大挑战——字符间极高的视觉相似度、连字组合的千变万化,以及手写体的个人风格差异,使得传统识别方法往往力不从心。
以往的研究多采用平面卷积神经网络(CNN)或混合深度学习-机器学习(DL-ML)架构进行直接分类,但面对古吉拉特文特有的层次化结构时,这些方法往往难以有效区分易混淆字符。特别是在处理连字(conjuncts)时,传统模型准确率会出现明显下降。正是为了解决这一瓶颈问题,尼玛大学的研究团队在《IEEE Access》上发表了创新性研究成果,提出了一种仿生语言学结构的两级多分支卷积神经网络(BCNN)框架。
研究团队首先构建了迄今为止最全面的手写古吉拉特文字符数据集(HGCD)。通过精心设计的表格采集了来自不同职业、性别和地区的书写样本,最终形成了包含34个辅音、12个元音、10个数字和130个常用连字,总计186个类别11.16万张图像的大规模数据集。每个字符类别均包含600个样本,确保了数据的代表性和平衡性。
关键技术方法主要包括:采用基于OpenCV的图像处理流程进行表格扫描、网格识别和字符定位;使用三种预训练CNN模型(MobileNet、VGG16、NASNet)作为共享特征提取器;设计层次化分类架构,包含一个粗分类器和四个细分类分支;通过稀疏分类交叉熵损失函数进行端到端优化;采用早停法防止过拟合。
研究人员通过系统化的数据采集流程,获得了具有丰富多样性的手写样本。所有图像均经过标准化处理,统一调整为224×224像素分辨率,并按80:20比例划分为训练集(89280张)和测试集(22320张)。数据预处理环节采用高斯滤波去噪和Canny边缘检测技术,有效提升了图像质量。特别值得关注的是,该数据集首次大规模包含了古吉拉特文连字字符,为研究复杂文字结构识别提供了重要基础。
该研究的核心创新在于提出了分支卷积神经网络架构。模型首先通过共享的卷积基网络提取通用特征,然后并行连接五个专门化分支:B0负责粗分类(元音/辅音/数字/连字),B1-B4分别对应连字、辅音、数字和元音的细分类。这种设计模仿了人类识别文字的认知过程——先判断字符类型,再进行精确识别。数学上,该模型通过联合优化所有分支的损失函数(Ltotal= L0+L1+L2+L3+L4)实现端到端训练。
在测试集上的实验结果表明,基于MobileNet的BCNN架构表现最优,整体准确率达到98.32%,显著高于传统CNN结合迁移学习(83.94%)和CNN-ML混合方法(83.40%)。具体到各个分支,数字识别准确率接近完美(99.97%),元音识别达99.60%,辅音为98.63%,连字识别虽略低但仍达到94.40%。值得注意的是,错误分析显示识别错误大多局限于分支内部,很少出现跨类别误判,证明了层次化设计的有效性。
通过混淆矩阵和准确率分布图可以清晰看到,大多数识别错误发生在视觉高度相似的字符之间。例如,连字分支中的C123类准确率仅为53%,主要因其与同类其他字符形状相近。然而,这些错误被有效限制在连字分类分支内,不会影响其他字符类型的识别精度。这种错误隔离机制是BCNN相比传统平面CNN架构的核心优势之一。
研究还对比了三种骨干网络的性能。MobileNet在保持计算效率的同时实现了最佳平衡,在150个类别上准确率超过90%。VGG16虽然整体表现接近(152个类别>90%),但在4个连字类别上准确率低于50%,显示出对复杂字符的识别稳定性不足。NASNet则处于两者之间,共有136个类别准确率超过90%。这一比较说明,并非网络深度越深效果越好,适当的网络复杂度与任务匹配度更为关键。
研究结论表明,两级多分支卷积神经网络框架通过模拟古吉拉特文的语言学层次结构,有效降低了类间混淆,显著提升了手写字符的识别准确率。该研究不仅为古吉拉特文数字化提供了实用解决方案,其层次化设计思路还可推广至其他复杂文字系统的识别任务中。特别是错误隔离机制和分支专业化设计,为处理高相似度模式识别问题提供了新范式。
未来研究方向包括引入注意力机制以提升对复杂连字的识别能力,开发可解释性工具辅助错误分析,以及将框架扩展至其他印度文字系统。随着这些技术的不断完善,古老文字的数字化保存与智能处理将进入新的发展阶段,为文化遗产的传承与创新利用奠定坚实基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号