HisDoc1B:大规模中文历史文献识别与分析数据集,开启古文化研究新征程

【字体: 时间:2025年01月30日 来源:Scientific Data 5.8

编辑推荐:

  为解决现有中文历史文献数据集数据规模有限、字符类别不足、缺乏书籍级注释等问题,研究人员开展了构建大规模数据集 HisDoc1B 的研究。结果表明该数据集规模大、注释全,能推动中文历史文献识别与分析研究。

  在人类文明的长河中,历史文献犹如璀璨明珠,承载着无数珍贵的信息。尤其是源远流长的中华文明,留下了海量的历史文献,涵盖历史、艺术、医学等诸多领域。对这些文献进行识别和分析,就像是打开一扇通往古代文化世界的大门,意义非凡。然而,传统的人工识别和分析方式不仅效率低下,还容易出错。随着人工智能,特别是深度学习技术的飞速发展,自动识别和分析历史文献成为可能。但目前深度学习模型所依赖的现有中文历史文献数据集却存在诸多问题,比如数据规模有限,与现实世界中庞大的历史文献数量相比,简直是沧海一粟;字符类别覆盖不足,难以应对现实场景中的多样性挑战;而且缺乏书籍级注释,无法开展书籍层面的研究。为了填补这些空白,来自华南理工大学的研究人员开展了一项极具意义的研究,他们构建了一个名为 HisDoc1B 的大规模数据集,相关研究成果发表在《Scientific Data》上。
研究人员为构建 HisDoc1B 数据集,采用了一系列关键技术方法。首先是数据收集,他们从拥有丰富历史文献资源的国学大师网(https://www.guoxuedashi.net/guji/ )下载了约 45000 本扫描书籍作为源数据,这些数据主要为 PDF 和 DjVu 格式。然后进行数据清洗,通过专业 annotators 初步审查和自动脚本转换,去除不符合标准的数据,得到超 300 万高质量图像。在数据标注环节,设计了半自动标注方法,包含字符定位、字符标注、字符排列和文本标点四个主要步骤。利用深度学习算法进行字符定位和标注,通过自我监督预训练、数据合成和类别平均采样等策略提高标注质量。字符排列则基于启发式规则设计算法,文本标点采用基于深度学习的自动标点方法。最后进行数据验证,邀请领域专家对随机抽取的 100 张图像进行标注,与半自动标注系统结果对比,验证数据集质量。

研究结果如下:

  • 数据记录:HisDoc1B 数据集包含两个主要文件夹,分别存储历史文献电子书(PDF 或 DjVu 格式)和相应的 JSON 格式注释文件。注释文件包含字符位置、字符内容和标点文本等信息。不过,该数据集主要聚焦于中文历史文献常用字体类型,像甲骨文和金文等特殊字体暂未包含,这为后续研究指明了方向。
  • 技术验证:通过字符检测、字符识别和语言模型增量预训练三项技术验证任务,评估 HisDoc1B 数据集的实用性。在字符检测中,以 YOLOv7 为模型,在 HisDoc1B 数据集训练的模型在非同源数据集上泛化性能最强,这得益于数据集的风格多样性和大规模特性,也体现了注释的准确性。字符识别实验里,采用零样本识别模型 HierCode20 ,同样发现基于 HisDoc1B 数据集训练的模型泛化性能最佳。在语言模型增量预训练实验中,使用 Qwen1.51.5B 模型,结果表明在 HisDoc1B 数据集预训练的模型在性能上优于在 DaiZhiGe 语料库预训练的模型,这显示出 HisDoc1B 数据集能为模型提供丰富的古代中国文化知识和语言先验,且数据质量高。
  • 基线实验:进行字符检测和字符识别的基线实验。字符检测实验中,Faster R-CNN、YOLOX 和 YOLOv7 等方法性能相近。字符识别实验里,传统图像分类器中 ViT 略胜 ResNet50 ,零样本字符识别模型由于训练和测试集字符类别差异,性能优于传统分类器。
  • 挑战探索:研究还探索了数据集规模带来的挑战。通过训练不同参数规模和训练时长的 HierCode20 模型发现,为在该数据集上取得最佳效果,需要使用更多参数的模型和更长的训练时间,这对训练资源提出了更高要求。

研究结论和讨论部分,HisDoc1B 数据集作为目前该领域规模最大、注释最完整的数据集,其重要意义不言而喻。它不仅为中文历史文献的识别和分析提供了宝贵资源,推动了相关研究的发展,还为深度学习模型在该领域的应用奠定了坚实基础。虽然目前存在一些不足,如特殊字体缺失,但也为后续研究提供了拓展方向。未来,随着研究的深入和数据集的不断完善,有望在中文历史文献研究领域取得更多突破,让我们更加深入地了解古代中国文化的博大精深。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号