编辑推荐:
在生物多样性研究中,历史文本数据常被忽视。为挖掘其价值,研究人员对 1845 年巴伐利亚脊椎动物分布调查数据进行数字化处理。他们将 520 页手写资料转化为 5,467 条记录,成果可通过 GBIF 和 Zenodo 获取,为历史和当代生态学研究提供关键数据。
在生物多样性研究的领域中,历史物种记录对于了解生态变化、制定保护策略至关重要。然而,当前自然历史博物馆虽在标本数字化方面取得进展,但其他历史记录,尤其是生物多样性的文本资料却大多未被充分挖掘利用。“档案社会” 中的行政文件、通信等文本资源,由于需要历史科学专业知识解读,其价值一直未得到有效发挥,这促使了历史生态学这一交叉学科的诞生。在此背景下,为填补历史物种记录的空白,深入探究生物多样性变化,来自德国多所机构(如帕绍大学、柏林自由大学、巴伐利亚州立档案馆等)的研究人员展开了关于 1845 年巴伐利亚脊椎动物分布的研究。他们的研究成果发表在《Scientific Data》上,为相关领域提供了宝贵的数据支持与研究思路。
研究人员采用了多种关键技术方法。首先是数字化技术,依据德国研究理事会(DFG)建议,将原始纸质档案文件制作成未压缩的 TIFF 图像,分辨率达 300 ppi,再通过布局识别和基于 AI 的手写文本识别(HTR)技术,借助预训练的 Transkribus 模型 “The Text Titan”,将图像转化为机器可处理文本,并经人工校对提高准确性。其次是数据整理与分类技术,按照林业办公室名称和分类单元名称整理文本,对 44 种预定义物种及其他报告物种进行数据化处理,确定物种名称的科学命名和分类,标注二元存在 / 不存在信息等。最后是数据发布技术,运用标准化术语,依据 ABCD 模式对数据进行转换,以 CC BY 许可协议在全球生物多样性信息设施(GBIF)和 Zenodo 两个平台发布。
研究结果如下:
- 数据来源与处理:数据源于 1845 年巴伐利亚州皇家林业办公室对 44 种脊椎动物的调查,119 个林业办公室参与,共 520 页手写资料。经数字化、数据化等处理,得到 5,467 条物种出现记录,涵盖哺乳动物、鸟类和爬行动物等。这些记录不仅有物种存在与否的信息,还包含林业官员填写的定性描述,如物种数量、种群趋势等。
- 数据记录形式:数据集包含多种数据记录,如原始档案的数字图像可在巴伐利亚州立档案馆在线服务平台获取;Zenodo 上的数据集包含转录数据(XML 文件)、主要出现数据表(CSV 文件)等多种格式,方便用户从不同角度查询和分析数据。
- 数据验证:通过历史源批判方法验证历史信息,确认调查文件的真实性、完整性、日期准确性等。同时,对数据处理过程进行多方面验证,如转录内容多次核对、物种名称分类核实、数据集一致性和完整性自动检查等,确保数据质量可靠。
- 数据应用与注意事项:该数据集可用于研究物种和生态系统的影响因素、开展比较和综合分析、推进生物多样性信息学发展。但使用时需考虑地理信息变化、观测时间不精确、物种分类局限性等问题,还应注意历史语言和文本主观性对数据解读的影响。
研究结论表明,该研究成功将 1845 年巴伐利亚脊椎动物分布的历史数据进行数字化、整理和发布,为历史生态学和生物多样性研究提供了重要的数据基础。这些数据有助于确定保护基线、制定相关政策,了解历史时期的人与自然关系,以及物种栖息地变化等。同时,研究也为全球范围内类似历史数据的挖掘和利用提供了范例,推动了跨学科研究在生物多样性领域的发展。不过,研究也存在一定局限性,如数据质量的差异、部分物种分类的不确定性等,未来需要进一步改进和完善。但总体而言,该研究成果对于生物多样性保护和生态研究具有重要的意义,为后续研究提供了新的方向和思路。