免疫表位数据库中自由文本数据标准化研究成果显著

《Journal of Biomedical Semantics》:Standardizing free-text data exemplified by two fields from the Immune Epitope Database

【字体: 时间:2025年03月23日 来源:Journal of Biomedical Semantics 1.6

编辑推荐:

  研究人员针对免疫表位数据库(IEDB)自由文本数据问题,开展标准化研究,ADP 工具成效良好,提升数据质量。

  在生物医学领域,大量数据以非结构化形式存在,其中自由文本数据更是占据了相当大的比例。想象一下,在医学研究的浩瀚海洋里,这些自由文本数据就像散落在各处的宝藏,但由于它们的非结构化特性,难以被自动分析利用,如同被锁在宝箱里无法开启的珍宝。免疫表位数据库(IEDB)是一个公开的免疫表位数据库,对研究感染性和免疫介导疾病意义重大,可其中的自由文本数据在遵循 FAIR 数据标准方面表现不佳,严重影响了数据的利用价值。为了解决这一难题,来自美国拉霍亚免疫学研究所(La Jolla Institute for Immunology)、加拿大 Knocean Inc.、美国加利福尼亚大学圣地亚哥分校(University of California San Diego)的研究人员 Sebastian Duesing、Jason Bennett 等人开展了一项关于自由文本数据标准化的研究,相关成果发表在《Journal of Biomedical Semantics》上。
研究人员为了实现自由文本数据的标准化,创建了非基于大语言模型(LLM)的自由文本归一化工具 ADP(Adaptable, user-Dependent, and Precise),该工具可以有效去除文本中不影响含义的差异,从而将数据与结构化词汇表(如本体)对齐。在研究过程中,研究人员主要采用了以下关键技术方法:首先,ADP 通过迭代的字符和单词归一化过程,根据用户设定的规则对数据进行处理,如识别和纠正拼写错误、处理特殊字符等;其次,利用模式匹配的方式进行短语归一化,将数据项中的短语结构与用户定义的模式进行匹配,对匹配的短语按照标准形式进行格式化;此外,还通过测量 Levenshtein 距离来评估归一化过程中字符串的变化程度,以此来衡量数据的改变情况。

研究结果如下:

  • 用户操作效率:ADP 工具的标准化效果取决于用户设定规则的全面性。研究人员对两个数据集采用非详尽的规则设定方法,优先针对高频出现的字符、单词和短语模式设定规则。结果显示,年龄数据集设置了 21 个字符规则、94 个单词规则和 16 个短语模式,数据位置数据集设置了 39 个字符规则、187 个单词规则和 12 个短语模式,即可实现较高的标准化程度。而且,一次规则实施和测试周期通常为 5 - 20 分钟,多数情况下为 5 分钟,多个类似规则一起实施并不会大幅增加时间成本。
  • 数据集和阶段的有效性率:在字符阶段,年龄数据集和数据位置数据集的有效性率均高于 99%;单词阶段,两个数据集的有效性率均高于 98%。不过,年龄数据集在短语阶段的有效性率为 83.8%,低于数据位置数据集的 97.9%。这是因为年龄数据集中存在较多匹配无效模式的数据项,如无单位的数值和年龄范围,这些数据由于单位不明确,在查询时会造成困扰,所以被有意剔除,并非归一化效果不佳。
  • 归一化输出的准确性:通过对每个数据集随机抽取的子集进行初步手动审查发现,年龄数据集未发现真正的错误,数据位置数据集的错误率为 2.54% - 3.63%。并且,所有错误均来自数据位置分割代码这一辅助模块,而非核心归一化工具集。虽然目前的审查规模较小且不全面,但初步结果表明 ADP 在归一化方面有较高的准确性。
  • 数据项的变化程度:在字符和单词阶段,Levenshtein 距离分数显示,年龄数据集多数数据项修改较少;数据位置数据集由于大量 HLA 配体图谱 URL 的存在,在字符阶段有特定的分数分布,单词阶段多数 URL 未进行单词归一化,分数集中在 0 附近。在短语阶段,由于数据项结构变化较大,Levenshtein 距离不再适用。对于数据位置数据集,经过分割后,数据的有效性率很高,且分割短语数较多的数据项往往有效性率也高。

研究结论和讨论部分指出,ADP 工具在年龄和数据位置数据集上初步显示出较高的输出有效性,且用户只需进行较少的操作决策。虽然还需在更多数据集上进行测试,但这一成果为免疫表位数据库(IEDB)改善数据的可发现性和可用性带来了希望。通过对这两个数据集的标准化处理,能够使数据更易于搜索和与本体进行链接,符合 FAIR 数据原则,有助于提升 IEDB 整体数据的质量和价值。此外,ADP 工具与其他基于大语言模型的工具相比,在处理特定数据方面具有独特优势,未来研究人员还将进一步评估其与其他工具的准确性,以探索更高效的数据标准化方法,挖掘大量未充分利用的生物医学数据的潜在价值。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
    生物通微信公众号
    微信
    新浪微博

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号

    生物通精彩推荐 • 辛伐他汀通过调控中性粒细胞胞外陷阱减轻急性呼吸窘迫综合征小鼠呼吸机相关性肺损伤的研究 • 《Nature Neuroscience》从视网膜出发,49 种 GABA 信号打破神经认知 “坚冰”