免疫表位数据库中自由文本数据标准化研究成果显著

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Biomedical Semantics》：Standardizing free-text data exemplified by two fields from the Immune Epitope Database

【字体：大中小】 时间：2025年03月23日 来源：Journal of Biomedical Semantics 1.6

编辑推荐：

　　研究人员针对免疫表位数据库（IEDB）自由文本数据问题，开展标准化研究，ADP 工具成效良好，提升数据质量。

欢迎下载【ADC药物研发与生产解决方案】，查看各阶段相关工艺流程技术细节！

为了促进科学的传播，生物通采集了这篇文章，如需英文原文，请点击！订阅BioHot索取原文

　　在生物医学领域，大量数据以非结构化形式存在，其中自由文本数据更是占据了相当大的比例。想象一下，在医学研究的浩瀚海洋里，这些自由文本数据就像散落在各处的宝藏，但由于它们的非结构化特性，难以被自动分析利用，如同被锁在宝箱里无法开启的珍宝。免疫表位数据库（IEDB）是一个公开的免疫表位数据库，对研究感染性和免疫介导疾病意义重大，可其中的自由文本数据在遵循 FAIR 数据标准方面表现不佳，严重影响了数据的利用价值。为了解决这一难题，来自美国拉霍亚免疫学研究所（La Jolla Institute for Immunology）、加拿大 Knocean Inc.、美国加利福尼亚大学圣地亚哥分校（University of California San Diego）的研究人员 Sebastian Duesing、Jason Bennett 等人开展了一项关于自由文本数据标准化的研究，相关成果发表在《Journal of Biomedical Semantics》上。

研究人员为了实现自由文本数据的标准化，创建了非基于大语言模型（LLM）的自由文本归一化工具 ADP（Adaptable, user-Dependent, and Precise），该工具可以有效去除文本中不影响含义的差异，从而将数据与结构化词汇表（如本体）对齐。在研究过程中，研究人员主要采用了以下关键技术方法：首先，ADP 通过迭代的字符和单词归一化过程，根据用户设定的规则对数据进行处理，如识别和纠正拼写错误、处理特殊字符等；其次，利用模式匹配的方式进行短语归一化，将数据项中的短语结构与用户定义的模式进行匹配，对匹配的短语按照标准形式进行格式化；此外，还通过测量 Levenshtein 距离来评估归一化过程中字符串的变化程度，以此来衡量数据的改变情况。

了解SCB开发的高活性激酶等酶蛋白、Tau等信号转导相关蛋白，立即下载产品全目录 >>>领取

研究结果如下：

广告 Twist FlexPrep™ UHT文库制备试剂盒为人群大队列研究、农业基因组学和其他超高通量应用提供了一种替代基因芯片的 NGS 解决方案。欢迎下载！

用户操作效率：ADP 工具的标准化效果取决于用户设定规则的全面性。研究人员对两个数据集采用非详尽的规则设定方法，优先针对高频出现的字符、单词和短语模式设定规则。结果显示，年龄数据集设置了 21 个字符规则、94 个单词规则和 16 个短语模式，数据位置数据集设置了 39 个字符规则、187 个单词规则和 12 个短语模式，即可实现较高的标准化程度。而且，一次规则实施和测试周期通常为 5 - 20 分钟，多数情况下为 5 分钟，多个类似规则一起实施并不会大幅增加时间成本。
数据集和阶段的有效性率：在字符阶段，年龄数据集和数据位置数据集的有效性率均高于 99%；单词阶段，两个数据集的有效性率均高于 98%。不过，年龄数据集在短语阶段的有效性率为 83.8%，低于数据位置数据集的 97.9%。这是因为年龄数据集中存在较多匹配无效模式的数据项，如无单位的数值和年龄范围，这些数据由于单位不明确，在查询时会造成困扰，所以被有意剔除，并非归一化效果不佳。
归一化输出的准确性：通过对每个数据集随机抽取的子集进行初步手动审查发现，年龄数据集未发现真正的错误，数据位置数据集的错误率为 2.54% - 3.63%。并且，所有错误均来自数据位置分割代码这一辅助模块，而非核心归一化工具集。虽然目前的审查规模较小且不全面，但初步结果表明 ADP 在归一化方面有较高的准确性。
数据项的变化程度：在字符和单词阶段，Levenshtein 距离分数显示，年龄数据集多数数据项修改较少；数据位置数据集由于大量 HLA 配体图谱 URL 的存在，在字符阶段有特定的分数分布，单词阶段多数 URL 未进行单词归一化，分数集中在 0 附近。在短语阶段，由于数据项结构变化较大，Levenshtein 距离不再适用。对于数据位置数据集，经过分割后，数据的有效性率很高，且分割短语数较多的数据项往往有效性率也高。

研究结论和讨论部分指出，ADP 工具在年龄和数据位置数据集上初步显示出较高的输出有效性，且用户只需进行较少的操作决策。虽然还需在更多数据集上进行测试，但这一成果为免疫表位数据库（IEDB）改善数据的可发现性和可用性带来了希望。通过对这两个数据集的标准化处理，能够使数据更易于搜索和与本体进行链接，符合 FAIR 数据原则，有助于提升 IEDB 整体数据的质量和价值。此外，ADP 工具与其他基于大语言模型的工具相比，在处理特定数据方面具有独特优势，未来研究人员还将进一步评估其与其他工具的准确性，以探索更高效的数据标准化方法，挖掘大量未充分利用的生物医学数据的潜在价值。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析！

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》