在生物医学领域,大量数据以非结构化形式存在,其中自由文本数据更是占据了相当大的比例。想象一下,在医学研究的浩瀚海洋里,这些自由文本数据就像散落在各处的宝藏,但由于它们的非结构化特性,难以被自动分析利用,如同被锁在宝箱里无法开启的珍宝。免疫表位数据库(IEDB)是一个公开的免疫表位数据库,对研究感染性和免疫介导疾病意义重大,可其中的自由文本数据在遵循 FAIR 数据标准方面表现不佳,严重影响了数据的利用价值。为了解决这一难题,来自美国拉霍亚免疫学研究所(La Jolla Institute for Immunology)、加拿大 Knocean Inc.、美国加利福尼亚大学圣地亚哥分校(University of California San Diego)的研究人员 Sebastian Duesing、Jason Bennett 等人开展了一项关于自由文本数据标准化的研究,相关成果发表在《Journal of Biomedical Semantics》上。
研究人员为了实现自由文本数据的标准化,创建了非基于大语言模型(LLM)的自由文本归一化工具 ADP(Adaptable, user-Dependent, and Precise),该工具可以有效去除文本中不影响含义的差异,从而将数据与结构化词汇表(如本体)对齐。在研究过程中,研究人员主要采用了以下关键技术方法:首先,ADP 通过迭代的字符和单词归一化过程,根据用户设定的规则对数据进行处理,如识别和纠正拼写错误、处理特殊字符等;其次,利用模式匹配的方式进行短语归一化,将数据项中的短语结构与用户定义的模式进行匹配,对匹配的短语按照标准形式进行格式化;此外,还通过测量 Levenshtein 距离来评估归一化过程中字符串的变化程度,以此来衡量数据的改变情况。