编辑推荐:
研究人员探索 AI 辅助叙事搜索引擎,发现其检索相关病例叙事能力强,助力药物警戒信号评估。
在当今医疗领域,药物不良反应事件的监测与评估至关重要。近年来,随着不良事件报告数量的急剧增加,尤其是在新冠疫苗接种期间,如何高效地从海量的报告中筛选出有价值的信息,成为了药物警戒工作中的一大挑战。在药物警戒信号评估过程中,人工手动识别特定病例叙事,不仅耗费大量时间和精力,而且容易出现疏漏。传统的精确匹配搜索方式,需要用户手动确定所有可能的搜索词,过程繁琐且效果不佳。比如,当评估心血管疾病相关的不良反应时,用户不仅要考虑 “心血管” 这个词,还要想到 “心脏”“动脉” 等诸多同义词,这无疑增加了搜索的难度和复杂性。
为了解决这些问题,来自瑞典乌普萨拉监测中心(Uppsala Monitoring Centre)的研究人员 Alem Zekarias、Eva-Lisa Meldau 等人开展了一项关于叙事搜索引擎的研究。该研究成果发表在《Drug Safety》杂志上。
研究人员旨在探索利用人工智能(AI)查询建议支持的叙事搜索引擎识别包含特定特征病例叙事的可行性。为此,他们采用了一系列关键技术方法:
- 构建叙事搜索引擎:该搜索引擎以 Best Match 25(BM25)算法为核心搜索方法,并对搜索词进行词干提取。同时,借助两种词嵌入模型(Global Vectors for Word Representation,GloVe 和 word2vec),为用户提供查询建议。这两种模型分别用于处理通用英语文本和生物医学文献,能够根据用户输入的原始查询词,推荐相似的搜索词,帮助用户优化搜索12。
- 创建评估数据集:研究人员从世界卫生组织全球药品和疫苗不良事件报告数据库 VigiBase 中选取了新冠疫苗相关的病例系列,创建了评估数据集。针对不同的不良事件,如重度月经出血、心肌炎等,确定了相应的搜索主题,并由两位经验丰富的药物警戒评估员对每个病例叙事进行标注,判断其与主题的相关性34。
- 评估指标与方法:采用召回率(recall)和精确率(precision)等指标来评估搜索引擎的性能。召回率用于衡量检索到的相关文本占总相关文本的比例,精确率则反映了检索到的文本中相关文本的比例。同时,通过绘制秩召回曲线(rank-recall curves)来评估排序质量,并对查询建议、错误情况进行分析,还计算了搜索引擎的计算效率567。
研究结果如下:
- 检索性能评估:研究发现,与精确匹配搜索和 BM25 + RM3(Relevance Model 3,一种查询扩展方法)相比,BM25 + QS + Human(Query Suggestion,查询建议)系统具有更高的召回率。在微平均计算下,BM25 + QS + Human 的召回率达到 56.4%,而精确匹配搜索仅为 21.8%,BM25 + RM3 为 34.4%。同时,BM25 + QS + Human 的精确率虽低于精确匹配搜索,但差异不具有统计学意义,且高于 BM25 + RM38910。
- 排名分析:通过对秩召回曲线的定性分析,发现 BM25 + QS + Human 的排名总体上比精确匹配搜索更接近最优排名。在部分查询中,BM25 + QS + Human 能够检索到更多相关叙事,且排名质量更好11。
- 查询建议分析:手动检查查询建议发现,基于词嵌入模型的查询建议与原始查询词在语义上更相关,而 RM3 的扩展词与原始查询词的语义相似性不明显,有时甚至无法扩展查询1213。
- 错误分析:对未检索到的相关叙事(假阴性)和检索到但不相关的叙事(假阳性)进行分析,找出了部分导致错误的原因。例如,部分假阴性是由于查询中未包含某些关键术语,而部分假阳性则是由特定查询词引起的1415。
- 计算效率:该搜索引擎在计算效率方面表现出色,对每个包含 150 个叙事的病例系列进行索引的时间不到 20 秒,每次查询(包括检索新的查询建议)的时间最长为 1 秒16。
在研究结论与讨论部分,该研究表明,AI 查询建议支持且有人参与的叙事搜索引擎,在检索相关病例叙事方面表现出色,能够为药物警戒评估人员提供有力支持。与传统搜索方式相比,它能检索到更多相关叙事,且排名质量更高。虽然精确匹配搜索在某些特定情况下可能更受青睐,但在实际应用中,该搜索引擎的优势明显。此外,该搜索引擎使用的小型词嵌入模型使得计算效率较高,适合在资源有限的环境中使用。然而,研究也存在一定的局限性,如评估的查询数量有限、仅针对新冠疫苗报告进行研究等。未来的研究可以进一步拓展研究范围,探索更多的应用场景,以及改进搜索引擎的功能,如处理否定词等。总的来说,这项研究为药物警戒领域的信息检索提供了新的思路和方法,具有重要的意义,有望推动药物警戒工作更加高效、精准地开展。