编辑推荐:
研究人员评估 ChatGPT 和 Gemini 用于疫苗不良反应因果评估的可行性,发现二者存在局限,更适合辅助人工评估。
在新冠疫情的大背景下,疫苗成为全球抗疫的关键武器。随着大规模疫苗接种的开展,新冠疫苗的不良反应报告数量急剧增加。以往,美国疫苗不良事件报告系统(VAERS)每年收到的疫苗相关个体病例安全报告(ICSRs)数量相对稳定且较少,在 2010 - 2020 年间,年均报告数量在 35,000 至 45,000 例左右。然而,2020 年末新冠疫苗推出后,到 2021 年底,仅与新冠疫苗相关的 AEFI 报告就达数百万份。如此庞大的数据量让美国食品药品监督管理局(FDA)和疾病控制与预防中心(CDC)处理和分析数据的能力面临巨大挑战。传统的手动处理 ICSRs 方式效率低下,已无法满足准确、及时进行安全性评估的需求。而当前的个体层面因果评估方法,通常依赖专家判断、算法和统计方法,既耗时又耗费资源。
在这样的困境下,大语言模型(LLMs)的出现带来了新的希望。LLMs 在医疗领域展现出了一定的文本处理能力,但其在疫苗警戒中用于逐案因果评估的应用还处于起步阶段。为此,来自哥本哈根大学、墨西拿大学等多个研究机构的研究人员,开展了一项关于使用现成的基于 LLMs 的工具,实现疫苗接种后不良事件(AEFI)因果评估程序自动化和支持的研究。该研究成果发表在《Drug Safety》杂志上。
研究人员采用的主要技术方法包括:从 VAERS 数据库提取数据,选取 150 例接种新冠疫苗后发生心肌炎和心包炎的病例;使用世界卫生组织(WHO)算法进行因果评估,该算法通过资格审查、清单核对、算法评估和分类四个步骤,确保疫苗安全性评估基于证据且系统规范;由人类专家依据 WHO 算法进行因果评估,其结果作为金标准参考;选用 ChatGPT(GPT - 3.5 - turbo - 16k)和 Gemini(Gemini - 1.5 - pro)这两个现成的 LLMs,按照 WHO 算法结构生成动态提示,通过 R 语言向 API 发送 POST 请求进行因果评估;运用描述性分析、构建混淆矩阵和性能指标柱状图等方式进行数据分析,还使用随机森林(RF)模型等探究影响 LLMs 性能和依从性的因素。
研究结果如下:
- 病例特征:多数心肌炎和心包炎病例(74.3%)发生在男性中,中位年龄为 27 岁,中位发病时间为 3 天,大部分病例(68.4%)需要住院治疗,死亡率仅为 0.7%。多数病例与 Comirnaty?(Pfizer/BioNTech)疫苗(52.2%)相关,其次是 Spikevax?(Moderna)(29.4%),且多与第二剂疫苗(44.1%)有关。经人类专家因果评估,68% 的病例与免疫接种存在因果关联,25.3% 的病例因果关联不一致,6% 为不确定,0.7% 无法分类。
- 主要结果:
- LLMs 的实施:ChatGPT 和 Gemini 均可用于 AEFI 的因果评估,但存在诸多问题。二者都无法准确遵循 WHO 算法指令,Gemini 还出现错误评分和技术故障,且二者都难以识别已列出的 AEFI。
- 评估一致性:人类专家之间的一致性接近完美(中位百分比一致性为 94%)。ChatGPT 与人类专家的一致性为中等(中位为 71%),Gemini 与人类专家的一致性为一般(中位为 53%),两个 LLMs 之间的一致性也仅为一般(中位为 50%)。
- 依从性情况:ChatGPT 对算法的依从率为 34%,Gemini 仅为 7%。对于 ChatGPT,依从算法的病例在提示部分的字符串复杂度通常较低;构建的 RF 模型预测 ChatGPT 依从性的准确率为 55% (95% 置信区间:35.7 - 73.5) 。
- 次要结果:LLMs 与人类专家在推理方面的一致性因问题而异。在识别替代原因、评估科学证据、判断时间合理性以及最终分类等方面,ChatGPT 和 Gemini 都存在不一致的推理,且无法正确关联提示不同部分的信息。
研究结论和讨论部分指出,本研究评估了 ChatGPT 和 Gemini 在评估新冠疫苗相关 AEFI 因果关系中的可靠性。虽然二者在因果评估过程的自动化方面有一定潜力,但都面临重大挑战。ChatGPT 相对表现较好,对 WHO 算法的依从性较高,与人类专家的一致性为中等;Gemini 表现不太稳定,依从性较低,一致性一般。二者在识别已知 AEFI、分类准确性和推理一致性方面存在不足,目前更适合作为人类专业知识的补充工具,而非独立解决方案。未来研究可探索优化提示策略、评估不同 LLM 架构以及扩大研究范围等,以提高 LLMs 在因果评估中的可靠性和准确性。这项研究为 LLMs 在疫苗安全性评估中的应用提供了重要参考,有助于推动该领域的进一步发展 。