大语言模型助力补充医学数据提取与偏倚风险评估研究解读
兰州大学公共卫生学院卫生政策与卫生管理系的研究人员 Honghao Lai 等人在npj Digital Medicine 期刊上发表了题为 “Language models for data extraction and risk of bias assessment in complementary medicine” 的论文。该期刊与首尔国立大学盆唐医院合作出版,在数字医学领域具有较高影响力。此项研究聚焦于大语言模型(LLMs)在补充医学研究中的应用,为提升证据合成的效率与准确性开辟了新路径,对推动补充医学临床实践和指南制定意义重大。
一、研究背景
证据合成在医学研究中至关重要,需独立审阅者提取数据并评估偏倚风险(ROB),这一过程既耗费人力又极为耗时。在补充和替代医学(CAM)研究领域,该问题更为突出。CAM 因自身的疗效和安全性备受临床医生和患者青睐,应用日益广泛。然而,由于缺乏高质量证据,急需高效的证据合成方法为临床实践提供支撑。
但 CAM 研究面临诸多挑战,其复杂且具有学科特异性的术语,以及多语言的文献资料,都使得数据提取困难重重。近年来,生成式人工智能取得显著进展,大语言模型(LLMs)应运而生。LLMs 具备强大的文本分析能力,能处理海量文本语料库、捕捉复杂语境并适应专业领域,在系统评价和荟萃分析方面展现出应用潜力。不过,其在 CAM 领域的应用存在局限,如难以构建适用于 CAM 的特定提示、保持术语准确性以及处理多样的语言和研究设计等问题。此外,AI 与人类专业知识协同工作的 LLM 辅助方法在 CAM 研究中的应用潜力尚未得到充分探索。基于此,本研究旨在开发结构化提示,引导 LLMs 提取 CAM 相关数据并评估 ROB,对比 LLM 单独使用和 LLM 辅助方法与传统方法的差异,以期提升数据提取和 ROB 评估的效率与质量。
二、研究材料与方法
(一)研究样本选择
研究人员从 12 篇 Cochrane 综述中随机选取 107 项随机对照试验(RCTs),时间跨度为 1979 - 2024 年。这些研究语言多样,27.1% 为英文,72.9% 为中文,且 44.9% 于 2013 年后发表。研究内容涵盖身心实践、草药汤剂、天然产品等多个方面。基于 OCR 识别能力,94.4% 的 RCTs 具有较高识别率(文本和数据准确检测率≥70%),5.6% 识别率较低(<70%)。
(二)研究工具与提示设计
研究选用了 Moonshot-v1-128k 和 Claude-3.5-sonnet 两种大语言模型。在数据提取提示设计上,依据 Cochrane 手册,纳入通用核心项目,并参考相关研究扩展至 CAM 特定元素,如中医诊断模式、治疗原则与方法等。对于 ROB 评估提示,研究人员依据修改后的 Cochrane 1.0 工具制定,包含序列生成、分配序列隐藏等十个领域。经过对五个选定 RCTs 的迭代试点测试,不断优化提示,直至两个 LLMs 能持续准确地提取数据和评估 ROB。
(三)研究人员与流程
四位经验有限(1 - 1.5 年证据合成经验)的中文母语研究者参与人工审阅,事先接受了为期一个月的标准化培训。研究流程如下:首先,由两名研究者分别使用 Moonshot-v1-128k 和 Claude-3.5-sonnet 对所有 RCTs 进行数据提取和 ROB 评估。接着,四位审阅者以较低准确性模型的输出为基础,独立进行数据提取和 ROB 评估,过程中可查阅原始文章并记录每个 RCT 的总耗时。最后,由两名方法学家对比 LLM 单独输出结果、LLM 辅助结果和手动提取评估结果,通过协商达成一致,建立参考标准。
(四)结果评估指标与数据分析
研究从准确性和效率两方面评估 LLM 单独使用和 LLM 辅助方法的性能,并与传统手动方法对比。数据提取方面,若存在重大遗漏或错误提取则判定为错误,格式或措辞的细微差异忽略不计;ROB 评估中,依据评估者判断的整体意图和影响,将 “definitely/probably yes” 归为低偏倚风险,“definitely/probably no” 归为高偏倚风险。效率评估通过测量每个 RCT 的总耗时来进行。数据分析使用 R 4.3.3 软件,计算正确率、率差(RD)及 95% 置信区间(CIs),还计算了 ROB 评估的敏感度、特异度、F 分数,以及评估一致性的相关指标。同时,对 PDF 识别率、发表语言、发表年份等潜在影响因素进行亚组分析。
三、研究结果
(一)数据提取结果
模型准确性对比 :Claude-3.5-sonnet 在数据提取上总体准确性(96.2%,95% CI:95.8 - 96.5%)高于 Moonshot-v1-128k(95.1%,95% CI:94.7 - 95.5%),差异具有统计学意义(RD:1.1%,95% CI:0.6 - 1.6%;p<0.001)。在基线特征领域,Claude-3.5-sonnet 优势明显,而其他领域二者准确性相近。Moonshot-v1-128k 在结果领域正确率最高(97.6%),方法领域最低(90.9%),其错误常源于将数据错误标记为 “未报告”,遗漏信息包括起止日期、基线平衡描述等。两个模型的一致性为 93.8%,Claude-3.5-sonnet 的错误中有 83.3% 也出现在 Moonshot-v1-128k 的结果中。
LLM 辅助方法提升效果 :经过研究人员优化,Moonshot-v1-128k 辅助的数据提取准确率提升至 97.9%(95% CI:97.7 - 98.2%),显著高于传统方法预期的 95.3%(RD:2.6%,95% CI:2.2 - 3.1%;p<0.001)。与 LLM 单独使用相比,LLM 辅助方法在方法领域提升幅度最大(+7.4%),数据与分析领域提升 6.0%。亚组分析显示,较高的 PDF 识别率对 Moonshot-v1-128k 的准确性有积极影响(p interaction =0.023),但对 LLM 辅助方法准确性影响不显著(p interaction =0.100)。Claude-3.5-sonnet 提取英文 RCTs 数据的准确性高于中文(p interaction =0.000)。
(二)ROB 评估结果
模型准确性对比 :Claude-3.5-sonnet 的 ROB 评估准确率为 96.9%(95% CI:95.7 - 97.9%),略高于 Moonshot-v1-128k 的 95.7%(95% CI:94.3 - 96.8%),但差异无统计学意义(RD:1.2%,95% CI:–0.4 - 2.8%)。Moonshot-v1-128k 在序列生成领域准确率最低(87.9%),其他领域在 94.4% - 100.0% 之间。选择性结果报告和其他偏倚领域的敏感度较低(分别为 0.50 和 0.40),F 分数分别为 0.67 和 0.44,其他领域 F 分数在 0.97 - 1.00 之间。在 46 个错误评估中,62.1% 是由于缺少支持信息,37.9% 是数据提取正确但判断错误。两个模型的一致性几乎完美(Cohen's kappa =0.88),Claude-3.5-sonnet 的错误中有 66.7% 也出现在 Moonshot-v1-128k 的结果中。
LLM 辅助方法提升效果 :基于 Moonshot-v1-128k 评估结果进行优化后,LLM 辅助的 ROB 评估平均正确率提升至 97.3%(95% CI:96.1 - 98.2%),显著高于传统方法预期的 90.0%(RD:7.3%,95% CI:6.2 - 8.3%;p<0.001)。与 LLM 单独使用相比,LLM 辅助方法的准确率提升了 1.6%(95% CI:0.0 - 3.2%;p =0.05)。序列生成领域准确性提升最为显著(+8.4%),分配序列隐藏领域错误全部纠正,正确率达到 100%。亚组分析表明,Claude-3.5-sonnet 评估英文 RCTs 的 ROB 准确性显著高于中文(p interaction =0.000),而 LLM 辅助评估对中文发表的 RCTs 准确性更高(p interaction =0.023)。
(三)效率结果
在数据提取和 ROB 评估方面,LLM 模型相较于传统方法均大幅节省时间。使用 Moonshot-v1-128k 进行数据提取,每个 RCT 平均耗时 96 秒,Claude-3.5-sonnet 为 82 秒,即便经过优化,Moonshot-v1-128k 辅助的数据提取每个 RCT 耗时 14.7 分钟,仍远低于传统方法的 86.9 分钟。ROB 评估中,Moonshot-v1-128k 平均每个 RCT 耗时 42 秒,Claude-3.5-sonnet 为 41 秒,Moonshot-v1-128k 辅助评估耗时 5.9 分钟,传统方法则需要 10.4 分钟。
四、研究结论
研究表明,Claude-3.5-sonnet 和 Moonshot-v1-128k 在补充医学数据提取和 ROB 评估中均展现出较高准确性,LLM 辅助方法在准确性和效率上显著优于传统方法。Claude-3.5-sonnet 在数据提取上总体准确性略高于 Moonshot-v1-128k,在 ROB 评估中也稍占优势,但仅数据提取的差异具有统计学意义。两个模型的错误多源于未能识别已报告数据,而非对提取信息的错误解读。在 ROB 评估中,序列生成领域错误最为常见。LLM 辅助方法能有效解决这些问题,通过人工审阅识别并纠正常见错误模式,显著提升了准确性,尤其是在数据提取的方法领域和 ROB 评估的序列生成领域。
五、研究讨论
(一)研究优势
本研究具有多方面优势。首先,研究中使用的提示经过验证,确保了研究的科学性和可靠性。其次,选取的 RCTs 样本多样,涵盖多种语言、研究主题和发表年份,增强了研究结果的代表性。此外,纳入经验较少的审阅者进行评估,更贴近实际应用场景,能更好地反映 LLM 辅助方法在实际操作中的效果。
(二)研究局限
研究也存在一定局限性。所有审阅者均为中文母语者,可能存在语言相关的偏倚,影响研究结果的普适性。同时,研究依赖传统方法的基准估计,这些估计可能无法完全反映不同环境下的当前实践情况。研究中大部分 RCTs(77.6%)来自中国大陆,虽然分析了发表语言,但研究人员的主要语言背景可能以中文为主,这对研究结果的推广构成挑战。
(三)未来研究方向
尽管本研究证实了使用 Claude-3.5-sonnet 的 LLM 辅助方法的可行性和有效性,但未来研究仍有拓展空间。应探索其他高级模型的应用,纳入权威排名或广泛认可来源的模型进行研究,验证该方法在不同架构和数据集上的稳健性,提升其在多样研究环境中的适用性,为补充医学及其他领域的证据合成提供更全面的支持。
综上所述,该研究首次系统地探究了 LLMs 在补充医学数据提取和 ROB 评估中的应用,为医学研究中证据合成效率和准确性的提升提供了重要参考,推动了大语言模型技术与医学研究的深度融合,对未来医学研究的发展具有重要的指导意义。
鎵撹祻
涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒
10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�
娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功
鍗曠粏鑳炴祴搴忓叆闂ㄥぇ璁插爞 - 娣卞叆浜嗚В浠庣涓€涓崟缁嗚優瀹為獙璁捐鍒版暟鎹川鎺т笌鍙鍖栬В鏋�
涓嬭浇銆婄粏鑳炲唴铔嬬櫧璐ㄤ簰浣滃垎鏋愭柟娉曠數瀛愪功銆�