《Schizophrenia》:Validating large language models against manual information extraction from case reports of drug-induced parkinsonism in patients with schizophrenia spectrum and mood disorders: a proof of concept study
编辑推荐:
为解决精神科病例报告信息提取难题,研究人员开展 LLMs 提取药物诱导帕金森症(DIP)信息研究,发现 LLMs 准确性达 90%,为精神科研究提供新方法。
一、研究背景
在精神医学领域,大量宝贵的临床信息隐藏在非结构化的病例报告中。传统的自然语言处理(NLP)技术虽然展现出挖掘这些信息的潜力,但仍处于概念阶段,往往需要额外的训练数据进行微调,这不仅耗时费力,还难以广泛应用。药物诱导帕金森症(DIP)是帕金森症状的重要成因之一,在精神分裂症谱系障碍(SSD)和情绪障碍(MOD)患者中并不罕见,然而其患病率和临床特征一直存在争议。由于高质量的随机临床试验、荟萃分析和大规模现象学研究有限,从病例报告中挖掘相关信息对于深入了解 DIP、完善治疗指南至关重要。大语言模型(LLMs)的出现为这一困境带来了新的曙光,它无需精细训练就能通过提示策略从非结构化临床记录中提取有价值的信息,为精神科研究提供了全新的视角和工具 。
二、研究概况
德国海德堡大学曼海姆医学院精神病学和心理治疗系等机构的研究人员,开展了一项概念验证研究,旨在探究 LLMs 能否利用既定的临床评级量表(如统一帕金森病评定量表 UPDRS 第三部分:运动检查)及其指令,从已发表的 DIP 病例报告中提取信息。该研究成果发表在《Schizophrenia》杂志上,为精神科研究开辟了新的路径 。
三、研究方法
数据收集 :研究人员通过 PubMed 数据库搜索 2024 年 5 月 1 日之前发表的有关 SSD 和 MOD 患者 DIP 的病例报告,最终确定了 94 篇相关报告,涉及 132 名患者,排除信息不足的 5 例后,对剩余 127 例进行分析1 2 。
信息提取 :临床评估员(AG)在医学专家(DH)的监督下,手动提取病例报告中的人口统计学和结构化临床信息(18 项 UPDRS 运动症状),对于症状严重程度信息缺失的情况,若作者提及则记为 1 分,未提及记为 0 分。选用 GPT-4o 对二值化项目和人口统计学信息进行评分和提取,同时让 GPT-4o 评估提取信息的可信度。
数据分析 :使用卡方检验统计手动和自动提取数据的频率差异,显著性水平设定为 0.05 ,并采用 Bonferroni 方法校正 P 值。评估临床评估员与 GPT-4o 的一致性,包括症状分布、GPT 生成输出的准确性等。
四、研究结果
患者特征 :在 127 例患者中,性别分布均衡,女性占 54%,男性占 46% ,超过半数患者年龄至少 50 岁(57.5%),65 岁以上患者占比最大(36.2%)。使用抗精神病药物的 DIP 患者年龄分布更均匀,且 90.6% 的患者年龄超过 40 岁。超过一半的患者(62.6%)因使用抗精神病药物出现帕金森症状,其中 34.6% 接受第二代抗精神病药物治疗。在抗抑郁药物使用方面,血清素或去甲肾上腺素调节剂占比最大,为 19.7%2 。
症状一致性 :手动和 GPT-4o 提取的 DIP 症状信息分布相似,在人口统计学变量(性别和年龄)上也呈现相同分布。僵硬、震颤和运动迟缓是最常见的症状。总体而言,临床评估员和 LLM 在所有人口统计学和临床信息上的一致性达到 89.05%,仅 UPDRS 项目的一致性为 87.77% 。当筛选 GPT-4o 创建的置信水平为 90% 的答案时,一致性提高到 90.12% 2 3 。
特定症状差异 :在震颤相关项目中,当将四个震颤项目(“手部姿势性震颤”“手部运动性震颤”“静止性震颤幅度”“静止性震颤持续性”)汇总评估时,一致性高达 98.11% ;但单独评估时,一致性相对较低,分别为 60.18%、81.08%、32.04% 和 34.69%3 。
病例报告相关性 :在个体病例报告层面,一致性范围为 53.3% - 100%,与病例报告中描述的症状数量无关,但与报告中患者数量呈负相关(Spearman r = ? 0.25 ,p = 0.01 )。94 篇报告中,32 篇评分完全相同,66 篇至少 90% 相同3 。
药物与症状关联 :在手动整理的数据集中,发现不同药物组之间面部表情存在显著差异(p = 0.01 ),年龄与 UPDRS 症状总和存在关联(p = 0.04 )。使用一般震颤项目计算 UPDRS 症状总和时,年龄与症状总和的关联不再显著(p = 0.055 )3 。
五、研究结论与讨论
这项研究首次证明了 LLMs 能够系统、高效且用户友好地分析大量 DIP 病例报告。它可以直接从病例报告中提取人口统计学和临床数据,并转化为结构化格式,在识别 DIP 症状方面具有较高的准确性,凸显了自动整理的有效性和 LLMs 作为零样本推理器的能力。然而,人工验证仍然至关重要,尤其是对于震颤相关项目,明确震颤严重程度类别、仔细评估非结构化文本中的提取细节,有助于提高准确性和可靠性。
同时,使用 LLMs 必须遵循严格的法律和伦理准则,以防止敏感数据的泄露。虽然在本研究中,患者未明确同意基于 AI 的分析,但由于分析的信息已公开且经 LLM 处理后进一步匿名化,个人数据识别风险较低。不过,LLM 驱动的病例报告分析仍存在更广泛的伦理问题,如与外部数据源结合时可能导致患者重新识别。
此外,该研究也存在一些局限性,如未系统评估较小的语言模型和探索不同参数设置,未正式评估可用性和用户体验,文献回顾不够严格系统,依赖单一评级而非多评级和重复评估等。尽管如此,这项研究为 LLMs 在精神科研究和临床实践中的应用奠定了基础,有望助力个性化医疗,完善诊断标准,推动精神医学领域的发展。
闁瑰灚鎹佺粊锟�
濞戞挸顑堝ù鍥┾偓鐟邦槹瀹撳孩瀵奸敂鐐毄閻庢稒鍔掗崝鐔煎Υ婵犲洠鍋撳宕囩畺缂備礁妫滈崕顏呯閿濆牓妯嬮柟娲诲幘閵囨岸寮幍顔界暠闁肩瓔鍨虫晶鍧楁閸撲礁浠柕鍡楊儐鐢壆妲愰姀鐙€娲ゅù锝嗘礋閳ь剚淇虹换鍐╃閿濆牓妯嬮柛鎺戞閻庤姤绌遍崘顓犵闁诡喓鍔庡▓鎴︽嚒椤栨粌鈷栭柛娆愬灩楠炲洭鎯嶉弮鍌楁晙
10x Genomics闁哄倹婢橀幖顪渋sium HD 鐎殿喒鍋撻柛姘煎灠瀹曠喓绱掗崱姘姃闁告帒妫滄ご鎼佹偝閸モ晜鐣遍柛蹇嬪姀濞村棜銇愰弴鐘电煁缂佸本妞藉Λ鍧楀礆閸℃ḿ鈧粙鏁嶉敓锟�
婵炲棎鍨肩换瀣▔鐎n厽绁癟wist闁靛棗锕g粭澶愬棘椤撶偛缍侀柛鏍ㄧ墱濞堟厤RISPR缂佹稒鐩埀顒€顦伴悧鍝ヤ沪閳ь剟濡寸€n剚鏆╅悗娑欏姃閸旓拷
闁告娲滅划蹇涙嚄閻愬銈撮幖鏉戠箰閸欏棝姊婚妸銉d海閻犱焦褰冮悥锟� - 婵烇絽宕崣鍡樼閸℃鎺撶鎼达綆鍎戝☉鎾亾濞戞搩浜滃畷鐔虹磼閸℃艾鍔掗悗鍦仱閻涙瑧鎷嬮幑鎰靛悁闁告帞澧楅弳鐔煎箲椤斿灝绐涢柟璨夊倻鐟㈤柛娆樺灥椤宕犻弽顑帡寮搁敓锟�
濞戞挸顑堝ù鍥Υ婵犲嫮鐭庨柤宕囧仜閸炴挳鎽傜€n剚顏ら悹鎰╁妺缁ㄧ増鎷呭⿰鍐ㄧ€婚柡瀣姈閺岀喎鈻旈弴鐘虫毄閻庢稒鍔掗崝鐔煎Υ閿燂拷