《International Journal of Clinical Pharmacy》:Evaluating a customised large language model (DELSTAR) and its ability to address medication-related questions associated with delirium: a quantitative exploratory study
编辑推荐:
为解决药物相关性谵妄临床研究中信息获取及评估方法的问题,研究人员开展了对定制大语言模型 DELSTAR 的评估研究。结果显示 DELSTAR 有潜力,但在数据使用和性能上需改进。这为临床药学研究提供新途径,有助于提升用药安全。
在医疗领域,谵妄是一种急性非特异性神经精神综合征,如同隐藏在患者健康背后的 “幽灵”,极大地增加了患者的发病率、死亡率以及长期认知能力下降的风险。尽管它对患者健康影响巨大,但其发病机制却尚不明确,其中药物因素被认为在谵妄的发生中起到了重要作用,据估计药物毒性导致的谵妄病例占比达 12 - 39%。然而,目前关于药物相关风险和信息的综合记录却十分匮乏,临床药师在进行药物审查时也缺乏详细的处方指导。同时,虽然人工智能(AI)驱动的工具在医学领域展现出一定潜力,能够辅助处理和分析临床数据,提升患者诊断和治疗水平,但在临床应用中,AI 工具存在安全风险,其应用需要经过严格验证,且目前人们对其机制和正确使用方法的了解也十分有限。
为了填补这些空白,因斯布鲁克大学临床药学研究所的研究人员开展了一项针对定制大语言模型(LLM)DELSTAR 的研究。该研究旨在全面评估 DELSTAR 在准确解决与谵妄相关的复杂临床和实践研究问题方面的能力、质量和性能。研究结果表明,DELSTAR 在提供信息方面展现出一定优势,相比传统的系统文献综述(SLRs),它能获取更准确和全面的信息,但在使用高质量数据、引用文献以及性能优化等方面仍有待改进。此外,研究还发现 GPT - 4o、GPT - 3.5 和 Llama3 - 70b 是最适合作为 DELSTAR 的基础模型,但还需要对 DELSTAR 进行微调以提高其敏感性。这一研究成果发表在《International Journal of Clinical Pharmacy》上,为临床药学研究提供了新的方向和思路,有助于提升药物治疗的安全性,减少药物相关性谵妄的发生,对临床实践具有重要的指导意义。
在研究方法上,研究人员主要采用了以下关键技术:首先,开发了 DELSTAR 的两种实现方式,一种是使用 OpenAI 的网络界面进行质量测试的 “Custom GPT”,另一种是使用 LLamaIndex 的本地运行 Python 管道进行大规模性能测试;其次,通过创建包含不同药物信息的数据集(如 Master 数据集、half - fictional 数据集和 full - factual 数据集)来测试 DELSTAR;最后,运用多种评估指标,如语句准确性、数据可信度、F1 评分、敏感性 / 特异性、精确性、AUC 和 AUC - ROC 曲线等,对 DELSTAR 进行质量评估和性能测试 。
在研究结果方面:
语句质量分析 :通过将基于节点的方法(NA)得到的结果与 Master 数据集中的信息进行对比,发现 DELSTAR 在 50.0 - 75.0% 的情况下生成的语句质量高于 Master 数据集,尤其在 “总体内容” 和 “治疗替代方案” 类别表现突出,但也存在生成错误信息(幻觉)的情况。
引用分析 :对 NA 运行的分析显示,DELSTAR 引用的文献中,支持 “副作用” 和 “相互作用” 的较多,“治疗替代方案” 和 “特定问题” 的较少。网站引用存在科学严谨性不足的问题,期刊引用虽然能引用高质量期刊,但频率较低。
性能测试 :在二元数据集测试中,所有聊天机器人组合都倾向于将更多药物归类为与谵妄无关。性能稳定性方面,GPT - 3.5 在大多数评估指标中波动最小,Mistral 和 Llama3 - 8b 波动较大。性能比较发现,在识别与谵妄相关药物方面,D2 数据集中 Llama3 - 70b 和 GPT4o 表现最佳,D3 数据集中 GPT3.5 和 GPT4o 表现最佳,但所有模型都未达到理想的性能阈值 0.8 - 1.0 。
在研究结论和讨论部分,DELSTAR 展现出了提供准确和全面信息的能力,相比传统文献搜索更具优势,有潜力帮助临床药师整合文献中的科学数据,提高获取高质量资源的能力。然而,其准确性依赖于训练数据质量,存在幻觉等问题,引用的文献质量和频率也有待提高。在性能方面,虽然大模型表现出较高的稳定性,但所有模型的召回率 / 敏感性较低,需要通过调整分类阈值或采用集成方法等方式进行优化。此外,使用 AI 模型还需考虑伦理问题,未来应在真实临床场景中进行全面测试,并完善相关法律和监管框架,以确保其安全性、可靠性,更好地服务于临床药学实践,保障患者安全。
打赏
下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究
10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!
欢迎下载Twist《不断变化的CRISPR筛选格局》电子书
单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析
下载《细胞内蛋白质互作分析方法电子书》