人工智能能否取代临床医生评估的抑郁量表?HAMLET(汉密尔顿大型语言模型评估工具)的心理测量学特性
《Asian Journal of Psychiatry》:Can AI Replace Clinician-Rated Depression Scales? The Psychometric Properties of HAMLET – Hamilton Large-language-model Evaluation Tool
【字体:
大
中
小
】
时间:2025年10月03日
来源:Asian Journal of Psychiatry 4.5
编辑推荐:
基于大语言模型开发的自动化抑郁症评估工具HAMLET与汉密尔顿抑郁量表(HAMD-17)和精神卫生诊断量表(PHQ-9)相比,在信效度上表现优异(ICC=0.911,r=0.92 vs 0.79),证实LLM在临床评估中的可行性。
这项研究引入了一种名为HAMLET(Hamilton Large-language-model Evaluation Tool)的新框架,旨在通过大型语言模型(LLMs)实现抑郁症的自动化评估。HAMLET的设计目标是复制经典的Hamilton Depression Rating Scale(HAMD-17)评估流程,同时避免对专业人员的依赖,以提高评估的可及性和便利性。HAMD自1960年代以来一直被认为是评估抑郁症的黄金标准,被广泛用于抗抑郁药物试验,并被美国食品药品监督管理局(FDA)认可为临床试验中的主要疗效终点。然而,HAMD的使用需要经验丰富的临床医生进行评分,这在实际应用中带来了显著的限制,特别是在资源有限的地区或需要大规模评估的场景下。
相比之下,自我报告量表虽然更加高效和便捷,但通常缺乏临床医生评分工具所具有的诊断严谨性,容易受到患者主观偏见的影响。研究显示,在相同的研究中,临床医生评分量表通常会产生比自我报告量表更高的效应量。因此,寻找一种既保持诊断精度,又具备高可及性和低资源消耗的评估工具成为迫切需求。
为了应对这一挑战,研究人员开发了HAMLET,这是一种基于LLM的自动化评估工具,能够在不依赖专业人员的情况下完成结构化的抑郁症评估。HAMLET采用Qwen-Max模型,其参数设置为温度0.7和top-p值0.6,以确保生成的评估结果既具有一定的灵活性,又保持了一定的准确性。通过结构化提示和临床监督的调优,HAMLET能够模拟临床医生评分的流程,同时具备更高的可及性和更低的成本。
在研究中,60名被诊断为重度抑郁症(MDD)的患者参与了评估。他们完成了三种评估方式:(1) HAMLET,(2) 临床医生评分的HAMD-17,以及(3) PHQ-9。为了评估不同评估方法之间的一致性,研究采用了Intraclass Correlation Coefficient(ICC)、Bland-Altman图和Gwet’s AC2等方法。结果显示,HAMLET与临床医生评分的HAMD-17之间表现出高度的一致性(ICC=0.911;95% CI: 0.855–0.946),其与HAMD评分的相关性也显著高于PHQ-9(r=0.92 vs 0.79;Steiger’s Z=3.798, p<0.001)。此外,HAMLET在PHQ-9的基础上展示了增量有效性(ΔR2=0.252),表明其在评估抑郁症方面具有更高的诊断价值。
尽管HAMLET表现出良好的整体一致性,但在某些敏感问题上,其与临床医生评分的一致性稍低。这可能是因为敏感问题需要更深入的临床判断,而LLM在处理这类问题时可能存在一定的局限性。为了提高敏感问题的评估准确性,研究人员建议在未来的开发中进一步优化提示结构,以增强模型对复杂和微妙问题的理解能力。
HAMLET的开发和验证不仅展示了LLMs在精神疾病评估中的潜力,还为实现大规模、低成本的抑郁症评估提供了新的可能性。传统的机器学习模型在抑郁症评估中通常依赖于预定义的固定格式问题,这限制了其对患者输入的灵活性和适应性。而LLMs则能够进行多轮对话,更好地澄清模糊的回答并调整对话流程,从而提高评估的准确性和全面性。
然而,LLMs的应用也带来了一些挑战,尤其是“幻觉”现象的风险。由于LLMs是基于概率和生成模型的,它们可能会生成不准确或虚构的信息,这需要在临床应用中进行严格的监督和验证。为了解决这一问题,研究人员建议通过优化提示结构,约束模型的行为,以确保评估过程的标准化和结构化。
HAMLET的引入标志着LLMs在精神疾病评估领域的首次应用,展示了其在保持诊断严谨性的同时,提高评估可及性和便利性的潜力。未来的研究应进一步探索LLMs在精神疾病评估中的应用,特别是在多模态整合方面,以提高评估的全面性和准确性。此外,还需要解决LLMs在临床应用中的局限性,如幻觉风险和对复杂问题的处理能力,以确保其在实际应用中的可靠性和有效性。
HAMLET的研究不仅对精神疾病评估领域具有重要意义,还为其他医疗领域提供了借鉴。随着LLMs技术的不断进步,它们在医疗领域的应用将越来越广泛。未来的研究应进一步探索LLMs在不同医疗场景中的应用,如疾病预测、诊断支持和治疗建议,以提高医疗服务的效率和质量。
在实际应用中,HAMLET可以作为一种辅助工具,帮助临床医生更高效地完成抑郁症评估。它能够提供结构化的评估流程,减少对专业人员的依赖,同时保持较高的评估准确性。这种工具的出现为精神疾病评估提供了新的可能性,特别是在资源有限的地区或需要大规模评估的场景下,HAMLET可以作为一种有效的解决方案。
HAMLET的研究成果表明,LLMs在精神疾病评估中具有显著的潜力。它们能够提供高准确性的评估结果,同时保持较高的可及性和便利性。这种工具的出现为精神疾病评估提供了新的可能性,特别是在需要大规模评估的场景下,HAMLET可以作为一种有效的解决方案。未来的研究应进一步探索LLMs在精神疾病评估中的应用,特别是在多模态整合和上下文适应方面,以提高评估的全面性和准确性。
此外,HAMLET的研究还强调了在精神疾病评估中结合不同方法的重要性。临床医生评分虽然具有较高的诊断准确性,但成本较高且时间消耗较大。自我报告量表虽然更加高效和便捷,但缺乏诊断严谨性。因此,开发一种能够结合两者优势的评估工具成为迫切需求。HAMLET正是这样一种工具,它能够在不依赖专业人员的情况下完成结构化的评估,同时保持较高的诊断准确性。
HAMLET的开发和验证为精神疾病评估领域提供了一个新的研究方向。随着技术的进步,LLMs在医疗领域的应用将越来越广泛。未来的研究应进一步探索LLMs在不同医疗场景中的应用,如疾病预测、诊断支持和治疗建议,以提高医疗服务的效率和质量。同时,还需要解决LLMs在临床应用中的局限性,如幻觉风险和对复杂问题的处理能力,以确保其在实际应用中的可靠性和有效性。
总的来说,HAMLET的研究为精神疾病评估领域提供了一个新的解决方案,展示了LLMs在保持诊断准确性的同时,提高评估可及性和便利性的潜力。未来的研究应进一步探索LLMs在精神疾病评估中的应用,特别是在多模态整合和上下文适应方面,以提高评估的全面性和准确性。同时,还需要解决LLMs在临床应用中的局限性,如幻觉风险和对复杂问题的处理能力,以确保其在实际应用中的可靠性和有效性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号