评估大型语言模型在猫急性疼痛评估中的一致性:FGS评分与专家的一致性分析
《Scientific Reports》:Agreement of Feline Grimace Scale scores between chatbots and an expert rater
【字体:
大
中
小
】
时间:2025年12月10日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对猫急性疼痛评估中大型语言模型(LLMs)性能尚未验证的问题,开展了Feline Grimace Scale(FGS)评分在四种聊天机器人(ChatGPT、Gemini、Claude AI和Perplexity)与兽医专家间一致性的对比研究。通过Bland-Altman分析发现,除Claude AI在复测时偏差<0.1外,多数聊天机器人存在正偏差(低估疼痛),且其95%一致性界限(LoA)跨越镇痛阈值0.39,可能导致疼痛的过度或不足治疗。研究表明当前LLMs在猫疼痛评估中的临床适用性有限,为AI在动物健康领域的精准应用提供了重要参考。
当你心爱的猫咪因为疾病或手术后出现疼痛时,它无法用语言告诉你"我很疼"。事实上,猫科动物的疼痛在历史上一直存在诊断不足和治疗不足的问题,它们接受的兽医护理和疼痛管理甚至比犬类还要少。这种被称为"镇痛不足"(oligoanalgesia)的现象,是全球小动物诊疗中普遍存在的挑战。兽医、学生甚至专家都认为猫的疼痛评估具有难度,而评估工具的熟悉度不足、时间限制和缺乏培训等因素更阻碍了疼痛评估量表的临床应用。
在这样的背景下,Feline Grimace Scale(FGS,猫痛苦表情量表)作为一种可靠、敏感的急性疼痛评估工具应运而生。该量表基于面部表情变化,通过评估五个动作单元(action units,AU)——耳朵位置、眼眶紧缩、口鼻部紧张度、胡须变化和头部位置,每个单元评分从0到2(0=无该动作单元表现;1=中度表现或不确定是否存在;2=明显表现)。最终FGS得分为各动作单元得分之和除以可能的总分。该量表已被证实在外科手术、内科疾病和牙齿拔除等情况下都具有良好的可靠性。
随着人工智能(AI)在医疗领域的广泛应用,大型语言模型(LLMs)如ChatGPT等在医学知识检索、研究支持和临床决策中展现出潜力。虽然这些模型在语言理解方面表现出色,但它们在处理医学图像方面仍面临挑战。在人类医疗中,"PainChek"等移动应用程序已被整合到婴儿和痴呆患者的临床评估中。在兽医领域,深度学习模型已成功用于猫、马、实验大鼠和恒河猴等动物的疼痛评估。然而,LLMs在猫急性疼痛评估中的一致性、精确度和准确性尚未得到验证。
本研究旨在评估四种聊天机器人(ChatGPT、Gemini、Claude AI和Perplexity)与专家评定者之间FGS评分的一致性,包括偏差(bias)和一致性界限(limits of agreement,LoA),并探究两个月后重新测试是否会减少偏差。研究假设是四种聊天机器人与专家评定者会有良好的一致性,且偏差/LoA在重新测试后会减少。
研究选取50张家猫面部图像,由四位聊天机器人分别进行两次FGS评分(间隔两个月)。使用Bland-Altman法分析偏差和LoA,以偏差<0.1为可接受标准。同时计算各动作单元评分的加权Cohen's Kappa系数评估一致性。所有分析使用RStudio(R版本4.2.3)完成。
聊天机器人与专家评定者之间总FGS评分的一致性和偏差
ChatGPT在两次试验中均显示偏差>0.1(试验1:0.22;试验2:0.21),表明与专家评定者的一致性较差。线性模型正斜率表明随着平均值增加,差异也增加,存在比例偏差。尽管LoA未跨越0.39的镇痛阈值,但疼痛可能被低估。
Claude AI在试验1中偏差为0.11,试验2降至0.05(<0.1),表明重新测试后与专家评定者达成良好一致性。然而,其LoA在两次试验中均跨越0.39的镇痛阈值,可能存在个别猫只疼痛误判的风险。
Gemini在两次试验中偏差均>0.1(试验1:0.22;试验2:0.25),表明一致性差。其LoA在两次试验中均跨越镇痛阈值,且存在显著比例偏差。
Perplexity在两次试验中偏差>0.1(试验1:0.21;试验2:0.18),一致性差。试验1中LoA未跨越阈值,但试验2中发生跨越。线性模型显示存在比例偏差。
胡须变化和口鼻部紧张度在两个试验中与专家评定者的一致性最低,其次是头部位置和眼眶紧缩。这些动作单元的评估难度可能源于猫的形态学差异、图像质量不一以及二维图像的局限性。ChatGPT在眼眶紧缩评分方面表现最佳(试验1:κ=0.65;试验2:κ=0.70),而Claude AI在头部位置(试验1:κ=0.45)和眼眶紧缩(试验2:κ=0.49)方面一致性最高。
本研究推翻了最初的假设,发现大多数聊天机器人在猫急性疼痛评估中使用FGS时表现出较差的一致性,且普遍存在疼痛低估现象。尽管Claude AI在重新测试后显示出可接受的偏差,但其广泛的LoA表明在个别案例中仍可能存在疼痛误判。相比之下,ChatGPT虽然整体一致性不佳,但其LoA未跨越镇痛阈值,临床误判风险较低。
这些发现揭示了当前LLMs在精细视觉分析和医学评分任务中的局限性。与专门针对视觉任务训练的深度学习模型不同,通用聊天机器人缺乏对猫面部特征的精准识别能力,且可能受到训练数据偏差、对齐训练导致的保守性以及图像质量不一等因素的影响。
研究表明,将当前版本的聊天机器人直接应用于猫急性疼痛评估可能带来临床风险,可能导致疼痛的过度治疗或治疗不足。未来的研究需要开发更专业化的AI模型,结合计算机视觉技术和领域特定知识,以提高猫疼痛评估的准确性和可靠性。随着人们越来越依赖AI获取健康信息,确保这些模型在动物疼痛评估方面提供准确、可靠的数据至关重要。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号