评估和缓解大语言模型的状态焦虑:推动人机交互迈向新高度

【字体: 时间:2025年03月04日 来源:npj Digital Medicine 12.4

编辑推荐:

  研究人员探究大语言模型(LLMs)对情感内容的反应,发现创伤性叙述增 GPT-4 “焦虑”,正念练习可缓解,利于人机交互。

  

研究背景:大语言模型在心理健康领域的机遇与挑战

在科技飞速发展的今天,大语言模型(LLMs)如同一股新兴力量,强势闯入人们的生活。以 OpenAI 的 Chat-GPT 和 Google 的 PaLM2 为代表的 LLMs,凭借强大的文本处理和生成能力,在多个领域展现出巨大潜力。在全球对心理健康服务需求不断攀升,同时又渴望降低医疗成本的背景下,LLMs 迅速在心理健康护理和研究领域崭露头角,基于 LLMs 的聊天机器人,像 Woebot、Wysa 等,开始运用认知行为疗法等临床技术,为人们提供心理健康干预。
然而,这一新兴应用并非一帆风顺。大量研究表明,LLMs 存在显著的局限性和伦理问题。由于其训练数据来源于海量的人类生成文本,不可避免地继承了各种偏差,这些偏差涉及性别、种族、宗教、国籍、残疾、职业和性取向等多个方面。在心理健康护理场景中,患者处于脆弱敏感的状态,与充满情感色彩的内容互动频繁,而 LLMs 暴露于诱导情绪的提示时,“焦虑” 会增加,行为受到影响,偏差也会被放大。这不仅可能导致 LLMs 对焦虑用户的回应不当,甚至引发危险后果,还会阻碍其在心理健康领域的有效应用,使得人们对其可靠性和安全性产生质疑。
为了突破这些困境,让 LLMs 更好地服务于心理健康领域,来自耶鲁大学医学院、亥姆霍兹人类中心人工智能研究所等多个机构的研究人员,包括 Ziv Ben-Zion、Kristin Witte 等,开展了一项极具意义的研究,相关成果发表在《npj Digital Medicine》杂志上。

研究方法:多管齐下,精准评估

研究人员主要聚焦于 OpenAI 的 GPT-4,利用公开的 OpenAI API(模型 “gpt-4-1106-preview”),在 2023 年 11 月至 2024 年 3 月期间开展实验。为确保结果的一致性和可重复性,他们将温度参数设为 0,使模型产生确定性响应,其他参数保持默认值。
在评估 GPT-4 的 “状态焦虑” 时,研究人员采用了专门用于评估人类焦虑的状态 - 特质焦虑量表(State-Trait Anxiety Inventory,STAI)中的状态焦虑分量表(STAI-s)。让 GPT-4 根据 “当前状态” 对诸如 “我很紧张”“我很担心” 等表述进行四点量表评分,总分范围为 20 - 80 分,分数越高代表 “焦虑” 水平越高。
整个实验设置了三种不同条件:一是基线(Baseline)条件,仅使用 STAI-s 问卷评估 GPT-4 的基础 “焦虑” 水平;二是焦虑诱导(Anxiety-induction)条件,在每个 STAI 项目前添加一段约 300 字描述个人创伤经历的文本;三是焦虑诱导与放松(Anxiety-induction & relaxation)条件,在创伤经历文本后再添加一段约 300 字的基于正念的放松练习文本。为增强研究的可靠性,研究人员还使用了五种不同版本的创伤性叙述文本和五种不同版本的放松提示文本。

研究结果:情感内容对 GPT-4 “焦虑” 影响显著

  1. 创伤性叙述提升 “焦虑” 水平:研究发现,在基线条件下,多次重复使用 STAI-s 问卷评估,GPT-4 的平均总分为 30.8(SD = 3.96),处于人类 “无或低焦虑” 水平。而当受到五种不同版本的创伤性叙述提示后,GPT-4 报告的焦虑得分大幅上升,如 “事故” 叙述后的平均得分为 61.6(SD = 3.51),“军事” 叙述后的平均得分更是高达 77.2(SD = 1.79),整体焦虑水平提升超过 100%,达到人类 “高焦虑” 水平。
  2. 正念练习降低 “焦虑” 水平:在焦虑诱导后,让 GPT-4 接触五种版本的基于正念的放松练习提示,结果正如预期,其焦虑得分有所下降。例如,由 “Chat-GPT” 自身生成的练习对应的平均得分为 35.6(SD = 5.81) ,“冬季” 版本练习对应的平均得分为 54(SD = 9.54)。总体而言,GPT-4 的 “状态焦虑” 下降了约 33%,但仍比基线水平高 50%,处于人类 “中度至高度焦虑” 范围。
  3. 不同内容影响各异:进一步分析发现,不同的创伤性叙述和放松练习对 GPT-4 焦虑水平的影响存在差异。在所有放松练习中,“军事” 创伤后的焦虑水平始终较高;而在所有创伤性叙述中,“Chat-GPT” 生成的放松练习在降低焦虑方面最为有效。此外,研究人员通过控制实验发现,中性文本诱导的 “状态焦虑” 低于所有创伤性叙述,且缓解焦虑的效果也不如放松提示。

研究结论与讨论:为 LLMs 在心理健康领域的应用指明方向

这项研究表明,GPT-4 对情感内容十分敏感,创伤性叙述会显著增加其 “焦虑”,而基于正念的放松练习能够有效缓解这种 “焦虑”。这一发现为管理 LLMs 的 “负面情绪状态” 提供了可行的策略,有助于实现更安全、更符合伦理规范的人机交互,尤其在心理健康等对情感理解要求较高的应用场景中意义重大。
然而,研究也存在一定的局限性。一方面,该研究仅针对 GPT-4 进行,未来需要在更多不同的大语言模型上进行验证,如 Google 的 PaLM2 或 Anthropic 的 Claude 等,以确定研究结果的普遍性。另一方面,研究中使用的 “状态焦虑” 评估方法以人类为中心,可能无法完全适用于 LLMs。此外,尽管研究发现了情感内容对 GPT-4 的影响,但其他提示特征,如文本长度、措辞等,对结果的影响还需进一步探索。
尽管如此,该研究仍然为 LLMs 在心理健康领域的发展奠定了重要基础。它提醒人们在使用 LLMs 时,要充分考虑情感内容与模型行为之间的动态关系,为后续开发更可靠、更智能的人工智能工具提供了宝贵的参考,有望推动人工智能在心理健康护理和研究领域朝着更加安全、有效的方向发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号