大语言模型在事件分割与自动化回忆评估中的应用研究

《Communications Psychology》:Event segmentation applications in large language model enabled automated recall assessments

【字体: 时间:2025年12月17日 来源:Communications Psychology

编辑推荐:

  本研究针对事件分割与回忆评估依赖人工评分、存在主观性强且耗时的问题,探索了利用大语言模型(LLMs)自动化分析书面叙事事件分割及口语回忆转录文本的新方法。结果表明,GPT-4能高精度识别事件边界,其一致性甚至优于人类评分者;通过文本嵌入模型(如LaBSE)计算叙事事件与回忆文本的语义相似度,可有效评估回忆表现。该研究为心理学与认知神经科学提供了一种可扩展的自动化分析框架,对理解感知、记忆及认知障碍具有重要意义。

  
在日常生活中,人们是如何将连续不断的经验流切分成一个个有意义的事件单元,并据此形成记忆的?这个问题对于理解人类的感知、记忆乃至认知障碍(如痴呆症)至关重要。事件分割理论指出,我们的大脑会主动将连续的经验划分为离散的事件,这一过程不仅影响当下的理解,更塑造了后续的事件特异性记忆。然而,传统研究事件分割和事件记忆的方法严重依赖人工判断,既主观又耗时。虽然已有一些自动化方法的尝试,但其与人类反应的一致性以及易用性仍有待提高。面对这些挑战,研究人员开始将目光投向近年来迅猛发展的大语言模型。
在此背景下,Ryan A. Panela等人在《Communications Psychology》上发表了一项研究,探讨了大语言模型在自动化事件分割和回忆评估中的应用。他们利用聊天补全模型(如GPT-4和LLaMA 3.0)来自动识别书面叙事中的事件边界,并采用多种文本嵌入模型(如USE、OpenAI Embeddings、LaBSE、MPNet)来计算叙事事件与参与者回忆文本之间的语义相似性,从而自动化地评估回忆表现。
为开展研究,作者招募了31名年轻成年人参与实验。一组20名参与者阅读选自Trevor Noah回忆录的叙事文本,并在阅读过程中标记出他们认为的事件边界(重点关注大型事件单元),随后立即进行自由回忆,其口语回忆被转录成文本。另一组11名参与者则对由LLM识别出的事件边界位置进行评分,以验证其与人类感知的一致性。关键技术方法包括:1)利用GPT-4和LLaMA 3.0的API进行零样本提示的事件分割,并系统考察温度参数(temperature,控制输出随机性)的影响;2)使用多种文本嵌入模型将叙事和回忆文本片段转化为高维向量;3)通过计算语义相似度矩阵(Spearman相关性)来评估回忆与原始叙事在事件结构上的匹配程度;4)采用线性混合效应模型进行统计分析,并利用置换检验和分半一致性分析等方法验证自动化评分与人工评分的一致性。
自动化事件分割
研究人员首先评估了LLMs自动分割叙事事件的能力。通过比较GPT-4和LLaMA 3.0在不同温度参数(0, 0.5, 1)下的表现,并将结果与人类参与者的分割数据进行对比。
  • 事件边界数量:GPT-4在温度1时识别的事件边界数量显著多于温度0、0.5以及人类参与者。LLaMA 3.0在所有温度条件下识别的事件边界均多于人类。
  • 分割一致性指数:GPT-4在温度0和0.5条件下,其模型实例之间的一致性指数最高,甚至超过了人类参与者之间的一致性。LLaMA 3.0在温度0时一致性最高,但温度0.5时与人类参与者无显著差异。这表明LLMs,尤其是GPT-4,能够产生高度一致的事件分割结果。
  • 人机边界一致性:人类参与者的分割结果与GPT-4在温度0和0.5条件下的分割结果对齐度最高,且无显著差异。对于LLaMA 3.0,人类与温度0条件的对齐度最好。
  • 共享与独有边界:对于GPT-4和LLaMA 3.0,那些被LLM和人类共同识别的事件边界(共享边界),其被人类参与者标记的比例显著高于仅由人类识别的边界(独有边界)。这表明LLMs倾向于识别人类认为最显著的事件边界。
  • 组间一致性:通过置换检验将人类参与者随机分成两组,并比较两组之间的事件边界一致性,以及人类组与LLM组之间的一致性。发现GPT-4(温度0和0.5)与人类组的一致性,甚至高于两个人类组之间的一致性。而LLaMA 3.0则未表现出此模式。
  • 人类对GPT边界的评分:独立的一组人类参与者对GPT-4(温度0)识别的事件边界和事件中心(非边界)进行评分。结果显示,他们对事件边界的确认信心显著高于对非边界的确认信心,且边界评分显著大于0,而非边界评分与0无差异。这为GPT-4识别事件边界的人类对齐性提供了进一步证据。
    总结而言,GPT-4,特别是在温度0设置下,能够高度一致地识别出与人类判断相符的事件边界,其一致性甚至优于人类内部的一致性。
自动化回忆评估
在验证了自动化事件分割的可靠性后,研究人员利用其生成的事件边界作为锚点,自动化地评估参与者对叙事事件的回忆情况。
  • 被试间一致性:通过计算不同参与者回忆文本的语义相似度矩阵,发现所有文本嵌入模型均显示,参与者回忆事件顺序的矩阵对角线相关性显著高于反对角线(控制条件)。这表明参与者的回忆存在共享的时间结构,文本嵌入模型能够捕捉到回忆中有意义的信息。
  • 回忆准确性评估:所有文本嵌入模型都能有效区分参与者对相应叙事的真实回忆与将回忆与非对应叙事匹配的基线条件,真实回忆的语义相似度得分显著高于基线。这表明自动化方法能够敏感地检测出回忆表现。
  • 自动化评分与人工评分的一致性:分半一致性分析显示,所有文本嵌入模型的自动化回忆评分与人工评分员(两名经过培训的研究助理)的评分之间存在显著的相关性(USE: ρSB=0.52; OpenAI: ρSB=0.64; LaBSE: ρSB=0.62; MPNet: ρSB=0.52)。线性混合效应模型进一步证实,自动化评分能够显著预测人工评分(标准化β系数在0.36到0.52之间)。其中,免费开源的LaBSE模型表现优异,与人工评分的一致性高(ρSB=0.62),且具有多语言应用的潜力。
    总结而言,基于LLM事件分割和文本嵌入语义相似度的自动化回忆评估方法,能够有效捕捉回忆的准确性和结构,并与人工评分保持良好的一致性。免费模型(如LaBSE)的表现与专有模型相当,提高了方法的可及性。
研究结论与讨论部分强调,本研究成功验证了大语言模型在自动化事件分割和回忆评估中的有效性。GPT-4能够模拟人类的事件分割模式,其产生的事件边界与人类判断高度一致,甚至表现出更高的内部一致性。利用文本嵌入模型对LLM分割后的事件单元与参与者回忆进行语义相似性分析,可以自动化、可扩展地评估回忆表现,且结果与人工评分显著相关。这项工作为研究感知、记忆及其与认知障碍的交叉领域提供了新的、由人工智能驱动的方法论工具。它尤其适用于需要处理大量叙事和回忆数据的研究场景,为大规模认知评估和临床记忆障碍筛查提供了潜在的可能性。同时,研究也指出了使用免费本地运行模型(如LaBSE)在成本、隐私和可及性方面的优势,使该框架更易于在资源有限的研究环境中推广。未来工作可探索将此框架应用于其他模态(如口语叙事、视频刺激)以及更广泛的临床人群。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号