大规模对话数据集预处理框架及其在行为健康转录本中的应用研究
《JMIR Formative Research》:Preprocessing Large-Scale Conversational Datasets: A Framework and Its Application to Behavioral Health Transcripts
【字体:
大
中
小
】
时间:2025年10月27日
来源:JMIR Formative Research 2.1
编辑推荐:
本研究针对AI自动转录产生的大规模对话数据存在噪声大、结构混乱等问题,提出了一套结合特征提取、人工标注和LLM的预处理框架。通过对22,337个行为健康会话转录本的分析,研究人员发现约36%的转录存在错误,并验证了零样本LLM提示能有效区分治疗会话与非会话(κ=0.71)。该研究为心理健康领域的对话数据分析提供了重要的方法论基础,强调了人工智能工具与临床专业知识结合的重要性。
随着人工智能技术和便携录音设备的普及,各个领域都积累了大量的对话录音转录本数据集。然而,自动化的批量录音和转录往往会产生包含噪音的非结构化数据,其中可能混杂着走廊对话、媒体内容(如电视、广播)等非目标录音,以及说话人归属错误或单词识别不准等转录不准确问题。在行为健康领域(如治疗、咨询),这种数据质量问题尤为突出,因为从中提取有意义的洞察——特别是动态过程——高度依赖于对话的准确表征。
面对这一挑战,来自耶路撒冷希伯来大学的研究团队在《JMIR Formative Research》上发表了一项重要研究,提出了一套用于预处理大规模对话转录本数据集的框架,特别专注于过滤掉那些不反映行为治疗会话的"非会话"转录本。该研究基于从美国社区心理健康诊所收集的22,337个行为健康会话转录本,展示了如何将基础特征提取、人工标注和大语言模型(LLM)的高级应用有机结合,为这一领域的研究提供了实用的方法论指导。
研究人员采用了多阶段的分析方法,包括初步的人工评估、统计特征学习以及基于LLM的自动分类。他们首先通过人工审查100个随机选择的转录本,评估数据内容和质量,识别出常见的错误类型并量化其普遍性。接着,研究人员提取了包括会话长度、语速、词频和perplexity(困惑度)在内的多种统计特征来表征转录本并检测异常值。特别值得注意的是,他们创新性地使用LLM的perplexity作为可理解性的度量指标,以评估转录本的噪音水平。最后,研究团队采用零样本提示(zero-shot prompting)方法,使用LLM对转录本进行会话与非会话的分类,并将其输出与专家标注进行验证比较。
在技术实施层面,研究团队特别关注数据安全性,选择了能够保护匿名性并最小化数据泄露风险的工具。他们使用Amazon Bedrock平台运行Anthropic的Claude模型,通过第三方服务确保数据不会暴露给模型提供商。这种安排使得研究团队能够非本地使用模型而不暴露数据,数据既不会保存在平台服务器上,也不会用于模型训练。
研究结果揭示了几个关键发现。初步评估显示,转录错误——如难以理解的片段、异常短的转录本和说话人日记问题——出现在约三分之一(100个样本中有36个)的手动审查样本中。统计异常值分析表明,高语速(>3.5词/秒)与短转录本和自动应答机消息相关,而短会话时长(<15分钟)是案例管理会话的指标。
在perplexity分析方面,非会话的LLM perplexity分数的第75百分位数显著高于会话(置换检验均值差=?258,P=.02),尽管这一特征单独仅提供中等分类性能(离群值去除后精确度=0.63,召回率=0.23)。相比之下,零样本LLM提示能有效区分会话与非会话,与专家评分高度一致(κ=0.71),同时还能捕捉会议的性质。
数据集特征分析显示,通过文件名相似性比较识别出1个重复文件和1个空文件,移除后数据集包含22,335个转录本。语言检测发现18种不同语言,其中英语占98%,希伯来语占0.7%。初步人工评估发现数据集高度多样化,包含多种转录本类型,估计约一半的数据集包含适合进一步分析的会话。
特征学习部分的研究结果表明,会话长度分布在0.5-18,783秒之间,平均2707秒,中位数3062秒。高斯混合模型最适合完整分布的三高斯分布和减少分布后的二高斯分布。语速分析显示,平均语速为2.17词/秒,净语速为2.9词/秒,两者均落在美国对话语速的报告范围内。高频名词分析揭示了治疗对话中的常见主题和词汇。
分类研究显示,LLM将850个转录本中的737个识别为会话(86.7%),包括56个被分类为伴侣会话的转录本。模型的确信度评级偏向较高端,92.1%的转录本被评为最高确信度5。与人类评分者的比较显示,评分者间一致性为86.3%,Cohen kappa评分为0.71,表明实质性一致。
不同类别的Perplexity分析通过置换检验比较了会话和非会话的perplexity分布。结果显示,会话的第75百分位perplexity显著低于非会话,而最大perplexity则会话较高。这些发现在不同参数设置下保持稳健,表明第75百分位perplexity可作为可靠的过滤特征。
研究的讨论部分强调了整合人类判断与自动化工具在处理大型非结构化数据集时的重要性。作者指出,基本统计量、perplexity和LLM提示有助于自动过滤,但初步的人工审查对于理解数据集变异性和细化分类特征仍然至关重要。这种混合方法确保了即使在存在转录错误的情况下,也能实现适应性强且准确的过滤过程。
该研究的创新之处在于提出了一套系统的方法论框架,专门针对行为健康领域的对话数据预处理挑战。与以往主要关注临床记录的研究不同,这项工作特别关注大规模、对话式的医疗保健数据,为这一新兴领域的研究提供了重要的方法论支持。研究结果不仅对心理健康领域有直接应用价值,其提出的框架和方法也可应用于任何对话转录本数据集的分析工作。
值得注意的是,研究团队在整個过程中优先考虑了数据安全问题,选择了能够保护匿名性并最小化数据泄露风险的工具。这种对伦理和隐私的关注,为在敏感医疗数据研究中应用AI技术提供了重要参考。
总的来说,这项研究为利用计算工具分析传统谈话治疗会话提供了方法论基础,提供的关键方法和实践指南可作为确保数据质量和可用性的关键第一步。随着 ambient AI 技术的进一步发展,这类研究将有助于推动计算精神病学和行为健康informatics领域的进步,最终为提高行为医疗保健质量做出贡献。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号