LLaMAC:基于低成本生物信号传感器的情感计算大型多模态数据集
《Scientific Data》:LLaMAC: low-cost biosignal sensor based large multimodal dataset for affective computing
【字体:
大
中
小
】
时间:2025年12月05日
来源:Scientific Data 6.9
编辑推荐:
本研究针对视听媒体情感预测缺乏综合性数据集的问题,开发了LLaMAC数据集。该研究采用Emotiv Epoc-X等低成本传感器采集114名参与者的EEG、GSR、PPG、SKT和RESP五种生物信号,结合连续维度(效价、唤醒度、优势度)和离散维度(情绪类型与强度)的情感问卷,首次实现了百人规模下喜好度与熟悉度的同步调查。通过信号质量验证(SNR>21.47dB)和LightGBM情绪分类(准确率68.2%),证实数据集可支撑生物信号到情感状态的映射分析,为消费级设备的商业化应用提供关键数据基础。
当电影制片人紧张地盯着放映厅里观众的反应时,他们或许从未想过,决定作品成败的关键竟隐藏在观众指尖的微汗、心跳的节奏甚至脑电波的起伏中。情感计算领域的科学家们一直试图破解这个谜题:如何通过客观的生理信号准确捕捉人类的主观情感?这不仅关乎艺术作品的商业成功,更对心理健康监测、人机交互优化等领域具有深远意义。
然而,现有研究面临着一个尴尬的困境:实验室里用着价值数十万元的医疗级设备采集的数据,却难以应用到普通人日常可及的消费级设备上。就像用天文望远镜观察街头景观,虽然精度惊人却缺乏实际推广价值。更棘手的是,以往的数据集往往存在明显短板——有的只记录情绪维度而忽略具体情绪类型,有的样本量不足百人难以保证统计效力,还有的忽略了"是否喜欢作品"和"是否看过作品"这两个影响情感反应的关键因素。
正是在这样的背景下,韩国科学技术研究院文化健康研发组的研究人员展开了名为LLaMAC的创新研究。他们在《Scientific Data》发表的这项工作中,成功构建了目前最符合实际应用需求的多模态情感数据集。这项研究的意义在于,它首次将低成本传感器、双维度情绪评估、大样本规模和生态化因素调查这四个关键要素融于一体,为情感计算从实验室走向日常生活扫清了重要障碍。
研究人员采用了一套严谨的技术方法:使用Emotiv Epoc-X(EEG)、Empatica E4(GSR/PPG/SKT)和Vernier GDX-RB(RESP)三类消费级传感器同步采集五种生物信号;通过预实验从100段候选视频中筛选出50段韩国文化背景的情绪诱发材料(每类情绪10段);采用区块化随机呈现策略控制顺序效应;对108名有效参与者(男女各半)进行标准化实验流程。
研究团队通过系统文献回顾发现,尽管已有DREAMER、ASCERTAIN等知名数据集,但尚无同时满足四大关键条件(低成本传感器、双维度情绪评估、超百人样本、喜好度与熟悉度调查)的数据集。LLaMAC的建立填补了这一空白,其设计理念强调"转化价值"——即研究成果向实际应用的转化潜力。
实验环境严格控制温度(22°C)和视觉听觉干扰,采用独立隔间设计。情绪诱发材料经过97人预实验验证,剔除混淆度高的视频后,最终选定5类情绪各10段60秒韩语视频。问卷设计包含Russell circumplex模型的连续维度评分和Ekman基本情绪理论的离散分类,同时采集喜好度(喜欢/中性/不喜欢)和熟悉度(看过/未看过)数据。
数据集包含108名参与者(年龄27.73±9.08岁)的5400次试验数据,每位参与者文件夹内含答案文件(answer.csv)和四种生物信号原始数据(band#.csv,eeg#.csv等)。信号预处理采用自适应峰值检测算法提取心率变异性(HRV)特征,EEG信号经过0.2-45Hz带通滤波后提取时域统计量和δ/θ/α/β/γ频带功率。
情绪诱发有效性方面,精筛选后视频的Cohen's κ从0.682提升至0.753,主实验准确率达84.3%。生物信号质量评估显示,除GSR、HR和RESP外,其他信号信噪比(SNR)均大于21.47dB,99.98%的GSR和HR数据SNR>10dB。连续维度情绪分析显示,不同目标情绪在效价(F=3017.682, p<0.001)、唤醒度(F=1044.064, p<0.001)和优势度(F=447.357, p<0.001)上均存在显著差异。
基于574个多模态特征训练的LightGBM分类器达到68.2%准确率(κ=0.590),高唤醒情绪(乐趣、愤怒、恐惧)的精确度均超过0.710。值得注意的是,离散情绪报告与连续维度分布呈现预期对应模式:乐趣对应高效价高唤醒,悲伤对应低效价低唤醒,愤怒和恐惧均呈现低效价高唤醒特征,验证了维度理论与分类理论的一致性。
数据集通过Figshare公开(DOI: 10.6084/m9.figshare.28748696.v6),包含数据预处理和SNR计算代码。研究者需注意部分参与者GSR信号因电极接触问题建议剔除,且实验环境湿度控制存在改进空间。尽管通过事前告知控制咖啡因和酒精摄入,但缺乏客观验证手段,未来研究可引入呼气测醉等更严格管控。
这项研究的突破性在于其生态效度与技术可行性的平衡。通过精心设计的实验流程和严格的质量控制,LLaMAC不仅证明了消费级设备在情感识别中的实用性,更揭示了连续维度与离散情绪之间的映射规律。当观众再次为银幕上的故事欢笑或落泪时,他们手腕上的智能设备或许就能读懂这些情感波动——这不再是科幻场景,而是LLaMAC数据集推动下即将到来的现实。该数据集为开发适应用户真实生活场景的情感智能系统提供了不可或缺的资源,将加速情感计算在娱乐、教育、医疗等领域的落地应用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号