双语对话数据集:融合人格与情感标注的教育领域人格识别新工具

《Scientific Data》:Bilingual Dialogue Dataset with Personality and Emotion Annotations for Personality Recognition in Education

【字体: 时间:2025年03月28日 来源:Scientific Data 5.8

编辑推荐:

  编辑推荐:本研究针对现有对话数据集缺乏人格与情感整合标注的瓶颈,利用AutoGen多智能体框架构建中英双语对话数据集,创新性地引入Big Five人格特质与情感标注,通过12,361条语料验证了人格特质对情感表达的显著影响,为个性化教育对话系统开发提供了首个双语基准资源。

  

在人工智能蓬勃发展的今天,让机器理解人类复杂的情感和个性特征,始终是自然语言处理(NLP)领域的圣杯。想象一下,当学生在与智能辅导系统对话时,系统不仅能理解字面意思,还能捕捉到学生字里行间流露的焦虑或热情,并给出个性化的反馈——这样的场景正是教育科技研究者们梦寐以求的。然而现实是,大多数对话数据集如同"情感色盲",难以识别对话者的人格特质(Personality Traits)和情绪状态(Emotion States),导致生成的对话机械生硬,缺乏人性化温度。

这一困境的根源在于数据。现有数据集如PELD仅包含6种人格类型,Persona-Chat等主流资源又缺失情感标注。更棘手的是,传统方法依赖影视剧角色对话提取,一个角色只能体现单一固定人格,既难以覆盖人格的连续谱系(如Big Five的五个维度),也无法实现中英双语支持。这种数据匮乏严重制约了教育场景下个性化对话系统的研发——毕竟,学生的阅读理解方式、问题回答风格无不深受其人格特质影响。

针对这一挑战,华中师范大学人工智能教育学部的研究团队在《Scientific Data》发表了开创性研究。他们巧妙运用多智能体(Multi-Agent)技术,构建了全球首个融合Big Five人格特质和情感标注的中英双语对话数据集。这项研究通过AutoGen框架创建具有32种人格组合的虚拟角色,基于2,000个中文和1,368个英文寓言故事生成12,361条对话,不仅突破了传统数据集的人格单一性局限,更首次系统揭示了人格特质与情感表达的量化关联。

研究团队采用了三项关键技术:首先,基于Big Five for Comprehension Conversation(BF-CC)框架重构人格定义,将心理学标准量表转化为适合对话生成的维度(如将"尽责性"定义为"能否全面概括故事");其次,利用Qwen-2-72b和Llama3-70b大模型分别驱动中英文人格智能体(Persona Agents),通过精心设计的提示工程(Prompt Engineering)确保回答符合目标人格;最后,采用twitter-xlm-roberta-base等跨语言情感分析模型对每轮对话进行"积极/中性/消极"三分类标注。所有数据均来自严格筛选的STORAL寓言数据集,确保文化中立性。

数据构建方法

研究团队设计了五类诊断性问题来激发人格特质表达:"你喜欢这个故事吗?(开放性)"、"请总结故事主要内容(尽责性)"等。通过AutoGen框架协调多个智能体的交互,生成包含人格特征标记的多轮对话。例如,高神经质(Neuroticism)角色会频繁使用"呃..."等填充词,而低宜人性(Agreeableness)角色则表现出明显的不合作倾向。情感标注采用预训练模型自动完成,并通过人工抽样验证。

技术验证结果

  1. ?人格-话语一致性验证:GPT-4o在英语数据中识别开放性的F1值达0.685,Qwen-2.5对中文尽责性识别的准确率达94.7%,证明生成对话与目标人格高度吻合。
  2. ?情感-人格关联分析:卡方检验显示,高开放性(Openness)个体表达积极情感的概率显著更高(χ2=359.1, p<0.001),而高神经质个体负面情感表达频率是低神经质的1.8倍。
  3. ?跨语言对比:中英文数据在人格特质分布上呈现文化差异,如中文对话的尽责性(Conscientiousness)得分普遍高于英文样本(t=3.21, p=0.001)。

讨论与展望

这项研究首次实现了人格特质与情感标注在双语对话数据集中的有机融合,其创新性体现在三方面:技术上,开创了用多智能体生成人格异质性数据的新范式;方法上,重新定义了教育场景下的BF-CC人格维度;应用上,为开发能识别学生人格特征的智能辅导系统铺平了道路。数据集已开源在ScienceDB平台,包含完整的角色档案(Profile.json)和对话记录(Dialogues.csv)。

未来工作可沿两个方向拓展:一是纳入更多文化背景的寓言材料,增强数据集的跨文化适用性;二是探索人格-情感联合建模算法,使对话系统能实时调整回应策略。正如作者所言:"只有当机器理解了个体差异如何影响语言表达,真正的个性化教育才会成为可能。"这项研究为通往这个未来,架起了一座坚实的数据之桥。

涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒

10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�

娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功

鍗曠粏鑳炴祴搴忓叆闂ㄥぇ璁插爞 - 娣卞叆浜嗚В浠庣涓€涓崟缁嗚優瀹為獙璁捐鍒版暟鎹川鎺т笌鍙鍖栬В鏋�

涓嬭浇銆婄粏鑳炲唴铔嬬櫧璐ㄤ簰浣滃垎鏋愭柟娉曠數瀛愪功銆�

相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 急聘职位
    • 高薪职位

    知名企业招聘

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号

    鐢熺墿閫氱簿褰╂帹鑽� • Uncalled4:开启纳米孔 DNA 和 RNA 修饰检测的新征程 • 非经典小非编码 RNA:胃癌早期诊断的新希望 —— 血浆细胞外囊泡中的潜在生物标志物