从 YouTube 评论洞察人格:MBTI 类型预测新探索

【字体: 时间:2025年03月01日 来源:Scientific Reports 3.8

编辑推荐:

  研究人员利用机器学习(ML)和自然语言处理(NLP)技术,分析 YouTube 用户评论预测 MBTI 人格类型,发现特定规律,助力理解网络行为。

  在当今数字化时代,人们在网络上的交流日益频繁,社交平台成为了海量信息的汇聚地。其中,YouTube 作为全球知名的视频分享平台,用户们会在上面针对各类视频发表丰富多样的评论。这些评论不仅是简单的文字记录,更有可能蕴含着用户的个性特征。一直以来,测量人格的标准方法是通过自我报告问卷,但这种方法存在一定的局限性,比如 “自我呈现” 观点认为,问卷回答可能反映的是个体在不同情境下希望展现的形象,而非真实的自我描述。
随着互联网对个性化内容需求的增长,准确推断用户人格变得愈发重要,它能在诸如精准广告投放等领域发挥关键作用。近年来,利用书面语言评估人格的研究不断涌现,语言被视为反映人格特征的丰富来源。然而,自动人格预测仍是一项充满挑战的任务,主要问题在于用于训练分类器的公开标记数据集有限,且现有许多数据集样本量较小,每个样本往往只有几句话。

为了深入探究这一领域,来自意大利博洛尼亚大学(University of Bologna)统计学系的 Luisa Stracqualursi 和 Patrizia Agati 开展了相关研究,研究成果发表在《Scientific Reports》上。

研究人员主要运用了机器学习(Machine Learning,ML)和自然语言处理(Natural Language Processing,NLP)技术。他们使用从 Kaggle 上获取的知名 MBTI 数据集训练分类器,该数据集来源于 “Personality Cafe” 论坛,收集了 8675 名已知 MBTI 人格类型个体的自然英语帖子。之后,从 YouTube 上抓取了与阴谋论、灵性和旅行相关视频的用户评论数据,对数据进行预处理,包括词形还原、去除停用词、链接等操作,并采用 TF-IDF(Term Frequency-Inverse Document Frequency)进行特征工程。分类任务被划分为四个二元任务,对应 MBTI 模型的四个二元类别(I/E、N/S、T/F、J/P),使用 XGBoost 算法训练四个独立的二元分类器。为解决数据不平衡问题,还采用了合成少数过采样技术(Synthetic Minority Over-sampling Technique,SMOTE) 。

研究结果如下:

  • 确定预测所需最少字数:通过对不同字数子集进行测试,利用简单匹配系数(Simple Matching Coefficient,SMC)衡量模型匹配 MBTI 维度的能力,发现每个用户仅需 100 字就能获得较为满意的人格预测结果。
  • 分析 YouTube 数据集的 MBTI 维度:对不同主题视频的评论进行分析,在 I-E 维度上,除新冠 - 疫苗 - 5G 相关评论外,其他数据集均显示内向型个体略占优势;N-S 维度上,直觉型个体显著多于感觉型个体;T-F 和 J-P 维度在不同数据集上表现各异。不同主题视频评论者的 MBTI 类型分布不同,阴谋论相关视频评论者中以 INTP 类型居多,灵性和旅行主题视频评论者则以 INFP 类型为主。综合整个 YouTube 数据集,最常见的 MBTI 类型是 INFP,其次是 INTP、INFJ 和 INTJ,这表明评论此类视频的 YouTube 用户中内向型和直觉型个体占主导。

研究结论和讨论部分指出,该研究利用机器学习从特定主题的短内容中有效预测人格,揭示了不同主题视频评论者的人格类型差异。比如 INFP 型人格(“调解者”)在整体数据集中占主导,反映出这类人格的一些特质。而在不同主题下,如阴谋论相关的 INTP 型(“逻辑学家”)和灵性、旅行主题的 INFP 型,其思维方式和决策依据存在明显区别。尽管研究存在数据不平衡、MBTI 标签来源等局限性,但仍为理解数字环境中的在线行为和人格动态做出了贡献,有助于后续研究进一步完善自动人格评估方法,更好地服务于个性化服务等领域。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号