编辑推荐:
为解决心理学分类不可通约性问题,研究人员利用语义嵌入开展研究,发现其可预测测量关系等,意义重大。
在心理学的研究领域中,一直存在着一个棘手的问题 —— 分类不可通约性(Taxonomic incommensurability)。简单来说,就是不同的科学理论或范式之间,常常因为对概念的理解和操作化方式不同,导致难以进行比较。这就好比在一个大型的图书馆里,每个书架上的书都按照不同的规则摆放,找起书来非常困难。在心理学中,由于缺乏明确的构念(constructs)与操作化之间的映射关系,研究人员在选择合适的测量方法来描述、预测和改变行为时,常常陷入困境。
例如,在人格心理学的研究中,对于同一个人格特质,可能存在多种不同的测量量表,这些量表虽然名称相似,但实际测量的内容却可能大相径庭;反之,一些测量内容相似的量表,却被赋予了不同的名称。这种现象被称为 “jingle-jangle 谬误”,它使得心理学的研究变得混乱不堪,就像一团乱麻,严重阻碍了对人类心理和行为的深入理解。
为了解开这团 “乱麻”,来自德国马克斯?普朗克人类发展研究所(Max Planck Institute for Human Development)和瑞士巴塞尔大学(University of Basel)的研究人员 Dirk U. Wulff 和 Rui Mata 开展了一项重要的研究。他们的研究成果发表在《Nature Human Behaviour》杂志上,为解决心理学中的分类不可通约性问题带来了新的曙光。
研究人员采用的关键技术方法主要有以下几种:首先,利用大语言模型(Large Language Models)创建心理构念及其语言操作化的定量描述,通过获取项目(item)、量表(scale)和标签(label)的嵌入(embeddings)—— 即在向量空间中表示心理测量项目、量表和它们各自的构念标签,来映射大量心理测量与它们所代表的假定构念之间的语义关系。其次,使用聚类算法(clustering algorithms)对量表进行聚类,以确定量表之间的语义相似性,并通过最大二分匹配算法(maximum bipartite matching algorithm)为测量分配构念标签,从而优化量表与标签之间的映射关系。
下面来看具体的研究结果:
- 嵌入的验证:研究人员通过四项分析来验证不同嵌入对恢复心理测量已知属性的能力。结果显示,从嵌入中获得的量表相似性能够很好地预测量表的内部一致性(Cronbach's α),例如,观察到的和预测的内部一致性之间的皮尔逊相关性在样本内r=0.75,样本外r=0.61。同时,嵌入能够较好地捕捉量表的结构保真度(structural fidelity),81%(样本内)和 79%(样本外)的量表结构得到恢复,95%(样本内和样本外)部分恢复。在预测聚合效度(convergent validity)和区分效度(divergent validity)方面,嵌入也表现出色,在项目和量表层面都观察到极低的平均绝对误差(MAE)。此外,研究还评估了不同类型标签嵌入与量表内容的对齐程度,发现原始的 IPIP 标签显示出较高的对齐度。
- 自动检测 jingle-jangle 谬误:研究人员利用嵌入来自动化检测 jingle-jangle 谬误。通过设定合理的相似性阈值,他们在现有的分类法(如 IPIP)中识别出了大量的谬误候选者,共 504 个,其中 jingle 谬误 340 个,jangle 谬误 164 个。例如,“orderliness” 量表在不同的库存中,由于内容差异,导致量表相似性低,但标签相似,属于 jingle 谬误;而 “conscientiousness” 量表和 “organization” 量表,虽然标签差异大,但有较多共享项目,量表相似性高,属于 jangle 谬误。
- 最小化 jingle-jangle 谬误:研究人员通过聚类和重新标记的方法,尝试最小化 jingle-jangle 谬误。结果表明,随着聚类数量的增加,谬误数量总体呈下降趋势,但存在 jingle 和 jangle 谬误之间的权衡。例如,使用层次聚类(hierarchical clustering)的 Ward linkage 算法,在 150 个聚类时,谬误总数达到最优,为 154 个;而更简约的 68 个聚类的解决方案,虽然谬误数量增加到 228 个,但相比原始 IPIP 标签分配的谬误数量大幅减少,且使用的标签数量仅为原来的约四分之一。
在研究结论和讨论部分,研究人员指出,他们的研究利用语言嵌入来阐明心理科学中构念与测量之间的关系,取得了重要成果。一方面,验证了多种嵌入,尤其是经过微调的模型,能够捕捉心理测量的关键结构特征;另一方面,提出了一种新的方法来解决心理学中的概念混淆问题,可以自动、定量和可重复地识别 jingle-jangle 谬误。此外,研究还表明,嵌入不仅可以识别,还可以减少 jingle-jangle 谬误的数量,整合心理学中的构念空间。这一研究成果为未来的概念和测量工作提供了重要的参考,在理论发展、新测量工具设计等方面都具有巨大的潜力。
不过,研究也存在一些局限性。例如,验证结果基于有限的数据,可能无法完全推广到更广泛的心理学文献或其他科学领域;研究仅采用了重新标记现有量表这一种减少谬误的方法,未来可以考虑开发更全面的自定义算法;此外,减少概念数量的努力可能存在争议,需要通过专家共识来确定合适的概念数量。尽管如此,这项研究仍然为心理学的发展提供了新的思路和方法,有望推动该领域朝着更加清晰、准确的方向发展。