-
生物通官微
陪你抓住生命科技
跳动的脉搏
全球语言连通性数据集:跨国与国内多维度语言关系的构建与应用
《Scientific Data》:A Dataset on Linguistic Connectivity Across and Within Countries
【字体: 大 中 小 】 时间:2025年04月01日 来源:Scientific Data 5.8
编辑推荐:
编辑推荐:本研究基于Ethnologue数据库的6,675种语言数据,构建了涵盖242个国家/地区的DICL数据集,包含COL/COR(官方语言)、CNL(母语)、CAL(习得语言)等11项双边指标,首次实现国际与国内语言连通性的统一测量。该数据集解决了传统语言数据覆盖不全、维度单一的问题,为文化传播、经济贸易等领域的量化研究提供了新工具,已被多项实证研究验证其有效性。
美国国际贸易委员会经济办公室的Tamara Gurevich团队联合法国巴黎第九大学等机构,基于Ethnologue第21版数据库,构建了全球首个同时涵盖国际与国内语言关系的DICL数据集。该研究创新性地开发了11项指标,包括2类官方语言指数(COL宽松定义/COR严格定义)、3类共同语言指数(CNL母语/CAL习得语言/CSL综合)、以及6类语言接近度指数(LPN/LPA/LPS基于完整语言树,BPN/BPA/BPS基于分支结构)。研究通过Python算法处理6,675种语言的谱系关系,量化了242个国家间的语言连通性,相关成果发表于《Scientific Data》。
关键技术方法包括:1)从Ethnologue提取语言树结构和各国语言使用数据;2)设计概率模型计算CNLij=∑(lki×lkj)等指标;3)开发语言接近度算法Pkh=bh/[0.5(bk+bh)];4)使用Pandas库进行大规模数据聚合。
研究结果方面:
结论与讨论指出,DICL数据集通过三大突破推动相关研究:1)首次实现国内语言多样性(如喀麦隆170种语言)与国际关系的统一测量;2)连续型指标(非二元变量)更精准捕捉语言关系的梯度差异;3)语言树算法为文化相似性研究提供新范式。已有研究证实,DICL指数在解释贸易流量、移民模式时,较传统数据具有更高统计显著性。未来可应用于语言政策评估、文化产业链分析等领域,但需注意46国习得语言数据缺失的局限性。
知名企业招聘
今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号