HALT-PROP:首个面向立陶宛语宣传叙事与技术检测的人类标注文本语料库
《Scientific Data》:HALT-PROP: Human-Annotated Lithuanian Textual Corpus for Propaganda Narratives and Techniques
【字体:
大
中
小
】
时间:2025年12月04日
来源:Scientific Data 6.9
编辑推荐:
本刊推荐:针对低资源语言宣传检测资源匮乏问题,研究团队构建了首个立陶宛语人类标注宣传语料库HALT-PROP。该资源包含2,870篇文档级标注新闻与1,000篇跨标注样本,细粒度标注11类宣传叙事与10种宣传技术,采用γ系数验证标注一致性(γsl=0.07-0.76),为波罗的海地区俄语宣传计算分析提供关键数据支撑。
在当代信息战中,宣传已成为渗透社会认知的利器。社交媒体和整个媒体生态系统被利用来传播敌对宣传,旨在分裂社会、破坏国家稳定并侵蚀民主进程。尽管基于人工智能的自然语言处理(NLP)方法在虚假新闻和宣传检测方面取得进展,但主要集中于英语等高资源语言。对于立陶宛语等低资源语言,面临数字资源匮乏、复杂语言结构和标注数据集稀缺的严峻挑战,尤其缺乏针对俄罗斯宣传的本土语言计算资源。
为填补这一空白,维尔纽斯大学数据科学与数字技术研究所的Ieva Rizgeline团队在《Scientific Data》发表题为"HALT-PROP: Human-Annotated Lithuanian Textual Corpus for Propaganda Narratives and Techniques"的研究,构建了首个立陶宛语人类标注宣传文本语料库。该研究创新性地采用双层级标注框架,不仅识别文档级宣传内容,更深入标注文本片段中的具体宣传技术和叙事主题。
研究团队采用系统化的数据构建方法:从7个立陶宛媒体平台(2018-2024年)收集186,376篇文章,经去重和长度筛选后,由5名专家通过两阶段标注流程。第一阶段由标注员独立判断文章是否包含宣传内容(是/否/宣传引用/不明确),第二阶段对确认为宣传的文章进行跨标注,每篇文章由两名标注员独立标注宣传技术和叙事,并通过讨论达成共识形成金标准。
关键技术方法包括:基于SemEval任务的宣传技术分类体系优化,形成10类技术标签;采用Riessman主题叙事分析法识别11类俄式宣传叙事;使用γ(γ)系数进行跨标注者一致性验证;通过Label Studio平台实现文本片段和文档级标注。
HALT-PROP包含两个互补数据集:Primary_filter.csv包含2,870篇文档级标注文章,Annotations.csv包含1,000篇金标准标注样本,细粒度标注宣传技术和叙事。语料库特别关注针对立陶宛的俄式宣传叙事,如乌克兰战争虚假信息、立陶宛国家去合法化、西方制度衰败等主题。
技术标注一致性分析显示,跨标注者间γ值范围为:仅文本片段γs=0.10-0.36,片段加标签γsl=0.07-0.25。与金标准对比时,一致性显著提升(γs=0.31-0.69,γsl=0.43-0.76),与SemEval-2020任务11结果相当。叙事标注的杰卡德相似度平均值为0.30-0.57,多标签标注特性导致较高变异度。
重复(γ=0.50)、从众效应(γ=0.43)和旗帜挥舞(γ=0.43)等技术最容易识别,而"翻旧账/转移视线/稻草人"(γ=0.13)等复杂技术识别一致性最低,与SemEval-2020结果一致,反映该类技术自动检测的普遍难度。
该研究创建了首个波罗的海地区俄语宣传计算分析平台,其双层级标注架构支持从文档分类到片段级技术检测的多粒度研究。语料库填补了俄罗斯邻国语言宣传资源的空白,为低资源语言NLP模型训练、多语言宣传监测系统和自动化叙事分析提供关键基础设施。未来可扩展至拉脱维亚语、爱沙尼亚语等近邻语言,构建区域性反宣传预警体系。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号