编辑推荐:
在科学健身信息爆炸且碎片化的当下,研究人员构建了中国科学健身领域知识图谱数据集(FitKG-CN)。经多步骤处理,训练出的 Chinese SpERT 模型在相关任务中表现出色。该数据集为健身研究和个性化健身发展提供有力支持。
在现代社会,人们的健康意识不断提高,健身逐渐成为日常生活的重要部分。大家不再仅仅追求身体外观的改善,更注重心血管健康、代谢调节、免疫功能以及心理健康等多方面的综合提升。然而,随着互联网的快速发展,科学健身相关信息呈爆炸式增长,这些信息大多以非结构化和碎片化的形式存在。从大量文献中快速、准确地获取有价值的信息变得越来越困难,传统的搜索技术难以有效地识别所需数据,人们在提取和整理信息时面临巨大挑战。
为了解决这些问题,北京体育大学的研究人员开展了关于构建科学健身领域中文知识图谱数据集(FitKG-CN)的研究。他们通过多渠道收集数据,经一系列处理构建出数据集,并训练了 Chinese SpERT 模型。研究结果显示,该模型在实体识别任务中的 F1分数达到 94.05%,在关系提取任务中的 F1分数为 82.00%。这一研究成果意义重大,为健身领域的学术研究和个性化健身项目的发展提供了丰富资源和有力支持,相关论文发表在《Scientific Data》上。
研究人员开展此项研究时,运用了多种关键技术方法。在数据收集阶段,从中国知网(CNKI)、万方数据、百度百科、百度新闻、维基百科以及国家体育总局官方网站等多个权威数据源采集数据。数据预处理过程中,使用正则表达式去除特殊字符、HTML 标签等噪声,通过停用词去除简化文本,统一编码格式并调整文本结构。还定义了 8 种实体类型和 11 种关系类型,进行实体分类和关系映射。此外,开发了新的标注平台 sportskg 进行数据标注,并利用标注数据训练基于跨度的联合提取模型 SpERT。
在数据收集方面,研究人员在领域专家的指导下,将健身内容分为运动方法与技术、减肥、力量与耐力、运动医学、生物化学、运动生理学和运动营养学 7 个关键领域。从多个权威数据源收集了数百万字符的原始数据,为后续研究提供了丰富素材。
数据预处理环节,对收集到的原始文本数据进行整合、格式转换,手动过滤掉无关和低质量内容。通过去噪、停用词去除、标准化编码和调整文本结构等操作,最终得到 11544 个处理后的原始样本,为后续实体和关系提取奠定基础。
实体分类和关系映射时,研究人员定义了 8 种实体类型,涵盖身体部位、运动项目、健身动作等健身领域的核心元素;定义 11 种关系类型,如位置、形状、包含等关系,用于描述实体间的各种联系,使知识图谱能全面准确地描述健身知识。
数据标注过程中,研究人员开发了 sportskg 平台,实现实体和关系的双标注。手动标注确保了数据的准确性和完整性,同时引入 Cohen’s Kappa 系数评估标注一致性,保证了标注质量。
实体关系提取阶段,利用标注数据训练 Chinese SpERT 模型。该模型以 chinese-bert-wwm-ext 为预训练语言模型,采用多种参数设置和优化策略,有效提高了模型的泛化能力。经训练,模型在实体识别和关系提取任务中取得了较好成绩。
研究最终构建了 FitKG-CN 数据集,其中包含 26494 个实体、15455 个三元组和 11544 个中文句子。数据存储在 Neo4j 图数据库中,并进行了可视化处理,方便后续分析和应用。
研究构建了科学健身领域的中文知识图谱数据集 FitKG-CN,通过多种技术方法保证了数据集的质量和可用性。训练的 Chinese SpERT 模型在实体识别和关系提取任务中表现出色,为健身领域的研究和应用提供了有力支持。尽管该研究存在数据来源、实体关系覆盖、数据分布和时间相关性等方面的局限性,但仍为后续研究和应用提供了重要基础,有望推动科学健身领域的进一步发展。