精英足球时空与赛事数据集成:打破数据壁垒,助力体育分析新突破

【字体: 时间:2025年02月02日 来源:Scientific Data 5.8

编辑推荐:

  在足球数据驱动的比赛分析中,公共数据稀缺限制研究发展。为此,研究人员整合德国德甲联赛七场比赛官方数据,涵盖赛事信息、事件及位置数据。该数据集推动体育分析方法发展,提升研究可重复性,促进开放科学。

  在当今足球领域,数据驱动的比赛分析逐渐成为研究和实践的热门方向。无论是专业球队制定战术,还是科研人员探索足球运动规律,都离不开大量的比赛数据支持。然而,现实却面临着一个棘手的问题:公共数据极度稀缺。这就好比厨师在烹饪美食时,缺少关键的食材,巧妇难为无米之炊。对于想要进入这个领域的新人来说,没有数据就如同没有钥匙,无法打开研究的大门;对于已经在该领域耕耘的科研人员,由于数据的不公开,他们的研究方法和成果难以被重复验证,就像搭建的高楼没有稳固的根基,缺乏可信度。
为了解决这个问题,来自德国体育大学科隆分校(Institute of Exercise Training and Sport Informatics, German Sport University Cologne)和德国足球联赛(DFL)的研究人员 Manuel Bassek、Robert Rein、Hendrik Weber 以及 Daniel Memmert 开展了一项重要研究。他们整合了德国德甲联赛七场比赛的官方数据,包括比赛信息、事件数据和位置数据。这些数据就像一把万能钥匙,为足球比赛分析打开了新的大门。该研究成果发表在《Scientific Data》上,对足球运动的研究和发展具有重要意义。

研究人员在这项研究中运用了多种关键技术方法。比赛信息数据来自 Sportec Solutions 公司,这些数据从多个渠道收集,最终存储在德国足球联赛(DFL)的官方数据库中。事件数据则是由 120 名经过训练的操作人员(trained human analysts)进行分析,他们通过团队协作,对比赛中的各类事件进行标注和记录。位置数据的收集使用了 Chyron Hego 公司的多摄像头跟踪系统 TRACAB Gen5,该系统通过视频数据来估算球员和球的位置,具有较高的精度。

下面来看具体的研究结果:

  • 比赛信息数据:比赛信息文件以 XML 格式呈现,包含了丰富的内容。从比赛的基本信息,如比赛类型、联赛、赛季、比赛日、开球时间,到环境条件,像比赛所在国家、体育场名称、容量、天气状况,再到参赛队伍和人员信息,包括球队 ID、名称、战术阵型、球员信息、教练和裁判信息等,都一一涵盖。这些信息为深入了解比赛背景提供了全面的资料。
  • 事件数据:事件数据文件详细记录了比赛中的离散事件,这些事件被分为球员、球队和裁判动作三大类。事件按照层级结构组织,每个事件都有相应的属性,比如时间戳(timestamp),用于记录事件发生的具体时刻;对于射门事件,还会有预期进球(xG)这一属性。预期进球(xG)是根据球员射门时的多种因素,如射门位置、球员速度、防守球员数量等十个特征估算出来的,它能更准确地反映球队的进攻表现。在数据集中,“Play” 事件出现频率最高,这一事件表示球员试图将球权转移给队友的动作,它可以从不同的父类事件衍生而来,比如任意球(FreeKick)执行时的传球动作也可归为 “Play”。
  • 位置数据:位置数据文件记录了每个球员和球的原始位置以及相关元数据,如比赛 ID、球场大小、数据收集起始时间等。对于每个球员和球,其位置信息按比赛阶段(上下半场)和球员进行存储,每个数据帧都包含帧编号、时间戳、坐标、移动距离、速度、加速度、比赛分钟数等属性。对于球,还额外记录了高度、控球状态和比赛状态信息。这些数据为分析球员和球在比赛中的动态变化提供了基础。
  • 技术验证:研究人员对各项数据进行了技术验证。比赛信息数据通过与其他公共数据源进行人工核对,确保其完整性和准确性;事件数据在记录过程中会实时和赛后检查其合理性,减少语义错误,但时间戳的准确性受不同数据生成过程影响,虽未应用自动校准方法,但赛后会进行控制;位置数据通过与 VICON 系统对比测试,得出其坐标投影、速度和加速度的均方根误差(RMSE)范围,并且该系统通过多摄像头设置减少了遮挡导致的缺失数据问题,同时人工会对球员身份进行确认和纠正。此外,研究人员利用 DataBallPy 软件包,基于特定的成本函数和算法对事件数据和位置数据进行同步,评估结果显示同步后时间和空间差异均有所减小。
  • 使用说明:研究人员推荐使用 Python 语言的 floodlight 软件包(v0.4.0)来处理和可视化数据。该软件包功能强大,基于 numpy、pandas 等已知软件包,提供了数据解析、处理、计算各种指标以及绘图等功能,并且有详细的文档和教程,适用于不同层次的用户。

综合来看,这项研究整合的数据集虽然仅包含七场比赛的数据,在研究结果的普适性上存在一定局限性,但它为足球比赛分析领域提供了宝贵的资源。它可以用于多种目前文献中缺乏的重复性和基准测试任务,像空间控制、预期值计算、数据同步、轨迹预测等研究方向。这不仅有助于验证现有分析技术,还为新的体育分析方法的开发提供了有力支持,推动了足球运动研究向更深入、更科学的方向发展,促进了开放科学在足球比赛分析领域的实践。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号