融合多类型列车运行记录与调度数据的意大利铁路网络数据集构建与分析

《Scientific Data》:A Railway Network Dataset Incorporating Multi-Type Train Operation Records and Train Scheduling

【字体: 时间:2025年12月14日 来源:Scientific Data 6.9

编辑推荐:

  本刊推荐:为解决铁路运营数据标准化不足、多源异构信息融合困难的问题,研究团队开展了意大利铁路网络数据集构建工作,整合了高速铁路(FR)、区域列车(REG)、城际列车(IC)等7类列车在2024年上半年的267万条运行记录,包含站点地理坐标、相邻站点里程、天气条件和调度调整等多维数据。该数据集为时空模式挖掘、网络拓扑分析和列车延误传播研究提供了重要基础,对时刻表优化和智能调度系统开发具有显著意义。

  
在现代铁路运输日益呈现高速化、高密度化发展的背景下,如何协调多种类型列车在共享轨道上的协同运行已成为行业核心挑战。不同类别的列车在运行速度、停站模式、运营优先级和调度策略方面存在显著差异,这种异质性导致铁路系统呈现出复杂的时空动态特性。然而,铁路公司发布的数据集往往存在标准化不足或信息残缺的问题,特别是能够全面整合列车运行记录与调度信息的公开数据集尤为稀缺,这极大地限制了智能运输系统研究的深入开展。
为解决这一瓶颈,由吴建清、肖旭凯等人组成的研究团队在《Scientific Data》上发布了涵盖意大利全境的铁路网络数据集。该研究团队通过系统整合多源数据,构建了一个包含3,324列火车、1,397个车站的大规模多维数据集,时间跨度覆盖2024年1月1日至6月30日。数据集特别收录了高速列车(FR/FA/FB)、区域列车(REG)、城际列车(IC/ICN)和国际列车(EC)等七类列车的详细运行记录,为研究铁路网络的复杂动力学行为提供了宝贵资源。
关键技术方法方面,研究团队采用多阶段数据处理流程:首先从TrainStats平台获取列车运行原始数据,通过Apache Spark工具进行GTFS(通用公交数据规范)格式转换和数据清洗;接着基于哈弗辛公式计算站点间里程,并结合RFI官方数据校正;同时整合气象数据、节假日信息与调度调整记录;最后通过交叉验证确保数据可靠性,建立了包含运行时间、停站时间、延误传播等关键指标的数据集。
数据记录与结构
研究生成的数据集包含四个核心文件:列车运行数据文件记录实际到发时间、延误时长等27个字段;站点位置数据提供2,974个车站的地理坐标和行政区划;相邻站点里程数据包含1,290条路线的实际距离;列车故障信息则记载延误原因和持续时间。这种多维度数据结构使得研究者能够从时空动态、网络拓扑和外部环境等多个角度开展分析。
技术验证表明数据集具有高度可靠性。通过对比官方时刻表验证了调度时间的准确性;延误分布分析显示到发延误呈现长尾特征,且峰值时段与运营高峰吻合;运行时间与延误程度的正相关关系符合运营规律。特别值得注意的是,天气因素对运营的影响得到量化验证:中大雨、中大雪等恶劣天气下的延误率均超过0.5,而晴朗天气下延误率较低,这一结果与实际运营经验一致。
网络拓扑复杂性分析揭示了意大利铁路运行的区域特征。北部地区因路网密集、车次频繁,在米兰、都灵等枢纽站表现出更显著的延误聚集现象;而南部地区由于列车班次较少、运行速度较低,延误发生频率相对较低。东西走廊对比显示,第勒尼安海沿岸铁路廊道的运营密度和服务水平明显高于亚得里亚海沿岸廊道。
研究结论强调,该数据集首次实现了对意大利铁路系统多类型列车运营的全面刻画,不仅为时空模式挖掘、网络韧性评估等基础研究提供支撑,更在时刻表优化、故障检测等应用场景展现价值。特别是通过整合天气、节假日等外部变量,为研究环境因素对铁路系统的影响建立了分析框架。虽然数据集未包含货运列车等类型,且部分里程数据存在近似计算,但其提供的标准化多源数据融合方法为后续研究树立了重要标杆。该数据的公开共享将显著推动智能运输系统、复杂网络理论等领域的跨学科研究进展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号