伦巴第新生儿筛查扩展数据集:十年血样数据助力遗传病早期诊断研究

《Scientific Data》:Extended Lombardy’s Neonatal Screening Dataset

【字体: 时间:2025年12月11日 来源:Scientific Data 6.9

编辑推荐:

  本研究针对新生儿筛查领域缺乏大规模公开数据的问题,开发了包含近十年伦巴第地区新生儿血样生化指标和诊断信息的扩展数据集。研究人员通过质谱分析等技术对748,716名新生儿进行代谢紊乱筛查,整合198例阳性病例数据,为遗传病早期诊断、治疗评估和公共卫生政策制定提供了宝贵资源。该数据集已通过Zenodo平台开放共享,推动新生儿健康研究的国际合作。

  
新生儿筛查作为预防医学的重要支柱,自20世纪60年代实施以来,已在全球范围内挽救了无数患有遗传代谢病的新生儿。然而令人惊讶的是,尽管这项技术已经推广半个多世纪,医学研究领域仍严重缺乏大规模、高质量的公开数据集。这种数据匮乏不仅限制了不同人群间生物标志物分布的比较研究,更阻碍了新型诊断算法开发和筛查质量评估进程。
在这一背景下,米兰大学比可卡大学的Gloria Lopiano团队与布齐医院新生儿筛查实验室合作,在《Scientific Data》上发表了题为"Extended Lombardy's Neonatal Screening Dataset"的研究论文,公布了包含近十年伦巴第地区新生儿筛查数据的宝贵资源。这项研究覆盖了2012年9月至2022年12月期间的近百万新生儿初始样本,经过严格质量控制后,最终形成了包含748,716条记录和100个特征的标准化数据集。
研究人员采用的技术方法主要包括:基于干血斑采集的标准化样本处理流程、使用PerkinElmer遗传筛查处理器和质谱技术进行生化标志物定量分析、通过Mayo Clinic的CLIR软件进行阳性病例初筛,以及基于Python的polars库进行数据清洗和整合。特别值得注意的是,数据集包含了198例经确诊的遗传代谢病阳性病例,覆盖9种不同疾病类型,为模型训练和验证提供了坚实基础。
数据记录特征
该数据集包含748,716行和100列,涵盖了氨基酸、酰基肉碱等多种生化标志物的浓度测量值。研究人员特别保留了数据中的缺失值和异常值,为方法学研究提供了真实场景。如表2所示,不同生化标志物的缺失值比例差异显著,从HCYS的99.63%到大多数氨基酸的0.02%不等,真实反映了临床数据收集过程中的实际情况。
技术验证方法
为确保数据质量,研究团队实施了多层次验证策略:验证了早产儿 gestational age(孕周)与体重的逻辑一致性,确保所有标记为早产的新生儿孕周均低于36周;通过采样时间与出生日期差值分析,剔除了不符合48-72小时标准采样时间窗的异常记录;同时保留了仪器校准和日常维护记录,确保测量结果的可靠性。
按体重分层的统计特征
研究人员按新生儿体重将数据分为四个亚组(<1500g、1500-2000g、2000-2500g、>2500g),并分别提供了详细的统计描述。如表3-表6所示,不同体重组的新生儿在各生化标志物浓度上表现出显著差异,凸显了按体重调整参考范围的重要性。值得注意的是,体重>2500g组包含了绝大多数样本(698,052例),而<1500g组虽然样本量最小(5,966例),却发现了5例阳性病例,阳性率最高(0.08%)。
阳性病例分布
研究期间共确认198例阳性病例,对应9种不同的遗传代谢疾病。表7展示了各体重组的阳性病例分布情况,其中>2500g组虽然阳性率最低(0.03%),但绝对数量最多(179例),而1500-2000g组未发现阳性病例。这种分布特征为研究不同体重新生儿代谢疾病发病率提供了重要线索。
数据可用性与应用前景
数据集通过Zenodo平台公开提供,配套代码存放于GitHub仓库。这一丰富资源不仅支持遗传代谢病的流行病学研究,还为机器学习算法开发、数据清洗方法评估提供了真实世界测试平台。特别值得一提的是,数据集包含的技术误差和缺失模式为开发鲁棒性更强的数据处理方法提供了独特机会。
这项研究的核心价值在于打破了新生儿筛查数据共享的壁垒,为全球研究人员提供了迄今为止最全面的新生儿代谢筛查数据集之一。通过标准化处理流程和详细的质量控制记录,该数据集确保了研究结果的可比性和可重复性。未来,这一资源有望推动新生儿筛查技术的精准化发展,特别是在罕见病诊断、个体化治疗策略制定等领域发挥关键作用。同时,数据集中的真实世界特征也为评估合成数据生成算法的性能提供了黄金标准,促进医疗人工智能领域的健康发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号