多物种信息整合的结核与非结核分枝杆菌CT影像数据集:推动AI辅助精准诊断的里程碑研究

【字体: 时间:2025年03月30日 来源:Scientific Data 5.8

编辑推荐:

  随着非结核分枝杆菌(NTM)肺病全球发病率攀升,传统细菌培养耗时2月严重延误诊疗。天津海河医院团队构建首个整合430例NTM与871例结核(TB)病例的CT影像数据集,包含临床参数与分枝杆菌种属信息。研究通过3D-ResNet等模型验证,最高AUC达0.86,为AI算法开发提供关键资源,显著提升NTM与TB鉴别诊断效率,发表于《Scientific Data》将加速精准医疗发展。

  

在全球呼吸系统疾病负担日益加重的背景下,结核病(TB)与非结核分枝杆菌(NTM)肺病的鉴别诊断正面临严峻挑战。虽然结核病发病率近年略有下降,但NTM感染率在中国已从2004-2009年的1.6%攀升至2012-2017年的3.13%,南方地区甚至高达8.6%。这两种疾病临床表现高度相似,但NTM对传统抗结核药物不敏感,误诊导致患者承受不必要的药物副作用和经济负担。更棘手的是,现行金标准——细菌培养耗时长达8周,而NTM包含多种治疗策略迥异的亚型(如鸟胞内分枝杆菌复合体MAC、脓肿分枝杆菌等),亟需快速精准的诊断方法。

天津海河医院联合天津大学的研究团队敏锐捕捉到这一临床痛点。他们发现CT影像凭借对肺部病变的高敏感性(可检测磨玻璃影GGO、支气管扩张等特征),已成为NTM肺病诊断的重要工具。然而,AI辅助诊断的发展长期受限于NTM病例稀缺导致的训练数据不足。为此,Zhilin Han、Yuyang Zhang等学者历时十年(2014-2024)收集了1301例经微生物学确诊的病例,构建了全球首个整合多物种信息的NTM/TB CT影像数据集。该成果发表于《Scientific Data》期刊,为机器学习算法开发提供了前所未有的资源宝库。

研究团队采用多维度技术路线确保数据质量。影像数据来自GE BrightSpeed和Canon Aquilion Prime 128两种CT设备,统一采用1.0-1.25mm薄层扫描。七名放射科医师通过3D-Slicer软件进行病灶标注,经历两轮培训-标注-校正循环确保一致性。数据预处理包含DICOM转NIfTI格式转换、1mm3体素重采样及HU值标准化(窗位-600,窗宽1500)。针对类别不平衡问题(TB:NTM≈2:1),采用随机翻转、90°旋转和高斯噪声注入等数据增强策略。

在数据描述部分,研究呈现了三大核心内容。数据集包含430例NTM(含308例种属鉴定)和871例TB的DICOM原始影像,预处理后的NIfTI文件,以及240例(各120例)标注病灶的3D掩模。临床索引文件记录患者性别、年龄、症状及标注状态,特征索引文件则详细标注磨玻璃影、支气管扩张等影像特征。技术验证显示,基于注意力机制的BoTNet50模型表现最优(准确率0.86,AUC 0.71),显著优于传统ResNet101(AUC 0.61),证实数据集可有效支持深度学习模型开发。

研究团队在讨论中强调了该资源的独特价值。不同于现有公开数据集,该资源首次整合了多物种临床信息与精细标注,支持三大AI任务:NTM/TB二分类(1301例)、分枝杆菌亚型多分类(4种亚型308例)、病灶分割(240例标注)。尽管存在单中心数据偏倚(仅中国北方人群)和设备异质性等局限,但其规模和质量已超越既往研究(如Reference14仅301例NTM)。通过Kaggle平台开源发布(CC-BY许可),该数据集将加速AI在NTM领域的转化应用。

这项研究为呼吸系统感染性疾病的智能诊断树立了新标杆。通过弥补NTM影像数据稀缺的缺口,研究者不仅验证了深度学习模型的鉴别潜力(最佳AUC 0.86),更构建了可扩展的数据框架——未来可整合更多病原体类型(如真菌性肺炎)和多中心数据。随着AI算法在病灶分割、预后预测等方向的深入应用,这项成果有望将NTM诊断周期从数月缩短至数小时,从根本上改变目前依赖经验性治疗的被动局面,为实现《"健康中国2030"》规划纲要中的精准医疗目标提供关键技术支撑。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号