宫颈活检全切片图像多类别分类数据集的构建及其在人工智能辅助诊断中的价值

《GigaScience》:Cervical Whole Slide Images Dataset for Multi-class Classification

【字体: 时间:2025年11月30日 来源:GigaScience 3.9

编辑推荐:

  本刊推荐:研究人员针对宫颈癌病理诊断工作量大、缺乏高质量标注数据集的问题,开展了基于2539张宫颈活检全切片图像(WSI)的多类别分类研究。通过专家病理学家共识标注,构建了包含恶性(鳞癌、腺癌等)、高级别(CIN2/3)、低级别(HPV/CIN1)和正常/炎症四个诊断类别的数据集,并利用该数据集训练的人工智能模型在独立测试集上达到93.4%的恶性敏感性。该数据集为开发宫颈病变自动分诊系统提供了重要资源,对提升诊断效率尤其医疗资源匮乏地区具有重要意义。

  
宫颈癌作为全球女性癌症相关死亡的主要原因之一,其防治高度依赖病理学诊断。传统的宫颈活检组织学检查需要病理学家通过显微镜观察 Hematoxylin and Eosin(H&E,苏木精-伊红)染色的组织切片,诊断过程不仅耗时耗力,且存在主观判断差异。尤其在经济欠发达地区,病理医生资源匮乏成为宫颈癌早期筛查的瓶颈。随着数字病理技术的兴起,全切片成像(Whole Slide Imaging, WSI)技术能够将玻璃切片转化为高分辨率数字图像,为人工智能(Artificial Intelligence, AI)辅助诊断提供了数据基础。然而,高质量、大规模且经过精细标注的宫颈病变WSI数据集的缺失,严重制约了相关机器学习(Machine Learning, ML)算法的发展与应用。
为了解决这一难题,由英国圣安德鲁斯大学医学院、格拉斯哥伊丽莎白女王大学医院病理科等多机构组成的研究团队在《GigaScience》上发布了目前规模最大的宫颈活检WSI多类别分类数据集。该数据集包含2539例患者的WSI图像,所有图像均经由多名亚专科妇科病理学家进行严格标注和共识诊断,确保了标签的可靠性。研究团队旨在通过这一高质量资源,推动宫颈病变自动分诊模型的开发,从而实现恶性病例的快速识别和优先处理,优化病理诊断工作流程。
研究人员为开展此项研究,主要采用了以下几项关键技术方法:数据来源于苏格兰四家医院的宫颈活检组织块,切割成不同厚度(3或4微米)并经四种H&E染色 protocol 处理后,使用 Phillips Ultra Fast Scanner(UFS)扫描生成iSyntax格式的WSI图像;通过分层抽样策略将数据集划分为训练集(1738张)和测试集(811张),确保类别平衡和实验室来源多样性;由专业病理学家对每张WSI进行四类诊断标注(恶性、高级别、低级别、正常/炎症)并生成JSON格式的注释文件;利用 Glencoe Software 将图像转换为OME-TIFF格式,并基于 QuPath(Version v0.2.3)完成区域标注;分别采用基于 patch-level 的概率热图分类方法和 Indica HALO AI 平台的细胞核形态特征提取(如面积、周长、圆度)来训练机器学习模型。
数据收集与处理
研究团队从格拉斯哥皇家医院(NG)、南部总医院(SG)、皇家亚历山大医院(RAH)和伊丽莎白女王大学医院(QEUH)共获取2539个宫颈组织块。为最大化WSI的多样性以减少模型过拟合,组织块被切割成不同厚度(3μm或4μm)并采用四种不同的H&E染色 protocol(常规H&E、肌肉活检 protocol、神经 protocol 和儿科组织 protocol)进行处理,最终形成八种不同的实验室组合。所有切片均使用 Phillips UFS 扫描仪以0.25微米/像素的分辨率扫描,原始图像以iSyntax格式存储。为便于后续标注,WSI通过公开代码转换为OME-TIFF格式,并导入 QuPath 进行手动注释。
数据标注与质量控制
每张WSI被随机分配给四位具有妇科病理学亚专科背景的顾问病理学家进行标注。标注过程遵循严格的质控流程:由生物医学科学家完成的初步标注需经病理学家审核确认;存在争议的病例由第三位病理学家介入评审直至达成共识。最终标注将病变分为四个主要类别:恶性(包括鳞癌、腺癌、CGIN 及其他)、高级别(CIN2与CIN3)、低级别(HPV与CIN1)以及正常/炎症。为评估标注一致性,团队随机抽取200例样本由三位病理学家独立重新标注,计算得出类别水平和亚类别水平的 Cohen's kappa 分别高达89.56%和87.24%,表明标注结果具有高度可靠性。
数据集特点与划分
本数据集共包含2539例WSI,每例对应一名患者。数据划分采用分层抽样策略:从八家实验室中的两家抽取全部WSI、其余六家随机抽取10%的WSI共同构成测试集(共811张),剩余90%的WSI作为训练集(共1738张)。这种划分方式有效保持了训练集和测试集在病变类别、亚类别及实验室来源上的分布一致性。具体数据分布如表1所示,其中恶性类别520例、高级别641例、低级别782例、正常/炎症590例。
人工智能模型构建与应用
在 iCAIRD 妇科癌症AI项目中,研究团队基于该数据集开发了 patch-level 分类器。模型首先对WSI分割出的图像块进行预测,生成每个类别的概率热图(如图2所示),进而聚合这些特征完成 slide-level 的诊断分类。在独立测试集上,该模型对恶性病例的检测灵敏度达到93.4%,展现出优异的自动分诊潜力。
此外,团队还利用 Indica HALO AI 平台对细胞核进行深度学习驱动的分割,提取了正常、低级别、高级别和恶性区域中细胞核的形态学特征(包括面积、周长、圆度等)。基于这些特征训练的决策树、随机森林等传统机器学习模型,进一步验证了形态学指标在区分宫颈病变类别中的价值。
本研究构建的宫颈活检WSI数据集是目前公开数据库中规模最大、标注最精细的宫颈病变数字病理资源之一。其核心价值在于提供了经过多位专家共识确认的高质量标注,涵盖了从正常组织到癌变的完整疾病谱系。数据集不仅支持宫颈病变的自动分类模型开发,其 patch-level 注释和细胞核形态特征更为研究者探索组织微环境、量化诊断指标提供了丰富信息。尤其值得注意的是,数据集通过引入多实验室、多 protocol 的制备差异,增强了模型对于现实世界复杂场景的泛化能力。该资源的开放共享将显著推动计算病理学(Computational Pathology)在宫颈癌诊断中的应用,为开发适用于低资源环境的自动化筛查工具奠定基础,最终助力全球宫颈癌防治目标的实现。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号