
-
生物通官微
陪你抓住生命科技
跳动的脉搏
早期胃癌及癌前病变全标注病理切片数据集HiESD的构建与应用研究
【字体: 大 中 小 】 时间:2025年08月02日 来源:Scientific Data 6.9
编辑推荐:
本研究针对胃癌早期诊断中病理分析的高耗时性和观察者间差异性问题,开发了首个全标注内镜黏膜下剥离术(ESD)标本病理切片数据集HiESD。该数据集包含104张全切片图像(WSI)和308个组织样本的10类精细标注,通过深度学习模型实现了90%以上的AUROC分类性能,为胃癌AI辅助诊断提供了高质量基准数据,显著提升了病变分布图自动重建精度。
胃癌作为全球重大健康威胁,其晚期诊断患者五年生存率骤降至40%,而早期发现可提升至90%以上。这一巨大生存差异使得内镜黏膜下剥离术(ESD)成为早期治疗的关键手段,但病理诊断环节存在两大瓶颈:一是病理医师对癌前病变诊断存在显著观察者间差异,二是手工绘制病变分布图耗时费力。西安交通大学计算机科学与技术学院联合该校第一附属医院病理科的研究团队在《Scientific Data》发表的研究,通过构建HiESD数据集为这些难题提供了突破性解决方案。
研究团队采用多中心协作模式,从三所医院收集104例ESD标本的308个组织样本,使用KFBIO和Hamamatsu扫描仪获取0.23-0.25μm/pixel分辨率的全切片图像。通过OpenHi平台由资深病理学家完成10类精细标注,包括慢性萎缩性胃炎、完全性肠上皮化生(C-Intestine)、不完全性肠上皮化生(IC-Intestine)等关键病理形态。采用五折交叉验证测试表明,基于CONCH等模型在组织学分型任务中AUROC达0.94,肿瘤亚型分型达0.88,外部验证保持0.89-0.95的稳定性能。
数据质量评估
通过GrandQC系统量化检测气泡、笔迹等人工伪影,证实仅5例切片存在10-20%非标注区伪影,确保数据可靠性。

基线模型性能
UNI模型在淋巴滤泡检测等罕见类别表现较弱,反映细粒度分类挑战。

病变分布可视化
预测热图与金标准标注高度吻合,证实空间定位能力。

这项研究创建了目前最完善的早期胃癌病理数据集,其创新性体现在三方面:首次实现从幽门螺杆菌感染到癌变的全程病理标注;突破传统二元标注局限,建立包含10类精细病理特征的分类体系;开发出可生成临床级病变分布图的AI框架。数据集已开源至Figshare平台,将显著促进计算病理学(CPath)在胃癌早诊领域的算法开发,推动内镜-病理联合诊断模式的革新。正如作者Chunbao Wang和Jiusong Ge强调的,该成果为理解胃癌时空演进规律提供了前所未有的研究素材,对实现精准医疗具有重要价值。
生物通微信公众号
知名企业招聘