编辑推荐:
为解决结直肠癌(CRC)肿瘤分级评估易受人为因素影响、相关公开数据集缺乏等问题,中东技术大学研究人员开展 CRC 肿瘤分级分割研究。他们构建新数据集并评估模型,SwinT 表现最佳。推荐科研读者阅读,助于了解前沿成果1。
在全球的健康版图上,结直肠癌(Colorectal Cancer,CRC)可谓是个不容小觑的 “狠角色”。它是全球第三大常见癌症 ,也是癌症患者的第二大 “夺命杀手”。预计到 2043 年,全球 CRC 病例将飙升至 320 万,这个数字就像高悬的警钟,敲得人心里直发慌。
CRC 的病理机制十分复杂,有多种亚型,这些亚型对患者的预后和治疗效果有着关键影响。在医院里,病理学家们承担着一项重要工作,那就是通过观察组织切片来区分肿瘤是良性还是恶性,并确定肿瘤的分级。这可不是件轻松活儿,他们要在显微镜下,仔细研究细胞的形态、细胞核与细胞质的比例,还有细胞核的染色密度等特征。
在 CRC 中,超过 90% 的病例是起源于结直肠黏膜上皮细胞的腺癌。根据癌细胞形成腺体的能力,腺癌又被分为 1 级(高分化,肿瘤中大于 95% 为腺体形成)、2 级(中分化,50 - 95% 为腺体形成 )和 3 级(低分化,小于 50% 为腺体形成 )。准确判断肿瘤分级对患者的治疗和预后至关重要,它能像指南针一样,为医生制定治疗方案指明方向。
但传统的病理评估方法存在不少问题。不同病理学家的判断可能存在差异,就像不同人看同一幅画会有不同感受一样。而且这个过程耗时费力,对病理学家的经验要求极高。全球病理学家的分布也不均衡,有些地区每百万人中仅有三位病理学家,这就好比在沙漠中找水源,资源太稀缺了。为了解决这些难题,研究人员把目光投向了机器学习(Machine Learning,ML)和深度学习(Deep Learning,DL)算法,希望借助它们的力量实现病理评估的自动化和精准化。
来自中东技术大学等机构的研究人员也加入到攻克难题的队伍中。他们在《Heliyon》期刊上发表了一篇名为《Colorectal cancer tumor grade segmentation: A new dataset and baseline results》的论文。这篇论文就像是一把钥匙,为结直肠癌肿瘤分级的研究打开了新的大门。研究人员通过一系列的实验和分析,得出了不少重要结论。他们创建了一个全新的结直肠癌肿瘤分级分割数据集,这个数据集包含 103 张全切片图像(Whole Slide Images,WSI),而且这些图像都有两位独立病理学家标注的像素级分割掩码。他们还对一些先进的卷积神经网络(Convolutional Neural Networks,CNN)和基于 Transformer 的模型进行了训练和评估,发现基于 Transformer 的 SwinT 模型表现最佳,平均 Dice 分数达到了 63%。这一研究成果意义重大,为后续更精准、更高效的结直肠癌肿瘤分级研究奠定了坚实基础。
为了开展这项研究,研究人员运用了几个关键技术方法。在数据处理方面,他们收集了 103 例结肠癌患者的组织样本,经过固定、切片、染色等一系列处理后,制成全切片图像。然后,用 QuPath 软件让两位病理学家对图像中的不同类别进行标注,标注完成后,将数据集按照 70%、15%、15% 的比例划分为训练集、验证集和测试集 。在模型选择上,他们选用了 CNN 中的 DeepLabV3+、UNet、ConvNeXt,以及基于 Transformer 的 SwinTransformer 和 SegFormer 模型。在性能评估阶段,通过计算 Precision、Recall 和 DSC 等指标,来衡量模型的分割性能。
下面来详细看看研究结果。在 “实施细节” 部分,由于全切片图像尺寸太大,处理起来内存消耗大、时间长,所以研究人员对图像进行了下采样,把下采样率(Downsampling Ratio,DR)设为超参数,并在实验中确定其值为 60。对于不同的模型,他们还调整了各种超参数。比如,DeepLabv3 + 模型使用在 Cityscapes 数据集上预训练的模型进行权重初始化,采用随机梯度下降(Stochastic Gradient Descent,SGD)优化器,学习率设为 0.001 ;UNet 模型参考在 STARE 数据集上训练的网络权重进行初始化,使用 Dice 损失函数来处理数据不平衡问题 。
在 “结果” 部分,研究人员评估了多种模型在新数据集上的性能。从整体来看,Swin 模型的平均 Dice 分数最高,达到 62.92%,SegFormer 模型最低,只有 45.07% 。在 CNN 模型中,UNet、DeepLabv3 + 和 ConvNeXt 的表现相近。从单个分割类别来看,不同模型各有优势,DeepLabv3 + 在 Tumor Grade-1 上的 Dice 分数最高,Swin 在 Tumor Grade-2 和 Tumor Grade-3 上表现最佳,ConvNeXt 则在 Normal Mucosa 和 Others 类别中取得最高分数。不过,通过定性分析发现,虽然大多数模型在分割 Normal Mucosa 组织时表现不错,但 Tumor Grade-1 和 Grade-2 之间容易混淆,Tumor Grade-3 的假阳性检测也比较多。
在研究结论和讨论部分,研究人员也很清醒地认识到这次研究存在一些局限性。比如,数据集只来自一个实验室,缺乏外部数据集的验证,这就像盖房子只用了一种材料,不知道在其他环境下效果咋样。而且训练图像数量较少,只有 73 张,想要增加训练数据,过程困难重重,要从医院获取数据、申请许可、通过伦理审批,还得请忙碌的病理学家帮忙标注。此外,研究没有对 “others” 类中的非癌细胞类型进行详细分类,也缺乏患者的随访数据和生存分析,这让研究结果的临床应用受到了限制。
但即便有这些不足,这项研究的意义依旧不可忽视。它创建的新数据集填补了公开可用肿瘤分割数据集的空白,为后续研究提供了宝贵的资源。研究中对不同模型的评估,也为其他科研人员选择合适的模型提供了参考。就像在黑暗中点亮了一盏灯,虽然光线还不够明亮,但已经为结直肠癌肿瘤分级的研究指引了方向,激励着更多科研人员继续探索,努力攻克这个关乎人类健康的难题,让未来的癌症诊断和治疗更加精准、高效。