近期,来自国立台湾大学先进生物医学计算与成像中心(Center for Advanced Computing and Imaging in Biomedicine, National Taiwan University)等单位的研究人员在npj Precision Oncology期刊上发表了题为 “Annotation-free deep learning for predicting gene mutations from whole slide images of acute myeloid leukemia” 的论文。该研究意义重大,为急性髓系白血病(AML)的基因突变预测提供了新的思路和方法,有望改善 AML 患者的诊断和治疗策略,推动精准肿瘤学的发展。
一、研究背景
AML 作为一种侵袭性血液恶性肿瘤,具有显著的生物学和临床异质性,精准的风险分层对优化治疗效果、减少治疗相关并发症至关重要。目前,细胞遗传学变化和基因突变已被用于风险分层,其中 NPM1 和 FLT3-ITD 是 AML 患者中最常见的复发性基因突变 。然而,对这些突变进行分子检测存在诸多挑战,如不同机构资源和实验室基础设施差异大,限制了检测的可及性,延长了检测周转时间。
首先用 PyHIST 工具生成补丁,过滤掉背景区域和非涂片区域,以最高分辨率(×40 放大倍数)提取 512×512 像素的补丁。然后利用基于 DenseNet121 的 ROI 检测模型,将生成的补丁分为 ROI 和非 ROI 补丁,去除包含密集白细胞或无白细胞的区域。最后,应用基于 YOLOv4 的细胞检测模型检测 ROI 补丁中的白细胞,获取用于后续模型训练的细胞。
(三)数据增强
由于 WSI 队列存在显著的类别不平衡,突变样本相对较少。研究采用上采样策略,将突变 WSI 的细胞分为多个包含 2000 个细胞的集合(袋),增加训练数据中突变类别的数量;同时对标准 WSI 随机选择 2000 个细胞作为一个袋,减少输入数据量,加快训练速度。
(四)多实例学习(MIL)
MIL 是一种弱监督学习方法,利用标记的实例组(袋)进行学习,无需单个实例标签。在本研究中,每个袋包含多个细胞,根据其来源 WSI 的标签将袋标记为 “突变” 或 “标准”。使用 DenseNet121 作为嵌入模型,在训练过程中,MIL 训练分为推理阶段和学习阶段。推理阶段,模型根据输入细胞输出 “突变” 的概率;学习阶段,选择每个袋中概率最高的前 K 个细胞作为训练数据,通过交叉熵损失函数更新模型权重。