在微观的细胞世界里,DNA 复制就像一场精心编排的舞蹈,每个环节都严格遵循着既定的时空顺序。真核细胞中的 DNA 复制,不仅在时间上有着特定的程序,被称为复制时序(RT)程序,而且在空间上也有着独特的组织方式。这一过程的正常进行对细胞的健康至关重要,一旦出现异常,就如同舞蹈的节奏被打乱,会引发一系列的问题。许多研究表明,异常的 DNA 复制与众多人类疾病紧密相连,像是癌症等。
然而,长期以来,研究人员在探索这场 “舞蹈” 的奥秘时,却面临着诸多阻碍。传统用于研究 DNA 复制的方法,大多既耗时又费力。比如说,通过手动标注 DNA 复制模式来分析 S 期进展,不仅主观性强,而且在大规模研究时,需要耗费大量的时间和精力,效率极低。此外,常用的基于 BrdU 或 EdU 脉冲的基因组方法,价格昂贵,还难以应用于人体研究。这些方法的局限性严重阻碍了对 DNA 复制在病理过程中作用的大规模分析,就像一道道屏障,让我们难以深入了解细胞内部的秘密。
为了突破这些困境,英国爱丁堡大学(University of Edinburgh)的 Julian Ng - Kee - Kwong、Sara C. B. Buonomo 等研究人员开展了一项极具创新性的研究,他们利用深度学习技术,为解开 DNA 复制的奥秘提供了新的视角和方法。
研究人员主要运用了两种关键技术方法。一是监督学习,通过构建基于卷积神经网络(CNN)的模型,对细胞图像进行分析;二是无监督学习,采用自监督学习框架 Bootstrap Your Own Latent(BYOL)来挖掘数据中的潜在信息。研究中使用的样本包括多种基因型的小鼠胚胎干细胞(mESCs)以及 U2OS TetON CycE 细胞系等。
A ResNet - 50 卷积神经网络准确将细胞核分配到预定义的 S 期阶段:研究人员以野生型 mESCs 为研究对象,用 EdU 脉冲处理后获取细胞图像,并手动将 S 期细胞核分为 5 类。基于此构建的 ResNet - 50 CNN 模型,在测试集上的总体分类准确率达到 80.8% ± 5.9%(95% CI),在不同 S 期阶段都获得了合理的预测准确率。这表明该模型能有效对 S 期阶段进行分类1。
监督学习模型可以重建 S 期进展:在模型训练过程中,神经网络的深层会自动学习图像的高维表示。研究人员通过主成分分析(PCA)将‘S 期分类器’最后隐藏层编码的图像嵌入降维到两个维度,结果显示从早期到晚期 S 期有明显梯度,表明模型能够按照 S 期进展的顺序组织图像,即使在没有提供类别顺序信息的情况下也是如此23。
模型在识别异常 DNA 复制动力学方面的性能可能受分类输出的限制:研究人员用‘S 期分类器’对 Rif1 缺陷型 mESCs 的复制焦点模式进行分类,发现该模型能识别出 Rif1 缺陷型和 Rif1 单倍体不足细胞中 S 期模式的变化,但对于 Rif1 单倍体不足细胞中不太明显的复制焦点分布变化容易遗漏。而通过可视化图像嵌入则可以检测到更细微的差异45。
无监督学习模型可以自主重建 S 期进展并识别异常 DNA 复制动力学:研究人员使用 BYOL 框架进行无监督学习,在对未分类的野生型细胞核图像进行训练后,模型成功重建了 S 期进展。并且,通过 KDE 图分析发现,该模型能够检测到 Rif1ΔPP1/-和 Rif1-/-细胞中 DNA 复制的明显变化,还识别出了 Rif1TgWT/-细胞中 PC2 的变化,这表明无监督学习在捕捉 DNA 复制变化方面可能比手动检查更敏感67。
无监督学习应用于研究癌基因诱导的 DNA 复制动力学失调:研究人员将无监督学习框架应用于 U2OS TetON CycE 细胞系的研究。在该细胞系中,过表达癌基因细胞周期蛋白 E1 会导致异常的起始位点激活。通过对 EdU 标记和 PCNA 免疫染色的图像进行分析,发现随着时间推移,图像嵌入的分布发生了动态变化,反映了已知的生物学现象。这表明高通量图像采集结合无监督深度学习可以自动检测 DNA 复制异常899。
研究结论和讨论部分指出,深度学习技术为研究 DNA 复制提供了强大的工具。监督学习中的 CNN 模型能够对 S 期阶段进行分类,并识别出与 Rif1 缺陷相关的 DNA 复制动态变化,但它需要大量手动注释的数据集进行训练,且依赖于预先表征的细胞类型特异性模式,存在一定局限性。而无监督学习不需要标签输入,其模型编码的嵌入反映了数据的内在结构,对不同基因型之间的差异更敏感,在高通量实验中具有很大的应用潜力。此外,研究还证明了 PCNA 和 EdU 提供的信息等效,这为未来将 DNA 复制的高通量成像分析扩展到人类样本研究奠定了基础。目前对异常 DNA 复制在发病机制中的作用了解有限,基于高通量成像的方法将有助于研究 DNA 复制调控基因的体细胞突变与疾病的关系,有望为相关疾病的研究和治疗开辟新的道路。该研究成果发表于Communications Biology期刊,为生命科学和医学领域的研究提供了重要的参考,推动了我们对 DNA 复制与疾病关系的理解,为后续研究指明了方向 。