编辑推荐:
单细胞 RNA 测序(scRNA-seq)面临基因表达未检测到的 “dropout” 事件挑战。研究人员提出 scMASKGAN,融合掩蔽、CNN、注意力机制和残差网络。实验表明其在多数据集表现优异,提升下游分析效果,为解析生物信息提供新工具。
在生命科学研究的微观世界里,单细胞 RNA 测序(scRNA-seq)如同一位精细的画师,能勾勒出细胞间基因表达的差异,为解析细胞异质性提供高分辨率视角。然而,这项技术存在一个棘手的 “顽疾”—— 在单个细胞中基因表达未被检测到的 “dropout” 事件(即零表达值可能是真实无表达或技术噪音导致的假缺失),如同蒙在画面上的薄雾,模糊了真实的基因表达图景,阻碍了对细胞真实状态和生物过程的准确解读。传统方法如 MAGIC、SAVER 等虽能一定程度改善数据,但或因依赖细胞相似性假设丢失低表达基因,或因过度平滑掩盖生物变异性;深度学习方法如 DeepImpute、DCA 等虽有进展,却也存在参数调优复杂、易生成无效值等局限。如何更精准地识别和修复这些缺失值,成为单细胞分析领域亟待攻克的难题。
为突破这一困境,哈尔滨工程大学计算机科学与技术学院、国家政务建模与仿真工程实验室的研究人员开展了一项富有创新性的研究。他们提出了一种名为 scMASKGAN 的新型框架,并将其研究成果发表在《BMC Bioinformatics》上。该研究通过巧妙的技术设计,为单细胞数据修复开辟了新路径,显著提升了数据质量和下游分析效能。
研究人员主要采用了以下关键技术方法:将单细胞基因表达矩阵转换为图像表示,把数据修复问题转化为像素修复任务;构建包含掩蔽机制、卷积神经网络(CNN)、自注意力机制和残差网络(ResNets)的生成对抗网络(GAN)架构,其中生成器基于细胞类型标签和噪声生成合成数据,判别器区分真实与合成数据;引入隔离森林(Isolation Forest)算法检测并去除合成数据中的异常值;利用欧氏距离和动态调整的相似性阈值筛选近邻细胞,结合 K 近邻(KNN)算法完成最终修复。研究使用了 7 种不同类型的 scRNA-seq 数据集及 10 个神经母细胞瘤样本数据进行实验验证。
研究结果
多维度评估展现优越性能
在 7 个多样化数据集和 10 个神经母细胞瘤样本上的实验表明,scMASKGAN 在多种评估指标上表现出色。均匀流形近似与投影(UMAP)分布显示,其能有效保留细胞类型结构,与原始数据高度吻合,优于多数对比方法;变异系数(CV)分析显示,其在不同 dropout 率下保持较低变异,数据稳定性佳;詹森 - 香农距离(JS 距离)和 Wasserstein 距离(EMD)结果表明,scMASKGAN 生成的数据与原始数据分布高度一致;聚类指标(ACC、AUC、F1 分数)显示,其在细胞类型分类中表现优异,尤其在人脑数据集等场景中优势显著;皮尔逊相关系数分析证实,修复后数据与原始数据相关性高,基因间关系保留良好。
下游分析验证生物相关性
基因 - 基因相关性分析显示,在小鼠胚胎干细胞(ESC)数据集上,scMASKGAN 能有效恢复细胞周期基因间的已知关联,并发现新的共表达关系,如 cdc20 与 Cenpa/PLK1、Msh2 与 Mcm2/Mcm6 的相关性,与已知生物学知识相符;时间序列数据分析中,其修复的 H1 ESC 向确定性内胚层细胞(DEC)分化数据,通过 Monocle3 重建轨迹,显示细胞间过渡更平滑,标记基因表达轨迹更清晰,GO 富集分析表明相关基因与免疫功能通路激活相关;批次数据修复实验中,针对 10 个神经母细胞瘤样本,其有效减少技术噪音,增强细胞连通性,关键标记基因表达恢复准确,高表达基因保持稳定,低表达基因修复显著;不同 dropout 率下的基因表达分析显示,高变异基因表达结构完整,生物信号保留良好。
研究结论与意义
scMASKGAN 通过将数据修复转化为图像修复任务,融合多种深度学习组件,成功实现了单细胞 RNA 测序数据缺失值的高效修复。其优势在于无需对基因施加特定约束即可保留数据固有结构,能动态捕捉基因 - 基因和基因 - 细胞间的复杂相互作用,生成符合生物背景的合成数据,避免过拟合并保留稀有细胞特征。实验验证了其在不同物种、测序平台、数据规模和 dropout 率下的鲁棒性,尤其在高 dropout 率的神经母细胞瘤数据中表现卓越。
该研究为单细胞数据分析提供了一种强有力的工具,显著提升了下游分析如基因调控网络解析、细胞分化轨迹推断、差异表达分析等的准确性,为深入挖掘单细胞层面的生物信息奠定了坚实基础。尽管在部分特定平台(如 sc_CEL-seq2)数据中性能有待优化,但 scMASKGAN 的整体表现彰显了其在单细胞研究领域的重要应用价值,为后续优化方向和跨平台应用提供了有价值的参考。