编辑推荐:
单细胞 Hi-C(scHi-C)数据因高稀疏性(含结构零和缺失值)影响下游分析。本研究开发 scHiCSRS 方法,结合自表示平滑与高斯混合模型,实现结构零识别与缺失值插补。模拟和实验显示其性能优于传统方法,为解析细胞异质性提供新工具。
研究背景与科学问题
染色体在细胞核内的三维(3D)空间组织并非随机,其动态变化与基因组功能、疾病机制密切相关。Hi-C 技术作为一种高通量测序手段,能够在全基因组范围内解析染色体的 3D 结构,已被广泛应用于各类细胞的研究。然而,传统 Hi-C 技术基于群体细胞分析,难以捕捉单细胞水平的异质性。单细胞 Hi-C(scHi-C)技术的出现,为研究细胞间差异提供了可能,但该技术面临严重的数据稀疏问题 —— 观测到的零值(observed zeros)包含两类截然不同的生物学事件:一类是因生物学机制导致的 “结构零”(structural zeros,即两个基因座从未发生相互作用);另一类是因测序深度不足导致的 “缺失值”(dropouts,又称采样零,sampling zeros,即实际存在相互作用但未被检测到)。
准确区分这两类零值对下游分析至关重要。例如,在细胞聚类、3D 结构推断等任务中,错误地将结构零视为缺失值进行插补,可能掩盖真实的生物学差异;反之,将缺失值误判为结构零,则会导致信息丢失。尽管已有研究尝试改善 scHi-C 数据质量,但多数方法未考虑空间相关性(如 Hi-C 数据的基因组邻域依赖性),也未明确区分结构零与缺失值,限制了其在单细胞异质性解析中的应用。
为解决上述问题,美国俄亥俄州立大学(The Ohio State University)的研究团队开展了相关研究,开发了一种名为 scHiCSRS 的新方法,并将成果发表在《BMC Bioinformatics》。该方法通过整合空间依赖性和相似细胞信息,实现了结构零的高精度识别和缺失值的准确插补,为单细胞 Hi-C 数据分析提供了重要工具。
关键技术方法
研究团队主要采用以下技术方法:
- 自表示平滑模型(Self-Representation Smoothing Model):结合基因组邻域(2D 矩阵邻域)和相似细胞的信息,通过惩罚最小二乘法估计权重矩阵,实现对 scHi-C 矩阵的平滑处理和缺失值插补。
- 高斯混合模型(Gaussian Mixture Model):对平滑后的数据进行建模,通过期望最大化(EM)算法估计参数,基于贝叶斯信息准则(BIC)选择最优组件数,实现结构零与缺失值的概率分类。
- 模拟数据生成与实验验证:利用 SIMBA3D 生成模拟 scHi-C 数据,包含三种细胞类型(I、II、III)和不同测序深度(2k、4k、7k);同时分析三个公开实验数据集(GSE117874、GSE80006、scm3C-seq),验证方法在真实数据中的性能。
研究结果
1. 模拟研究:scHiCSRS 的高精度识别与插补能力
通过模拟数据验证,scHiCSRS 在结构零识别中表现出高灵敏度(power 近 0.9 或更高)和特异性。例如,在不同测序深度(2k 至 7k)和细胞数量(10 至 100 个)的场景下,其受试者工作特征曲线下面积(AUC)均≥0.85,显著优于传统方法(如均值滤波 MF、高斯核平滑 GK、随机游走 RW 等)。在缺失值插补方面,scHiCSRS 的预测值与真实值的相关性最高,绝对误差最小,且通过热图可视化显示其能准确恢复染色质互作的真实结构(如拓扑相关结构域 TAD 边界)。
2. 实验数据分析:提升下游聚类性能
在三个实验数据集的分析中,scHiCSRS 显著改善了细胞聚类效果:
- GSE117874(GM vs. PBMC):基于 scHiCSRS 增强数据的聚类错误率从 8 例降至 5 例,调整兰德指数(ARI)提升,且 imputed 值与观测非零值的相关性更高。
- GSE80006(K562A vs. K562B):成功纠正 1 例误分类细胞,实现完美聚类(ARI=1.0),而传统方法未能改善结果。
- scm3C-seq(L4 vs. L5 神经元):scHiCSRS 将混合聚类结果转化为高纯度聚类(ARI>0.9),而其他方法几乎无改进。
3. 生物学意义验证:结构零与染色质特征的关联
通过分析 GM 细胞的结构零,发现其主要分布于非活性 B 区室(compartment)和不同拓扑相关结构域(TAD)之间,符合生物学预期。这表明 scHiCSRS 识别的结构零具有生物学合理性,可用于解析染色质组织的功能分区。
结论与讨论
scHiCSRS 通过自表示平滑模型整合空间邻域和相似细胞信息,并利用高斯混合模型区分结构零与缺失值,为 scHi-C 数据提供了一种高效的数据增强方法。其核心优势包括:
- 高鲁棒性:在不同测序深度和细胞数量下均表现稳定,适应性优于依赖固定阈值的传统方法。
- 生物学可解释性:识别的结构零与染色质区室、TAD 等功能结构高度相关,为解析单细胞异质性提供了新维度。
- 下游分析兼容性:显著提升细胞聚类等下游分析的准确性,尤其在复杂细胞类型(如神经元亚型)的区分中表现突出。
尽管 scHiCSRS 在计算效率和大规模数据处理上仍有改进空间(如内存需求较高),但其通过信息整合和自适应建模,为单细胞 Hi-C 数据分析提供了新范式。该方法不仅推动了单细胞基因组学技术的发展,也为揭示细胞间差异的分子机制、疾病相关的染色质结构变异等研究奠定了基础。未来,结合更多生物学特征(如表观基因组数据)的扩展模型,有望进一步提升其在精准医学中的应用潜力。