
-
生物通官微
陪你抓住生命科技
跳动的脉搏
scAI-SNP:基于单细胞基因组数据推断人类祖先来源的创新方法及其在构建多样性细胞图谱中的意义
【字体: 大 中 小 】 时间:2025年05月20日 来源:BMC Methods
编辑推荐:
研究人员针对单细胞图谱构建中缺乏人类遗传多样性表征的问题,开发了scAI-SNP工具。该方法通过分析1000 Genomes Project中4.5百万个祖先信息性SNP位点,实现了从scRNA-seq/scATAC-seq等稀疏单细胞数据中高精度推断供体祖先来源。验证显示其对组织类型、癌症样本及不同检测模态均具鲁棒性,为促进精准医学的公平性提供了关键技术支撑。
研究背景
人类细胞图谱计划等大型单细胞研究正在加速积累海量数据,但现有数据集存在显著的祖先来源偏倚——超过70%的单细胞数据来自欧洲血统供体。这种失衡可能引发严重后果:例如基于欧洲人群血细胞参考值曾导致非洲裔乳腺癌患者化疗剂量不足。虽然自我报告的种族/民族信息重要,但其存在记忆偏差且无法追溯历史数据。更关键的是,遗传祖先(ancestry)作为客观生物标志物,能更准确反映人群遗传差异。目前从单细胞数据推断祖先仍面临挑战:单细胞测序数据稀疏性(平均仅1-2%位点被覆盖)、肿瘤样本体细胞突变干扰,以及跨平台(如scRNA-seq与scATAC-seq)兼容性问题。
研究团队与方法
哈佛医学院Hormoz实验室联合欧洲分子生物学实验室(EMBL)开发了scAI-SNP。研究团队首先从1000 Genomes Project(1KGP)的3201个样本中筛选出4.5百万个祖先信息性SNP位点,通过主成分分析(PCA)降维至600维特征空间。对于用户输入的单细胞数据(如10x Genomics平台数据),采用改进版SComatic工具进行基因分型后,通过凸优化计算26个祖先群体的贡献度。关键技术包括:1)基于Gram矩阵的快速PCA算法处理高维SNP数据;2)针对99%缺失率的均值插补策略;3)跨模态兼容的基因分型流程。验证队列涵盖骨髓、心脏、卵巢癌等7类组织的512个样本。
研究结果
模型训练与验证
在1KGP内部验证中,即使99%位点随机缺失,祖先推断准确率仍达86%。错误预测呈现生物学合理性——非洲西南部美国人(ASW)常被误判为尼日利亚族群(ESN/YRI),反映大西洋奴隶贸易的历史基因流动。值得注意的是,线性模型能准确重构已知混血个体的祖先比例(补充图5)。
跨组织一致性验证
在心脏细胞图谱78个样本中,同一供体不同心脏区域样本的祖先预测一致性达100%(图4a)。GTEx项目的10个单核RNA测序(snRNA-seq)样本显示,脂肪组织与脑组织的预测结果差异<5%(图4b),证实方法对组织异质性的鲁棒性。
肿瘤样本应用
MSK SPECTRUM卵巢癌数据集分析显示,39例患者中36例的肿瘤/正常细胞祖先预测一致(图5)。3例差异样本的争议祖先均属同一地理区域(如欧洲内部),提示体细胞突变对全局祖先推断影响有限。
多模态技术兼容性
在pan-tissue scATAC-seq数据中,尽管单个核平均仅6500条reads,scAI-SNP在22种组织类型中保持稳定预测(图6)。跨平台比较显示,scRNA-seq与scATAC-seq的祖先贡献度相关系数达0.98。
讨论与意义
该研究首次实现从多模态单细胞数据中直接推断遗传祖先,其核心突破在于:1)利用数百万SNP的冗余性克服单细胞数据稀疏性;2)通过线性模型避免对连锁不平衡(LD)的复杂建模;3)保持对肿瘤样本体细胞突变的鲁棒性。局限性在于训练集仅覆盖1KGP的26个群体,对美洲原住民等缺失群体的推断存在偏差(图2b)。
从转化医学视角,scAI-SNP的价值体现在三方面:首先,为回溯性补充单细胞数据库的祖先信息提供工具;其次,辅助发现祖先特异性基因表达模式(如EPAS1在藏族人中的适应性进化);最后,通过揭示环境与遗传的交互作用(如社会经济地位对多基因风险评分的影响),推动精准医学的公平化发展。正如作者强调:"构建代表人类多样性的单细胞图谱,不仅是科学需求,更是医疗公平的伦理要求。"未来整合UK Biobank等更多元化队列,将进一步提升该工具的全球适用性。
生物通微信公众号
知名企业招聘