Icebear:解锁单细胞基因表达跨物种奥秘的 “金钥匙”

【字体: 时间:2025年02月27日 来源:Genome Biology 10.1

编辑推荐:

  为解决单细胞 RNA 测序(scRNA-seq)跨物种分析难题,研究人员开发 Icebear 神经网络框架,可准确预测跨物种单细胞基因表达谱,揭示 X 染色体上调进化模式,助力多领域研究。

  在生命科学的微观世界里,基因表达就像一场精密的交响乐,每个音符(基因)的奏响都关乎生命的奥秘。不同物种间基因表达的差异,更是隐藏着生物进化的密码。想象一下,我们若能解读这些密码,就能知道在漫长的进化历程中,基因是如何适应新环境、改变功能的,还能将从实验动物身上获得的知识运用到人类健康研究中。然而,现实却困难重重。
单细胞 RNA 测序(scRNA-seq)技术的出现,让我们有机会深入到单个细胞层面去探究基因表达。但跨物种的 scRNA-seq 分析却像是布满荆棘的道路:数据稀疏得如同点点繁星,难以连成完整的图案;批次效应就像一阵随机的噪音,干扰着我们准确聆听基因的 “声音”;而且不同物种间细胞难以一一匹配,仿佛拼图时找不到对应的板块。更麻烦的是,在某些生物学场景下,获取单细胞数据犹如大海捞针,这极大地限制了我们对生命奥秘的探索。

为了冲破这些阻碍,来自多个机构的研究人员展开了一场科研攻坚,其中领衔的研究人员来自 [第一作者单位]。他们致力于开发一种强大的工具,能够突破这些限制,深入研究跨物种基因表达的规律。最终,他们成功开发出了 Icebear,这是一个基于神经网络的创新框架,就像是一把 “金钥匙”,打开了跨物种单细胞基因表达研究的新大门。相关研究成果发表在 [期刊名称] 上。

在这场科研探索中,研究人员运用了多种关键技术方法。他们通过一种三级单细胞组合索引方法(sci - RNA - seq3)生成了混合物种的 scRNA - seq 数据,涵盖了成年小鼠、鸡的大脑和心脏,以及雄性负鼠的成年大脑。在数据处理环节,他们设计了一套严谨的流程,包括将读数映射到多物种参考基因组、去除 PCR 重复、过滤掉映射到特定区域的读数等,以此来准确标注细胞的物种来源。同时,他们借助 Biomart 资源建立基因的一对一直系同源关系,还利用条件变分自编码器(cVAE)构建了 Icebear 跨物种预测模型,并通过网格搜索策略优化模型超参数。

Icebear 准确预测跨物种细胞类型谱


研究人员首先对 Icebear 进行了验证。他们利用一个包含人类和小鼠初级运动皮层(M1)细胞的公共数据集训练模型,发现 Icebear 能够有效校正物种特异性效应,使不同物种的单细胞在二维可视化(UMAP)中不再因物种差异而明显分离,在跨物种细胞类型匹配任务中,其表现优于或与最先进的方法相当。

为了验证 Icebear 的跨物种预测性能,研究人员进行了巧妙的实验设计。他们以 M1 数据集为例,在训练模型时留出人类的一种细胞类型数据,然后用训练好的模型根据小鼠中相同细胞类型的谱来预测人类该细胞类型的基因表达谱。通过与三种基线预测方法对比,发现 Icebear 在预测 10 种一般运动皮层细胞类型中的 9 种以及 45 种高分辨率细胞类型中的 33 种时,表现优于物种基线和细胞类型基线。不过,与 “供体基线” 相比,Icebear 在捕捉某些细胞类型特异性进化效应上还有提升空间。此外,研究还发现,Icebear 对看家基因的预测准确性高于非看家基因,这表明细胞类型特异性进化差异会影响模型预测效果,同时也反映出 Icebear 的预测性能可能体现了进化过程中有意义的生物学变化。

Icebear 可跨组织、数据集和物种进行预测


研究人员进一步测试 Icebear 在不同组织、数据集和物种中的通用性。他们利用人类和小鼠细胞图谱的单细胞数据进行训练,在预测人类细胞类型特异性谱时,在 41 种情况中的 34 种下,Icebear 的表现优于物种特异性和细胞类型特异性基线,在 27 种情况中的 22 种下,甚至超过了供体基线,而且将组织作为一个因素进行建模显著提高了跨物种预测性能。

研究人员还将 Icebear 应用于由四项研究生成的五个物种的串联数据集,结果显示 Icebear 能够对齐五个物种的细胞,并且在从青蛙和斑马鱼细胞预测人类细胞类型特异性谱时,优于所有基线。这充分证明了 Icebear 在跨多种物种进行单细胞谱预测方面的强大能力。

Icebear 可将小鼠阿尔茨海默病模型的研究结果转化到人类


研究人员以阿尔茨海默病(AD)为研究对象,测试 Icebear 能否基于小鼠疾病模型预测人类疾病状态下的基因表达变化。他们用人类和小鼠初级运动皮层的单细胞数据、AD 研究中的对照样本以及 AD 小鼠模型的谱训练 Icebear,然后预测人类 AD 样本中缺失的谱,并计算预测的 AD 与野生型(WT)样本间基因表达的 log₂倍变化(log₂FC)。通过与原始人类 AD 与对照样本中真实的 log₂FC 模式对比,发现 Icebear 的预测在所有唯一映射的细胞类型中均优于小鼠基线,这表明 Icebear 能够比原始小鼠实验更准确地获取人类基因改变模式,为将小鼠疾病模型的研究成果转化到人类疾病研究提供了有力支持。

Icebear 揭示进化过程中 X 染色体上调模式


研究人员利用 Icebear 探究哺乳动物性染色体进化过程中,当常染色体基因变为 X 连锁基因且在 XY 雄性中拷贝数减半时,基因表达是否会增加以补偿剂量变化。他们收集了雄性鸡、负鼠和小鼠的大脑样本,以及雄性鸡和小鼠的心脏样本的单细胞 RNA - seq 数据,应用 Icebear 预测细胞在不同物种间转换时的基因表达变化。

研究发现,当位于 X 保守区域(XCR)的基因从鸡的常染色体 4 变为负鼠的 X 染色体时,负鼠和鸡之间的中位基因表达 log₂FC 没有显著高于或低于 - 1,但在小鼠 X 染色体上显著上调,这表明 XCR 基因的 X 染色体上调(XCU)在真兽类哺乳动物中比有袋类动物更明显。对于 X 添加区域(XAR)的基因,从鸡常染色体 1 变为真兽类哺乳动物 X 染色体后,小鼠与鸡、小鼠与负鼠之间的中位 log₂FC 显著大于 - 1,说明小鼠中这组基因也发生了 X 上调。此外,研究还发现 XCR 基因在从鸡常染色体转移到小鼠 X 染色体时,GGACH 基序频率显著降低,而 XAR 基因则没有显著变化,这表明 XCR 和 XAR 的 XCU 机制可能存在差异。

在结论与讨论部分,Icebear 展现出了多方面的重要意义。它能够准确预测物种间缺失的细胞类型特异性谱,为研究基因表达谱在不同物种间的变化提供了有力工具;在疾病研究方面,它能更准确地将小鼠疾病模型中的基因改变信息转化到人类疾病研究中,为人类疾病的研究和治疗提供新的思路;在进化研究中,揭示了 X 染色体上调的进化模式,为理解性染色体进化提供了新的视角。

然而,Icebear 也存在一些局限性。它目前基于一对一的直系同源关系建模,忽略了部分重复基因的信息;并且假设细胞因子与其他因子(如物种和批次)条件独立,这在某些情况下可能并不适用,比如不同物种间细胞群体存在明显差异时。尽管如此,Icebear 依然为生命科学和健康医学研究开辟了新的道路,未来研究人员可对其进行扩展和优化,使其在更多领域发挥更大的作用。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
    生物通微信公众号
    微信
    新浪微博

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号