编辑推荐:
为解决多组学数据整合难题及精准识别生物标志物问题,研究人员开展了 GNNRAI 框架的研究。结果显示,该框架整合转录组和蛋白质组数据,优于单组学分析及 MOGONET 方法,还识别出多个 AD 相关生物标志物。这为 AD 研究及精准医疗提供了新方向。
在生命科学领域,随着高通量技术的蓬勃发展,分子数据呈爆炸式增长。多组学(涵盖 DNA、RNA、蛋白质和代谢物等分析)研究为探索生命奥秘打开了新大门,能帮助人们从多个层面理解复杂生物系统和疾病机制 。然而,多组学数据整合面临重重挑战。这些数据通常是高维且异质的,样本量相对特征数量较小,还存在数据缺失等问题。传统的无监督整合方法虽能发现一些分子机制和生物标志物,但无法针对特定疾病表型检测相关信号或模式。在有监督的情况下,多组学数据整合方法相对较少,现有的基于样本相似性结构的方法难以利用特征空间中的先验信息。为了攻克这些难题,来自美国杰克逊实验室基因组医学中心(The Jackson Laboratory for Genomic Medicine)和杰克逊实验室(The Jackson Laboratory)的研究人员开展了一项重要研究。他们提出了一种名为 GNNRAI(GNN-derived representation alignment and integration)的框架,用于多组学数据与生物先验知识(以知识图谱形式呈现)的有监督整合 。该研究成果发表在《npj Systems Biology and Applications》上,为阿尔茨海默病(AD)研究及精准医疗带来了新的曙光。
研究人员采用了多种关键技术方法。首先,在数据处理方面,对来自宗教秩序研究 / 记忆衰老项目(ROSMAP)队列的转录组和蛋白质组数据进行了预处理,包括数据的标准化、校正年龄、性别和死后间隔时间(PMI)等协变量。其次,利用从公开生物数据库获取的先验知识构建了阿尔茨海默病生物域(biodomains,BDs)的知识图谱,为后续分析提供拓扑结构。在模型构建上,运用图神经网络(GNN)进行特征提取,将高维组学数据转化为低维嵌入,再通过特征对齐和集合变换器进行特征整合,构建了完整的多组学整合模型 。
下面来看看具体的研究结果:
- GNNRAI 用于多组学整合和生物标志物识别:开发的 GNNRAI 框架包含基于 GNN 的特征提取器模块,能有效处理不完整的多组学数据,通过对特征间关系的建模减轻训练样本量负担,并利用先验通路知识提高识别功能特征的可能性 。
- 阿尔茨海默病患者分类数据集:在 ROSMAP 队列中,研究人员整合转录组和蛋白质组数据对阿尔茨海默病进行二元分类。创建了 16 个数据集,每个数据集包含特定生物域内的基因和蛋白质测量值。经过数据处理,得到不同类型的样本数据,并将样本的组学数据编码为图结构 。
- GNNRAI 优于基准方法及单模态模型:与 MOGONET 方法相比,GNNRAI 在 16 个生物域中的 13 个表现更优,平均提高了 2.2% 的验证准确率 。同时,整合两种模态的 GNNRAI 模型比单模态模型表现更好,说明该框架能有效整合转录组和蛋白质组数据,提升分类性能 。
- 模型验证:研究人员对在 ROSMAP 队列训练的模型进行验证,应用于不同研究和脑区的样本数据。结果表明,同一模型在不同脑区的预测性能存在差异 。在 MSBB 队列中,由于训练数据量的差异等原因,出现了与 ROSMAP 队列不同的结果 。
- 生物标志物识别:通过整合梯度方法,研究人员确定了与 AD 相关的生物标志物。在排名前 20 的基因 / 蛋白质中,有 9 个与 AD 生物学密切相关,还有 11 个是未被报道的新候选生物标志物 。
- 生物域间相互作用检测:利用整合 Hessians 方法,研究人员发现脂质代谢在 AD 发病机制中处于核心地位,其与多个生物域存在相互作用,这些相互作用为理解 AD 的发病机制提供了新视角 。
研究结论和讨论部分指出,GNNRAI 框架在多组学数据整合方面表现出色,有效克服了维度诅咒等计算难题,能利用样本中的缺失模态数据 。然而,该研究也存在一定的局限性,如对知识图谱结构的简化假设,未纳入其他组学数据等 。但总体而言,这项研究为多组学数据整合和生物标志物识别提供了新的有效方法,为阿尔茨海默病的研究和治疗开辟了新的方向,有助于推动精准医学的发展 。