-
生物通官微
陪你抓住生命科技
跳动的脉搏
利用5hmC信号预测基因表达状态和增强子将5hmC与基因活性联系起来
【字体: 大 中 小 】 时间:2024年06月06日 来源:news-medical
编辑推荐:
拉霍亚免疫学研究所(LJI)的科学家们开发了一种新的计算方法,将DNA上的甲基化分子标记5hmC与基因活性联系起来。
5-羟甲基胞嘧啶(5hmC)是胞嘧啶在CpG二核苷酸背景下的直接表观遗传修饰。5hmC是最丰富的5mC氧化形式。拉霍亚免疫学研究所(La Jolla Institute for Immunology,LJI)的科学家们开发了一种新的计算方法,将这种DNA上的分子标记与基因活性联系起来。他们的工作可能有助于研究人员将基因与“打开或关闭基因的分子开关”联系起来。这项研究发表在《Genome Biology》杂志上,是利用机器学习方法更好地理解基因表达与疾病发展之间联系的重要一步。
LJI副教授Ferhat Ay博士与LJI教授Anjana Rao博士共同领导了这项研究,他说:“这项研究是为了从三维的角度来研究DNA修饰及其在我们基因组中的功能。”Ay和Rao正致力于精确定位基因组中包含分子增强子或“开关”的区域,这些分子增强子或“开关”可以微调基因表达水平,并决定基因何时何地开启或关闭。这项工作需要研究人员开发计算工具,利用复杂的基因组数据,发现哪些增强子与哪些基因关连。
在这项新研究中,LJI的研究人员使用了线性和图形神经网络的机器学习工具来处理基因组数据并建立这些联系。神经网络是模拟大脑中神经元如何处理信息和识别模式的计算工具。图神经网络能够整合三维信息,比如细胞内DNA的物理相互作用。Edahí González-Avalos博士作为加州大学圣地亚哥分校的研究生,在LJI的Rao和Ay的共同指导下率先开发了这个图神经网络。“我们可以用它来优先考虑基因组内的DNA相互作用,”González-Avalos说,他现在在Guardant Health工作。
研究内容
研究人员训练新的神经计算网络,使其了解这种重要的DNA修饰:5hmC,是如何与基因表达活性相关的,无论它是在基因附近还是远离基因。这种羟甲基与胞嘧啶的连接与增强子活性有关。事实上,5hmC对基因表达有如此重要的影响,以至于科学家们将5hmC称为DNA字母表的“第六个字母”,与A、T、C、G和被称为第五种碱基的5mC甲基化形式并列。胞嘧啶上5mC到5hmC的转化与增强子活性有关,5hmC越多,增强子活性水平越高。
在之前的研究中,Rao实验室的研究人员发现,基因组中5hmC的位置根据他们观察的细胞类型以及这些细胞类型表达的基因而变化。虽然实际的DNA序列是一样的,但是在肝细胞和肺细胞或脑细胞中,5hmC会附着在基因组的不同位置。这种5hmC分布控制着这些不同类型细胞中不同基因组的表达。研究人员发现,5hmC附着在基因组中作为增强子的区域上——这些区域帮助基因表达的开启和关闭——以及基因本身。这些活性基因和增强子的差异代表肝细胞与肺细胞或大脑神经元的区别。
结果和结论
作者仅利用基因区域及其附近的5hmC富集,建立了预测49种细胞类型的基因表达状态的神经网络模型。这个深度神经网络模型仅利用5hmC水平来区分高表达状态和低表达状态,并且这些预测模型可以推广到未知的细胞类型。此外,为了利用远端增强子中的5hmC信号进行表达预测,他们采用了一种接触活性模型,并开发了一种图卷积神经网络模型,该模型利用Hi-C数据和5hmC富集来确定增强子-启动子链接的优先级。这些方法在多个免疫细胞亚群中鉴定出已知的和新的假定的关键基因增强子。
研究强调了5hmC通过近端和远端机制在基因调控中的重要性,并提供了将其与基因组功能联系起来的框架。随着短读和长读技术在包括5mC和5hmC在内的DNA测序方面的最新进展,5mC和5hmC的分析可能在不久的将来常规进行,因此,为本文开发的方法提供了广泛的应用。
作者视角
Rao说:“5hmC的分布因细胞类型而异。”“如果你能知道5hmC在哪里,你就能推断出产生你正在研究的DNA的细胞类型。”例如,如果一个细胞是癌细胞,你可以推断出它是哪种类型的癌症,即使它已经转移(远离)它在体内的原始位置。与以前的方法相比,新的研究方法可以在基因和增强子之间建立更简单的联系。
González-Avalos说:“这篇论文是一个概念验证,表明我们可以使用这些图形神经网络来预测基因和5hmC增强子之间的相互作用。”Ay说,他很高兴看到神经网络揭示了基因和基因组遥远区域的5hmC之间的联系。这些跨越基因组的长距离连接有助于优先考虑具有增强基因表达能力的区域。“令人兴奋的是,其中一些遥远的增强因子是以前未被发现的新调控元素。”
展望未来,研究人员希望更仔细地观察5hmC的分布,以更好地了解人类细胞中的增强子和基因相互作用。“这项研究是用小鼠细胞的数据完成的,”Ay说。“接下来,我们希望研究5hmC及其在患者免疫细胞和癌细胞中的相互作用。”
就像在正常细胞中一样,不同类型癌细胞之间的5hmC分布也不同。这意味着新的LJI方法对于理解驱动癌症发展的遗传机制可能是有价值的。Rao说,这种新方法也可能为更快、更准确的癌症诊断打开大门。科学家对血液样本进行分析以寻找体内实体瘤的迹象,但实体瘤细胞通常不存在于血液中。可用的是DNA,通常是部分降解的DNA。”正如Rao解释的那样,如果医生能够超越DNA本身,分析5hmC的分布,他们就可以帮助更多的病人,并可能更早地发现癌症。
在科学家拥有这种癌症检测工具之前,还需要做更多的工作,这项新工作显示了将实验数据与新的计算方法相结合的力量。“这表明,通过应用我们的新方法,我们可以识别新的和未注释的远端增强子,”Ay说。