探秘 “暗基因组”:短开放阅读框(sORF)的突变约束分析新进展

【字体: 时间:2025年03月15日 来源:BMC Genomics 3.5

编辑推荐:

  为探究 sORF 疾病相关性,研究人员分析其突变约束,发现部分高度受限,对理解其功能意义重大。

  

神秘 “暗基因组” 与 sORF 的探索之旅

在人类基因组测序完成后,基因组中那些尚未被充分探索的区域 ——“暗基因组”,成为了生命科学研究的新热点。其中,短开放阅读框(short open reading frames,sORF)作为 “暗基因组” 的重要组成部分,虽然长度较短,却蕴含着巨大的奥秘。sORF 是一类非经典阅读框,长度小于传统定义的 100 个密码子,它们可能与经典编码区域重叠,具备编码功能性微蛋白或发挥调控功能的潜力。然而,目前 sORF 的确切数量、编码和调控情况仍不明确,其在大多数情况下的生物学功能也如同迷雾一般,亟待揭开。更关键的是,由于缺乏针对 sORF 遗传变异的群体水平约束指标,利用大规模基因组数据预测其疾病相关性困难重重。
为了突破这些困境,来自德国 RWTH Aachen 大学医院人类遗传学和基因组医学研究所等机构的研究人员踏上了探索之旅。他们的研究成果发表在《BMC Genomics》杂志上,为我们深入了解 sORF 提供了重要线索。

研究的 “秘密武器”:关键技术方法

研究人员在此次研究中运用了多种关键技术方法。首先,借助 Ensembl 变异效应预测器(VEP)对 gnomAD 染色体参考 VCF 文件进行注释,以此确定 sORF 编码变体的功能后果,并添加来自 gnomAD 4.0 外显子组或基因组的人群频率信息。其次,计算不同变体类型的观察 / 预期上限分数(OEUF),如错义变体的 MOEUF、功能丧失变体的 LOEUF 和未进一步划分的单核苷酸变体(SNV)的 SNVOEUF ,通过比较观察值和期望值来评估 sORF 的约束程度。在计算过程中,利用 Python 和 Spark 重新实现相关流程,还考虑了序列长度、甲基化状态等因素。此外,从多个数据库获取数据,包括 gnomAD、gencode、UTR 2.0 数据库等,并运用多种统计方法对数据进行深入分析。

研究结果大揭秘

  1. 样本情况与突变背景:gnomAD 4.0 的发布为研究带来了新契机,其包含大量个体的全基因组和全外显子组数据。研究发现,7264 个 gencode sORF 中有 4274 个存在于 gnomAD 4.0 外显子组区域,但部分因覆盖度不足无法用于后续分析。在突变背景方面,经典基因和 sORF 的变体分布相似,主要为错义变体,不过 sORF 中高影响变体(如移码变体和起始丢失变体)的数量明显更多。
  2. sORF 约束评估:通过不同的基因组约束指标评估 sORF 的约束情况。利用 Gnocchi 评分发现,部分 sORF 的约束程度高于一些非编码 RNA,如长链非编码 RNA(lncRNA)、小核仁 RNA(snoRNA)等。进一步计算 SNVOEUF 发现,只有少数 sORF 达到高度约束区域的截断值。分析错义约束分数(MOEUF)和功能丧失约束分数(LOEUF)时,由于 sORF 长度较短,样本量限制导致难以准确评估 LOEUF ,但从 MOEUF 分析结果来看,大多数 sORF 对错义变体呈现出中等程度的约束。
  3. 识别特殊 sORF:比较 MOEUF 和 SNVOEUF 值,发现多数 sORF 的 MOEUF 值低于 SNVOEUF 值,尤其是高度约束的 sORF。这表明这些 sORF 对特定突变类型的约束存在差异,有助于区分真正受约束的重叠 sORF 和重叠基因组元件的背景框外效应。
  4. sORF 与相邻基因关系:研究 sORF 与其相邻基因的关系时发现,gencode sORF 倾向于与受到中等约束的基因相邻,且 sORF 和相邻基因的 MOEUF 值之间仅存在微弱联系。对高度约束 sORF 的相邻基因分析发现,部分与单基因疾病相关,还识别出一些基因本体(Gene Ontology,GO)术语,暗示这些 sORF 可能具有潜在的临床相关性。
  5. sORF 与 UTR 约束比较:研究 UTR 区域的约束情况时发现,包含 uORF 的 UTR 在 SNVOEUF 分布上与不包含 uORF 的 UTR 存在显著差异。同时,分析发现部分基因的多个 UTR 区域存在区域约束现象,且这种约束与序列长度相关。

研究结论与讨论:照亮 sORF 研究的前路

综合此次研究结果,研究人员成功实施了一种用 Python 和 Spark 计算 sORF 约束的工作流程。通过计算和比较不同的约束指标,发现为 sORF 计算定制的约束值比依赖更大的 bin 区间更有优势,并且 sORF 与其基因组邻居之间的约束联系较弱,这凸显了针对性约束方法的重要性。此外,研究还发现一小部分 sORF 的约束方式与高度约束的经典基因相似,这为后续研究指明了方向。
然而,研究也存在一定的局限性。目前的样本量限制了对 sORF 约束水平的全面分析,尤其是功能丧失不耐受的分析。同时,现有约束指标如 Gnocchi 评分和 SNVOEUF 之间的相关性仍需进一步研究,可能需要更大的样本量和更高分辨率的约束指标来深入探究。尽管如此,这项研究为 sORF 的研究开辟了新的道路,为理解 sORF 在健康和疾病中的作用奠定了基础,有望推动相关领域的进一步发展,让我们对 “暗基因组” 的认识更进一层。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号