编辑推荐:
在遗传学研究中,基因组结构变异(SVs)对人类遗传多样性、疾病易感性的影响尚不明确。为此,研究人员对 945 名汉族个体进行长读长测序。结果发现大量未报道的 SVs,确定两个关键 SVs 影响表型和疾病易感性。这为研究人类进化和疾病防治提供新视角。
遗传学研究就像一场探索生命奥秘的冒险,科学家们致力于揭开人类遗传多样性和疾病易感性的神秘面纱。基因组结构变异(Structural Variants,SVs)作为遗传多样性的重要来源,一直备受关注。以往研究虽已认识到 SVs 在人类基因组中的医学相关性,但由于技术限制,对其了解仍存在诸多空白。传统检测技术在分辨率、断点检测和复杂 SV 检测方面存在不足,短读长测序(Short-read sequencing,SRS)也难以准确识别所有 SVs。因此,全面深入研究 SVs 对理解人类进化历史、表型多样性以及疾病防治意义重大。
为了填补这些知识空白,来自复旦大学等机构的研究人员勇挑重担,开展了一项极具意义的研究。他们对 945 名汉族个体的基因组进行长读长测序(Long-read sequencing,LRS),构建了基于长读长的 SV 目录,深入探究 SVs 与人类表型多样性和疾病易感性之间的关系 。该研究成果发表在《Nature Communications》上,为该领域带来了新的曙光。
在这项研究中,研究人员运用了多种关键技术方法。首先是长读长测序技术,使用牛津纳米孔技术公司(ONT)的 PromethION 平台对样本进行全基因组测序,获取高质量的测序数据。其次,采用了一系列生物信息学分析工具,如 NGMLR、cuteSV、SURVIVOR、LRcaller 等进行序列比对、SV 检测和基因分型。此外,研究还涉及多种实验技术,包括 PCR 和 Sanger 测序用于验证 SVs,以及构建人源化小鼠模型来研究 SVs 的功能影响 。
下面来详细看看研究结果:
- 生成基于长读长的汉族人群 SV 数据集:研究人员对 945 个汉族样本进行全基因组测序,平均测序深度达 17X。共检测到 111,288 个 SVs,涵盖多种类型,如插入、缺失、重复等。这些 SVs 平均影响每个个体 17.83 Mb 的基因组序列12。
- 确认 SV 数据集的高质量:通过正交方法(PCR 和 Sanger 测序)和与全球人群中高频 SVs 的比较,评估数据集的错误发现率。结果表明,该数据集的假阳性和假阴性率较低,大部分 SVs 是真实的基因组多态性3。
- 发现大量未报道的 SVs:研究发现,大量 SVs 在之前的研究中未被报道,其中部分位于基因的外显子区域、转录因子结合位点等,可能具有重要功能。随着样本量增加,单例 SVs 数量减少,说明该研究有效涵盖了汉族人群基因组中的大多数常见 SVs4。
- 鉴定 SVs 的基因组特征:SVs 在基因组中的分布并不均匀,在亚端粒区域密度更高,且 79.72% 的 SV 断点与重复元件重叠。同时,研究还发现等位基因频率与 SVs 数量呈负相关,稀有 SVs 的大小显著大于常见 SVs5。
- 汉族来源的 SV 多样性在现代和古代人类中的分布:研究人员对不同人群的 SVs 进行基因分型,发现部分 SVs 是人类与黑猩猩共有的古老多态性,部分是现代人类特有的。还有一些 SVs 在不同大陆人群中共享或特定于某些大陆人群6。
- 表征 GSDMD 基因中与急性肾损伤、骨密度等相关的缺失:研究发现 GSDMD 基因中的一个 2175-bp 缺失与骨密度增加、急性肾损伤风险降低等相关。该缺失消除了 GSDMD 最长异构体的第一个外显子,通过敲除小鼠模型验证了其功能影响7。
- WWP2 基因中一个未报道的复杂 SV 与身材矮小、体脂增加等相关:在 WWP2 基因中鉴定出一个复杂 SV,与身高、体重、体脂百分比和免疫反应等多种表型相关。该 SV 位于一个增强子区域,影响 WWP2 基因的表达,通过小鼠模型进一步验证了其功能8。
研究结论和讨论部分指出,该研究通过大规模 LRS 检测方法揭示了大量未报道的 SVs,这些 SVs 具有潜在的生物医学相关性,其构建的 SV 目录可帮助临床测序中的变异优先级排序,并为未来全基因组关联研究(GWAS)提供参考。研究还发现了影响 WWP2 和 GSDMD 基因及其相关表型的因果 SVs,为理解现代人类进化和疾病易感性差异提供了关键见解。此外,研究表明以往小鼠基因敲除实验的表型在人类和人源化小鼠中可能不可靠,强调了在人类遗传数据中验证模型生物表型的必要性。最后,研究人员还发现遗传变异与环境压力之间存在动态相互作用,一些在过去具有适应性的遗传变异在现代环境中可能导致疾病风险增加。总之,这项研究为人类进化、遗传多样性和疾病防治研究提供了重要的理论依据和数据支持,具有极高的科学价值。