-
生物通官微
陪你抓住生命科技
跳动的脉搏
HiFi测序探索GA4K儿童罕见病队列项目的“答案”
【字体: 大 中 小 】 时间:2024年09月03日 来源:基因有限公司
编辑推荐:
这项研究强调了在未发现诊断性SNV的罕见疾病中采用HiFi lrWGS的重要性。因为HiFi测序能够通过捕获单个片段中的整个SV等位基因来提供更准确的比对,所以基于长读长定位的SV比短读长更准确。
rSV与HiFi lrWGS
结构变异(SV)是遗传多样性的重要来源,并且越来越被认为是罕见和复杂疾病的贡献者。典型的SV是长度超过50 bp的遗传改变,包括缺失(DEL)、重复(DUP)、插入(INS)和倒位(INV)。考虑到SV的长度,短读长测序往往不能准确地解决复杂和重复的基因组重排。近年来,HiFi测序技术的出现使SV的检测和表征具有更高的分辨率和准确性。
而人类基因组中普遍存在的罕见结构变异(rSV)则更为复杂,可对近端基因的表达产生极端影响,并且在罕见疾病先证者体内往往没有发现任何诊断性的单核苷酸变异(SNV)。目前,整合rSV的方法主要用于已知孟德尔罕见病基因的靶向分析上,并不适用于具有多致病位点的罕见疾病或具有复杂的多表型综合征的先证者。于是为了更好的解析儿童基因组答案(Genomic Answers for Kids, GA4K)罕见病项目的先证者,研究人员提出基于PacBio HiFi长读长全基因组测序(lrWGS)、整合性状相关多基因评分(PGS)方法和基因组约束分析来探索大规模罕见病队列中的结构变异,并强调了rSV在自闭症等复杂罕见疾病中的重要性。相关内容发表于“Mapping structural variants to rare disease genes using long-read whole genome sequencing and trait-relevant polygenic scores”。
结果与讨论
结构变异的类型和频率显示了缺失和插入的普遍性
研究人员分析了GA4K数据库中的497个先证者,为了确定影响罕见病表型的潜在罕见结构变异(rSV),去除了常见的SV (>0.5% MAF),这将总共10,631,806个SV减少到1,017,180个rSV(图1A)。每个个体的平均SV数为21,521,rSV数为2,047(图1A)。与DEL(20.3%, 879 bp)、DUP(2.4%, 8000 bp)和INS(76.8%, 885 bp)相比,INV发生频率最低(0.5%),平均长度最大(25,022 bp)(图1)。
图1. 先证者群体的SV类型频率和平均长度。
研究人员计算了所有罕见表型先证者(身材/身高矮小;全面发育迟缓/智力迟钝;自闭症/孤独症;肌张力低下/握力不足;以及癫痫发作/癫痫症)的PGS,然后按其表型分组,以构建病例/对照队列。GA4K lrWGS中最常见的前五种表型有:全面发育迟缓(138例),癫痫(86例),肌张力低下(62例),自闭症(54例)和身材矮小(45例)(图2A)。
图2. 箱形图显示了自闭症和身材矮小的显著映射。
高权重PGS基因揭示自闭症中rSV的富集
由于自闭症障碍的复杂遗传性质,研究人员决定进一步关注自闭症队列中的个体。研究人员评估了自闭症PGS中包含的变异基因,发现5,830个基因至少有一个重叠的PGS变异。然后将队列rSV与这些PGS相关基因相交,发现4,271个基因中至少有一个重叠。在该基因集中,Ras抑制蛋白1 基因(RSU1)具有最高的PGS权重(基因权重= 0.139)。权重最低的基因为Importin 7 (IPO7)(基因权重= 0.023; 图3)。然后将这4,271个基因按其PGS基因权重分成4个四分位数,每个四分位数包含1,063-1,071个基因,评估了所有4,271个基因在基因体内部和基因体上下游200 kb范围内的rSV频率,观察到112,100个rSV(图3),其中INS(87,826)在基因体和侧翼区域均最为丰富,紧接着是DEL(22,019)、DUP(2,041)和INV(214)(表1;图3)。
表1. SV富集基因与自闭症密切相关
图3. 前四分位数PGS基因显示出更大的权重范围和更高的INS数目。
有趣的是,CTNNA3基因体、CDH2上游区域和SOX5下游区域的INS与自闭症的PGS相关,而且在自闭症基因数据库中也发现了它们。超过63%的自闭症个体中CDH2和SOX5的侧翼有INS富集,42%的自闭症个体在CTNNA3基因体内有INS富集(图4; 表1)。唯一在基因体和侧翼区域(下游)都有rSV富集的基因是AUTS2,其中13%的个体在基因体中发现DEL, 42%的个体在下游区域发现INS(图4)。此外,基因TNS3(上游:22% DEL;下游:13% INV),CUL1(上游:11% INS;下游:26% INS)和ITGA7(上游:7% DEL;下游:24% INS)在上游和下游区域都有富集(图4)。
图4. rSV富集程度不同的基因在染色体上的接近度较高,而rSV富集频率高的基因在染色体上的距离较远。
DUP在PGS排名靠前基因的高约束区域富集
此外,通过整合来自gnomAD的基因组约束注释发现,与对照组相比,自闭症组中与核心/关键PGS基因重叠的罕见的DEL和DUP倾向于发生在约束较高的区域(约束越高则该基因座内变异进化的容忍性越低),尤其是DUP倾向于重叠在PGS连锁基因上游200 kb范围内约束较高的区域(图5)。INS和INV间无显著差异。另外,对DUP进一步分析发现,与对照组相比,自闭症患者中PGS排名高的基因与DUP显著重叠富集在较高约束区域(图6)。在PGS排名低的后四分位数基因(图6)或其他SV类型中没有观察到这种趋势。综上所述,与对照组相比,自闭症组的DUP更频繁地与PGS基因重叠在约束更高的区域,尤其是靠近效应更强的自闭症PGS基因。
图5. 自闭症病例与对照组的DUP在基因体内部和外部的约束区域分布存在显著差异。
图6. 自闭症患者中PGS排名高的基因与DUP显著重叠富集在较高约束区域。
总的来说,该研究为从 lrWGS数据中注释rSV以及为rSV影响的下游功能验证确定疾病相关基因组区域的优先次序提供了一个框架:利用rSV、性状相关PGS和基因组约束的交叉来探索大规模罕见病队列中的结构变异。
讨论
该研究强调了在未发现诊断性SNV的罕见疾病中采用HiFi lrWGS的重要性。因为HiFi测序能够通过捕获单个片段中的整个SV等位基因来提供更准确的比对,所以基于长读长定位的SV比短读长更准确。通过HiFi lrWGS,研究人员发现了影响自闭症风险的遗传因素的复杂性,并强调了揭示罕见疾病变异的细微差别所需的综合分析的重要性。这些见解为更精确的基因诊断和开发涉及rSV的有针对性的干预措施奠定了基础。
参考文献:LeMaster et al., Mapping structural variants to rare disease genes using long-read whole genome sequencing and trait-relevant polygenic scores, 2024, medRxiv. https://doi.org/10.1101/2024.03.15.24304216
关于我们
基因有限公司作为PacBio公司的中国区合作伙伴,自2011年以来将PacBio第三代单分子实时测序技术引入国内,一直为国内用户提供专业的三代测序系统的安装培训,技术支持,应用培训与售后维护工作,赢得客户的一致好评与信任。基因有限公司将一如既往的支持越来越多的PacBio用户。
如果您对HiFi测序感兴趣,欢迎联系基因有限公司的产品经理获取专属答疑体验!
关于基因
基因有限公司成立于1992年,是一家提供生命科学科研仪器、试剂耗材和技术服务的综合服务商。基于“Gene Brightens Every Life • BioTech Connects the World”——“基因燃亮生命 • 生物技术连接世界”的愿景,专注于生命科学领域前沿技术的引进和推广,致力于推动该领域国内科研机构硬件水平及实验方案的革新与升级。同时,公司也一直致力于自主品牌的科研设备的研发与生产,拥有一系列通用性强、互补性高的自主品牌产品。
基因的服务网络遍及全国各地十多个大中城市,拥有包括仪器销售,试剂销售,市场与技术支持,维修,客服,物流等多个部门组成的完整服务体系。
我们希望通过不懈努力,为您的成功铺路搭桥,也为中国的生命科学事业赶超世界先进水平尽一己之力。欲了解更多信息,请访问www.genecompany.cn。