编辑推荐:
为探究祖先多样性对基因和亚基因不耐受指标的影响,研究人员分析多祖先数据,发现增加祖先多样性可提升指标性能,对精准医学意义重大。
在人类基因组的研究领域,精准识别那些对变异 “零容忍” 的区域,就像在茫茫基因海洋里找到关键的宝藏岛屿,这对于确定致病突变、挖掘新的疾病风险基因以及深入了解人类基因组生物学至关重要。随着基因组数据库规模的不断扩大,研究人员有了更强大的工具来探寻这些关键区域。然而,当前的基因组数据集存在一个明显的 “短板”,那就是祖先多样性的严重不足。大部分数据集中,北欧祖先个体的数据占比过高,全球其他地区祖先的代表性严重缺失。这种不平衡不仅加剧了健康领域的不公平现象,还可能限制基因不耐受指标的准确性和有效性。就好比用一幅不完整的地图去导航,难免会迷失方向。为了打破这一困境,来自美国贝勒医学院(Baylor College of Medicine)、英国阿斯利康(AstraZeneca)等机构的研究人员踏上了探索之旅,他们开展了一项深入研究,旨在评估祖先多样性和样本量对基因不耐受指标的影响。该研究成果发表在《Nature Communications》上。
研究人员在此次研究中主要运用了以下关键技术方法:首先,利用来自基因组聚合数据库(gnomAD)和英国生物样本库(UKB)的大规模全外显子测序数据,这些数据涵盖了多个不同祖先群体的信息。其次,通过主成分分析方法对遗传相似性进行聚类,从而确定不同的祖先群体分类。最后,构建了多种基因不耐受指标,如残差变异不耐受评分(RVIS)、错义耐受比(MTR)和功能丧失观察 / 预期比(LOF O/E)等,并通过一系列的统计分析和模型构建来评估这些指标的性能。
研究结果如下:
gnomAD 和 UKB 队列特征 :研究人员分析了 gnomAD(v2.1)和 UKB 的大量外显子序列数据。在 gnomAD 中,非洲裔(AFR)队列展现出最高的遗传多样性,其常见功能变异(MAF >0.05%)明显多于其他队列,例如常见错义变异数量是北欧裔(NFE)队列的 1.8 倍 。在 UKB 中,情况类似,AFR 队列的遗传多样性也较为突出。同时,研究发现,对于非芬兰裔欧洲人,当前样本量下常见功能变异数量已趋于饱和,但稀有变异数量仍随样本量增加而增多。
推导祖先群体特异性的 RVIS :鉴于不同群体间功能变异数量的显著差异,研究人员推测遗传多样性的缺乏可能限制不耐受指标的分辨率。他们构建了祖先群体特异性的 RVIS。结果显示,在预测严重疾病相关基因时,基于非洲裔群体遗传变异数据训练得到的 RVIS 得分,其受试者工作特征曲线下面积(AUC)在所有五个基因集(单等位基因发育性癫痫性脑病(DEE)基因、单等位基因发育迟缓(DD)基因、单等位基因自闭症谱系障碍(ASD)基因、单倍体不足基因和小鼠必需基因)中均最高,这表明增加遗传多样性能够优化对基因不耐受性的评估。
MTR 随遗传多样性增加而改善 :研究人员利用 UKB 数据创建了不同祖先多样性组成但样本量相同的数据集。通过计算发现,在构建基因水平的 MTR 得分时,“最大多样性(n=43k)” 队列(包含非洲裔、南亚裔、东亚裔、阿什肯纳兹犹太裔和随机抽取的非芬兰裔欧洲人样本)表现最佳,其 AUC 在所有基因集中均最高,且优于样本量更大的 “全数据集(n=460k)” 队列得分。在计算滑动窗口 MTR 时也得到了类似结果,即基于最具多样性队列训练的 MTR 在区分致病性错义变异和良性变异方面表现最佳。
功能丧失不耐受 :在研究功能丧失不耐受指标时,发现样本量对 LOF O/E 和 LOF-FDR 得分的影响较大。总体而言,使用整个 NFE 队列(n=440k)和完整数据集(n=460k)训练的得分在预测所有基因集时,表现优于使用减少的非芬兰裔欧洲人队列(n=42,740)和最大多样性队列(n=42,739)训练的得分。这是因为蛋白质截断变异(PTVs)相对稀少,需要更大样本量来提高统计的可信度。
研究结论和讨论部分指出,本研究充分证明了增加祖先多样性能够显著提升多种基因不耐受指标的分辨率,这在 RVIS 和错义特异性不耐受评分(基因水平 MTR 和滑动窗口 MTR)中表现得尤为明显。相比之下,LOF 不耐受指标对样本量的依赖更强。基于多个基准测试的结果,研究人员建议用户默认使用源自非洲裔群体的 RVIS 和错义特异性不耐受评分,以及基于完整数据集计算的 LOF 不耐受指标。此外,该研究成果具有广泛的意义,不仅有助于推动精准医学的公平发展,还能为药物研发提供更可靠的靶点,同时对理解研究结果在不同群体间的可转移性也具有重要价值。不过,目前研究中仍存在一些局限性,如对许多人类群体的代表性不足,未来随着样本量的进一步增加和祖先群体代表性的提升,相关研究有望取得更深入的进展。<此次研究犹如在基因研究的征程中点亮了一盏明灯,为后续的探索指明了方向。它让我们更加清晰地认识到祖先多样性在基因组研究中的关键地位,也为解决当前基因组研究面临的困境提供了宝贵的思路和方法。随着研究的不断深入,相信会有更多的惊喜等待着我们去发现和探索。>
閹垫捁绁�
娑撳娴囩€瑰宓庢导锔炬暩鐎涙劒鍔熼妴濠団偓姘崇箖缂佸棜鍎禒锝堥樋閹活厾銇氶弬鎵畱閼筋垳澧块棃鍓佸仯閵嗗甯扮槐銏狀洤娴f洟鈧俺绻冩禒锝堥樋閸掑棙鐎芥穱鍐箻閹劎娈戦懡顖滃⒖閸欐垹骞囬惍鏃傗敀
10x Genomics閺傛澘鎼isium HD 瀵偓閸氼垰宕熺紒鍡氬劒閸掑棜椴搁悳鍥╂畱閸忋劏娴嗚ぐ鏇犵矋缁屾椽妫块崚鍡樼€介敍锟�
濞嗐垼绻嬫稉瀣祰Twist閵嗗﹣绗夐弬顓炲綁閸栨牜娈慍RISPR缁涙盯鈧鐗哥仦鈧妴瀣暩鐎涙劒鍔�
閸楁洜绮忛懗鐐寸ゴ鎼村繐鍙嗛梻銊ャ亣鐠佹彃鐖� - 濞e崬鍙嗘禍鍡毿掓禒搴n儑娑撯偓娑擃亜宕熺紒鍡氬劒鐎圭偤鐛欑拋鎹愵吀閸掔増鏆熼幑顔垮窛閹貉傜瑢閸欘垵顫嬮崠鏍掗弸锟�
娑撳娴囬妴濠勭矎閼崇偛鍞撮摂瀣鐠愩劋绨版担婊冨瀻閺嬫劖鏌熷▔鏇犳暩鐎涙劒鍔熼妴锟�