综述:大规模国家基因组项目:解锁人类遗传密码,推动精准医学发展

【字体: 时间:2025年03月08日 来源:Genomics & Informatics

编辑推荐:

  为探究人类遗传变异与健康疾病关系,研究人员分析全球 WGS 项目,助力精准医学发展。

  在生命科学的奇妙世界里,人类一直试图揭开自身遗传密码的奥秘,探寻遗传变异与健康、疾病之间千丝万缕的联系。过去,传统的遗传研究如同在黑暗中摸索,仅聚焦于特定疾病或性状,犹如管中窥豹,难以全面了解人类遗传变异的全貌。而且,现有基因组资源存在严重缺陷,历史上遗传研究的偏见使得数据集大多来自欧洲人群,这不仅限制了研究结果的普遍适用性,还可能加剧健康不平等。为了打破这些困境,来自韩国大学等机构的研究人员开展了关于大规模国家生物样本库项目利用全基因组测序(Whole-genome sequencing,WGS)进行群体规模基因组学研究,该研究成果发表在《Genomics & Informatics》上。
研究人员采用了多种关键技术方法。在数据处理和分析方面,运用了多种工具和方法,如 GATK、DRAGEN 等用于变异检测,通过联合调用和聚合等方法创建多样本 VCF 文件;采用 CRAM、稀疏 VCF 等优化数据存储格式;利用云计算环境,如英国生物样本库的 RAP 平台、美国 “All of Us” 项目的谷歌云平台等进行数据处理和分析。同时,各项目还建立了完善的数据管理和访问系统,以保障数据的质量和安全。

研究结果如下:

  1. 大规模国家生物样本库项目概况:介绍了多个国家的生物样本库项目,如英国生物样本库招募约 500,000 名参与者,收集了丰富的表型和基因组数据;美国 “All of Us” 研究计划旨在推动精准医学,已发布 245,388 名参与者的 WGS 数据;新加坡 PRECISE 项目分阶段开展,整合基因组和表型数据;日本 BioBank Japan 针对日本人群常见疾病研究,收集了多组学数据;韩国 NPBBD-Korea 计划为 100 万韩国人建立综合生物大数据资源,目前已完成部分样本的测序工作。
  2. 技术进步
    • 变异检测工具:GATK 长期作为变异检测标准工具,但因其计算强度大、处理时间慢,出现了 DRAGEN、Sentieon 和 DeepVariant 等替代工具,它们分别通过硬件加速、优化算法和深度学习技术,提高了变异检测的效率和准确性。
    • 多样本 VCF 创建方法:联合调用和聚合是创建多样本 VCF 的两种主要方法。联合调用能提高检测稀有变异的准确性,如 GATK GenotypeGVCFs 和 Graphtyper 等工具;聚合则适用于超大型队列,可灵活处理新样本,如 DRAGEN Iterative gVCF Genotyper、Genomic Variant Store 和 GLnexus 等工具。
    • 数据存储和计算环境:CRAM 文件因其压缩能力强逐渐取代 BAM 文件,稀疏 VCF 格式减少了变异数据的存储大小。同时,云计算环境的应用为大规模基因组数据处理提供了可扩展的计算资源和存储解决方案,如英国生物样本库的 RAP 平台和美国 “All of Us” 项目的谷歌云平台。
    • 下游分析工具和数据管理:Hail 和 Glow 等工具利用分布式计算框架提升了大规模基因组数据的处理和解释能力。各生物样本库还建立了完善的数据管理和访问系统,保障数据质量和安全,同时通过分层访问系统平衡数据的可用性、安全性和隐私性。

  3. 基因组研究的发现和成果
    • eQTL 位点的发现:大规模生物样本库和转录组数据集的出现,使 eQTL 的系统映射成为可能。研究人员通过整合多组织、疾病背景分析以及多组学数据,发现了许多与疾病相关的 eQTL 位点,如在精神疾病、结直肠癌、哮喘和阿尔茨海默病等研究中取得重要进展,为理解疾病机制和开发精准治疗策略提供了依据。
    • 稀有变异的发现和风险分层:生物样本库数据集为大规模稀有变异发现和疾病风险分层提供了机会。研究人员通过对不同人群的研究,发现了许多与疾病相关的稀有变异,如在芬兰人群、日本人群和英国生物样本库中的研究。同时,还揭示了不同人群中遗传效应的差异,强调了包容性和跨种族研究的重要性。
    • 韩国 NPBBD-Korea 项目的最新发现:NPBBD-Korea 项目在韩国人群中发现了许多新的遗传关联,建立的韩国参考基因组提高了基因分型的准确性。该项目还在复杂疾病和罕见病的研究中取得重要进展,如在自闭症谱系障碍(ASD)、神经发育障碍、罕见病诊断等方面,为精准医学提供了重要的数据支持。


研究结论和讨论部分指出,大规模国家基因组项目利用 WGS 技术全面表征了基因组多样性,揭示了稀有变异和非编码区域的重要性,推动了精准医学的发展。通过整合遗传数据与临床、环境和生活方式信息,有望实现个性化风险评估和靶向治疗。然而,这些项目也面临着计算、后勤和伦理等方面的挑战,如需要强大的生物信息基础设施和标准化方法来管理数据,要谨慎处理数据共享、隐私和同意等伦理问题,还需努力招募更多样化的人群参与研究。未来,应进一步加强 WGS 与临床护理的整合,利用机器学习和人工智能技术提高基因型 - 表型相关性的预测准确性,推动基因组医学的发展,为全球健康事业带来更多福祉。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号