-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于云的AnVIL平台将向所有人开放基因组学数据
【字体: 大 中 小 】 时间:2022年01月18日 来源:Johns Hopkins University
编辑推荐:
利用基因组学的力量发现重大疾病的风险因素或寻找亲属依赖于分析大量基因组的昂贵和耗时的能力。计算机科学家现在通过创建一个基于云的平台,使基因组学研究人员能够轻松访问世界上最大的基因组学数据库之一,从而使竞争环境变得更加公平。
这个名为AnVIL(基因组数据科学分析、可视化和信息学实验室空间)的新平台可以让任何研究人员通过互联网访问数千个分析工具、患者记录和超过30万个基因组。这项工作是国家人类基因组研究所(NHGRI)的一个项目,今天发表在《Cell Genomics》杂志上。
“AnVIL颠覆了基因组数据共享的模式,通过以新的方式连接研究人员和数据集,为科学提供了前所未有的新机遇,并有望实现令人兴奋的新发现,”项目联合负责人、约翰霍普金斯大学计算机科学和生物学彭博杰出教授Michael Schatz说。
通常,基因组分析开始于研究人员从中央仓库下载大量数据到他们自己的数据中心,这一过程不仅耗时、低效、昂贵,而且还使得与其他机构的研究人员的合作变得困难。
AnVIL将为各种规模的机构带来变革,尤其是那些没有资源来建立自己的数据中心的小型机构。我们希望AnVIL能够创造一个公平的竞争环境,让每个人都有平等的机会进行发现。”
癌症或心血管疾病等疾病的遗传风险因素往往非常微妙,这需要研究人员分析数千名患者的基因组,以发现新的关联。Schatz说,一个人类基因组的原始数据约为40GB,因此下载数千个基因组可能需要几天到几周的时间:一个基因组需要大约10张DVD的数据,因此传输数千张基因组意味着要移动“数万张DVD的数据”。
此外,许多研究需要整合多个机构收集的数据,这意味着每个机构必须下载自己的副本,同时确保患者数据的安全性。随着研究人员开始进行更大规模的研究,需要同时分析数十万到数百万个基因组,预计这一挑战在未来将变得更大。
Schatz说:“远程连接到AnVIL消除了大量下载的需要,并节省了开销。我们不需要费力地将数据转移给研究人员,而是允许研究人员轻松地转移到云中的数据。它还使数据集共享变得更加容易,从而可以以新的方式连接数据,找到新的关联,它简化了很多计算问题,比如为患者数据集提供强大的加密和隐私。”
AnVIL还为研究人员提供了几个主要的分析工具,包括由约翰霍普金斯大学开发的Galaxy,以及其他流行的工具,如R/Bioconductor、Jupyter笔记本电脑、WDLs、Gen3和Dockstore,以支持交互式分析和大规模批处理计算。总的来说,这些工具允许研究人员无需构建自己的计算环境就可以处理甚至是最大的研究。
来自世界各地的研究人员目前使用这个平台来研究各种遗传疾病,包括自闭症谱系障碍、心血管疾病和癫痫。Schatz的团队是端粒-端粒联盟的成员,他们用这个新的参考基因组重新分析了数千个人类基因组,发现了超过100万个新的变异。
AnVIL团队已经从几个最大的NHGRI项目中收集了数PB的数据,包括来自基因型组织表达(GTEx)、孟德尔遗传学中心(CMG)和常见病基因组学中心(CCDG)项目的数十万个基因组,并计划在不久的将来主办更多的项目。
Michael C. Schatz, Anthony A. Philippakis, Enis Afgan, Eric Banks, Vincent J. Carey, Robert J. Carroll, Alessandro Culotti, Kyle Ellrott, Jeremy Goecks, Robert L. Grossman, Ira M. Hall, Kasper D. Hansen, Jonathan Lawson, Jeffrey T. Leek, Anne O’Donnell Luria, Stephen Mosher, Martin Morgan, Anton Nekrutenko, Brian D. O’Connor, Kevin Osborn, Benedict Paten, Candace Patterson, Frederick J. Tan, Casey Overby Taylor, Jennifer Vessio, Levi Waldron, Ting Wang, Kristin Wuichet, Alexander Baumann, Andrew Rula, Anton Kovalsy, Clare Bernard, Derek Caetano-Anollés, Geraldine A. Van der Auwera, Justin Canas, Kaan Yuksel, Kate Herman, M. Morgan Taylor, Marianie Simeon, Michael Baumann, Qi Wang, Robert Title, Ruchi Munshi, Sushma Chaluvadi, Valerie Reeves, William Disman, Salin Thomas, Allie Hajian, Elizabeth Kiernan, Namrata Gupta, Trish Vosburg, Ludwig Geistlinger, Marcel Ramos, Sehyun Oh, Dave Rogers, Frances McDade, Mim Hastie, Nitesh Turaga, Alexander Ostrovsky, Alexandru Mahmoud, Dannon Baker, Dave Clements, Katherine E.L. Cox, Keith Suderman, Nataliya Kucher, Sergey Golitsynskiy, Samantha Zarate, Sarah J. Wheelan, Kai Kammers, Ana Stevens, Carolyn Hutter, Christopher Wellington, Elena M. Ghanaim, Ken L. Wiley, Shurjo K. Sen, Valentina Di Francesco, Deni s Yuen, Brian Walsh, Luke Sargent, Vahid Jalili, John Chilton, Lori Shepherd, B.J. Stubbs, Ash O’Farrell, Benton A. Vizzier, Charles Overbeck, Charles Reid, David Charles Steinberg, Elizabeth A. Sheets, Julian Lucas, Lon Blauvelt, Louise Cabansay, Noah Warren, Brian Hannafious, Tim Harris, Radhika Reddy, Eric Torstenson, M. Katie Banasiewicz, Haley J. Abel, Jason Walker. Inverting the model of genomics data sharing with the NHGRI Genomic Data Science Analysis, Visualization, and Informatics Lab-space. Cell Genomics, 2022; 2 (1): 100085 DOI: 10.1016/j.xgen.2021.100085