-
生物通官微
陪你抓住生命科技
跳动的脉搏
两篇论文解析多个基因组数据的新型整合模型
【字体: 大 中 小 】 时间:2014年04月10日 来源:生物通
编辑推荐:
DNA差异、基因表达或甲基化的有关数据,可以告诉流行病学家一些有关基因组学和疾病两者之间关系的事情。根据最近发表的两项研究,一种新型统计模型可以整合所有这些数据,提供一种显著改进的分析方法。
生物通报道:DNA差异、基因表达或甲基化的有关数据,可以告诉流行病学家一些有关基因组学和疾病两者之间关系的事情。根据最近发表的两项研究,一种新型统计模型可以整合所有这些数据,提供一种显著改进的分析方法。
要实现“个性化医疗”和“大数据”的医疗前景,根本在于开发出分析和整合基因组数据的方法。在这两项最新研究中,布朗大学的流行病学家Yen-Tsung Huang和同事们指出,将不同类型的基因组数据整合可以提高基因和疾病之间的相关性研究。
Huang整合的数据类型是DNA中的单核苷酸差异(SNPs)、基因表达数据(身体如何把基因转化为行动)和甲基化(表达有关的一个化学变化)。所有这些数据都可能与一个人是否患病有关,但是大多数将基因组学和疾病联系起来的研究通常只针对SNPs,其他的基因组数据往往被忽略。在2014年4月份的《Biostatistics》和《Annals of Applied Statistics》杂志上发表的两篇论文中,Huang在哮喘和脑肿瘤数据分析中检测了这个模型。
Huang指出:“我们的整合方法胜过单一平台的方法。应用到实际数据中,它能发挥作用。”
改进的性能
这个统计模型由Huang和哈佛大学的Tyler VanderWeele、Xihong Lin开发,后两位也是《Annals of Applied Statistics》论文的共同作者。这个模型的结构和假设所依据的是基础生物学。SNPs可能与疾病有直接关系,或者说,相关性可能是由哪个基因介导,包括存在SNPs、在健康或患病人群中表达的基因。
发表在《Annals of Applied Statistics》的这篇论文详细地描述了该模型,及其在将哮喘与基因ORMDL3联系起来的数据中的应用性。利用这个模型,研究人员在与疾病明显相关的基因中发现了15个SNPs,而单独分析SNPs时只有5个很明显。研究人员还发现,当使用他们模型允许的联合分析时,与仅跟踪一个变量或试图混合多个数据集的传统方法相比,他们获得的p值(关联性的统计显著性测量值)大大降低,因此这个模型更强大。
他们知道,这个模型不太可能只产生出许多假阳性的SNPs,因为他们还检测它是否与“空”数据相违背,在“空”数据中它不应该发现任何东西,的确,它没有发现任何东西。
不同的实验对象都有效
Huang进一步扩展了这个模型,并在《Biostatistics》再次报道了类似的结果,在哮喘数据集以及包括GRB10基因和胶质母细胞瘤多形性脑瘤的数据集中,他发现了新的潜在相关基因和更低的p值。但是这篇论文还发现了另外一些结果。其中之一是,即便SNP数据和基因表达数据来自于不同的人群,只要实验对象一般是类似的,那么这个模型仍然有用。另外一个结果是,该模型不仅能整合SNPs和表达数据,也能整合DNA甲基化数据,这是与表达相关的一个DNA化学变化。
这非常的重要,因为基因表达和DNA甲基化可能是有组织依赖性的。在脑瘤的情况中,流行病学家很难从相同的实验对象取出脑组织,从这些实验对象他们能够更容易地采集DNA样本。
在一项新研究中,Huang将与布朗大学的流行病学同事Dominique Michaud合作,计划将这个模型应用于脑瘤的新数据集,包括有肿瘤和无肿瘤实验对象的DNA,以及已经死于两种脑瘤或其他原因的人体组织的表达数据。
研究人员补充说,可能还有许多其他的应用程序。该模型在两个变量(一个可以介导另外一个)和结果之间关系的一般结构,可使其应用于类似的结构现象,而不仅仅是基因组学和疾病。
Huang说:“我认为,我们这种方法代表一种新型的数据整合框架。只要你能按照这种中介模型进行安排你的生物学问题,那么我们的方法就可以帮助你轻松地分析数据。”(生物通:王英)
延伸阅读:《Nature Biotechnology》:新型生物信息学工具使转录组形象化。
生物通推荐原文:
Yen-Tsung Huang. Integrative modeling of multiple genomic data from different types of genetic association studies. Biostatistics (2014) doi: 10.1093/biostatistics/kxu014. First published online: April 4, 2014.
Yen-Tsung Huang, Tyler J VanderWeele, and Xihong Lin. Joint analysis of SNP and gene expression data in genetic association studies of complex diseases. Annals of Applied Statistics, 2014, in press.
知名企业招聘