编辑推荐:
本研究提出了一种新的非参数纵向算法Ev-RE-EM,用于高维纵向数据分析,旨在解决传统线性混合效应模型(LME)对参数假设敏感、预测性能不佳的问题。研究通过模拟实验和真实数据(Tehran心脏代谢遗传研究)验证了Ev-RE-EM算法的预测性能,并与其他树算法(如RE-EM和无偏RE-EM)进行了比较,结果表明Ev-RE-EM在预测性能上与无偏RE-EM相似,且生成的树更小,可解释性更强,为遗传学研究提供了新的分析工具。
在遗传学研究中,传统的线性混合效应模型(LME)常用于分析纵向和聚类数据,但其对参数假设的敏感性限制了其在高维数据中的应用。为了克服这一问题,伊朗塔比阿特莫达勒斯大学(Tarbiat Modares University)的研究人员提出了一种新的非参数纵向算法Ev-RE-EM,通过模拟研究和Tehran心脏代谢遗传研究(TCGS)的真实数据验证了该算法的预测性能,并与其他树算法(如RE-EM和无偏RE-EM)进行了比较。研究结果表明,Ev-RE-EM在预测性能上与无偏RE-EM相似,且生成的树更小,可解释性更强,为高维纵向数据的遗传学研究提供了新的分析工具。论文发表在《BioData Mining》上。
研究背景
在遗传学研究中,纵向数据通常是从个体随时间收集的,以反映聚类数据的层次结构。传统的线性混合效应模型(LME)被广泛用于处理这些数据,但其对参数假设的敏感性限制了其在高维数据中的应用。近年来,基于树的算法因其在处理高维数据和非线性关系方面的优势而受到关注。然而,常用的CART算法存在贪婪性、不稳定性等问题。为了解决这些问题,研究人员提出了一种新的非参数纵向算法Ev-RE-EM,该算法结合了Evtree算法的优势,用于估计LME的固定效应部分。
研究方法
研究人员首先从Tehran心脏代谢遗传研究(TCGS)中获取真实数据,以身体质量指数(BMI)作为表型,包括年龄、性别和25,640个单核苷酸多态性(SNP)作为预测变量。为了验证Ev-RE-EM算法的性能,研究人员设计了一个模拟实验,生成了100个包含3,088个个体的模拟数据集,并在不同的自相关结构下比较了Ev-RE-EM、RE-EM和无偏RE-EM算法的预测性能。评价指标包括均方误差(MSE)、平均绝对差(MAD)和偏差。
研究结果
真实数据分析
模拟研究
研究结论和讨论
研究表明,Ev-RE-EM算法在处理高维纵向数据时具有显著优势,能够生成更小且可解释性更强的树结构。与传统的RE-EM算法相比,Ev-RE-EM算法通过随机选择分裂变量和规则,消除了选择分裂规则的偏差。此外,该算法在不同数据集上的表现一致性表明其在遗传学研究中的广泛适用性。尽管如此,研究也存在一些局限性,例如在处理全基因组数据时的计算负担较大,以及无法处理缺失数据等问题。未来的研究可以进一步优化Ev-RE-EM算法,以提高其在全基因组数据分析中的效率,并探索其在其他领域的应用潜力。