混合效应回归树在高维纵向数据分析中的应用：识别低风险和高风险亚组的模拟研究及遗传学应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年03月20日 来源：BioData Mining 4

编辑推荐：

　　本研究提出了一种新的非参数纵向算法Ev-RE-EM，用于高维纵向数据分析，旨在解决传统线性混合效应模型（LME）对参数假设敏感、预测性能不佳的问题。研究通过模拟实验和真实数据（Tehran心脏代谢遗传研究）验证了Ev-RE-EM算法的预测性能，并与其他树算法（如RE-EM和无偏RE-EM）进行了比较，结果表明Ev-RE-EM在预测性能上与无偏RE-EM相似，且生成的树更小，可解释性更强，为遗传学研究提供了新的分析工具。

　　在遗传学研究中，传统的线性混合效应模型（LME）常用于分析纵向和聚类数据，但其对参数假设的敏感性限制了其在高维数据中的应用。为了克服这一问题，伊朗塔比阿特莫达勒斯大学（Tarbiat Modares University）的研究人员提出了一种新的非参数纵向算法Ev-RE-EM，通过模拟研究和Tehran心脏代谢遗传研究（TCGS）的真实数据验证了该算法的预测性能，并与其他树算法（如RE-EM和无偏RE-EM）进行了比较。研究结果表明，Ev-RE-EM在预测性能上与无偏RE-EM相似，且生成的树更小，可解释性更强，为高维纵向数据的遗传学研究提供了新的分析工具。论文发表在《BioData Mining》上。

研究背景在遗传学研究中，纵向数据通常是从个体随时间收集的，以反映聚类数据的层次结构。传统的线性混合效应模型（LME）被广泛用于处理这些数据，但其对参数假设的敏感性限制了其在高维数据中的应用。近年来，基于树的算法因其在处理高维数据和非线性关系方面的优势而受到关注。然而，常用的CART算法存在贪婪性、不稳定性等问题。为了解决这些问题，研究人员提出了一种新的非参数纵向算法Ev-RE-EM，该算法结合了Evtree算法的优势，用于估计LME的固定效应部分。

研究方法研究人员首先从Tehran心脏代谢遗传研究（TCGS）中获取真实数据，以身体质量指数（BMI）作为表型，包括年龄、性别和25,640个单核苷酸多态性（SNP）作为预测变量。为了验证Ev-RE-EM算法的性能，研究人员设计了一个模拟实验，生成了100个包含3,088个个体的模拟数据集，并在不同的自相关结构下比较了Ev-RE-EM、RE-EM和无偏RE-EM算法的预测性能。评价指标包括均方误差（MSE）、平均绝对差（MAD）和偏差。

研究结果

真实数据分析
- 在真实数据中，Ev-RE-EM和无偏RE-EM算法在预测性能上优于RE-EM算法，且在使用σ2ITi和复合对称结构（CS）作为自相关结构时表现最佳。Ev-RE-EM算法生成的树更小，可解释性更强。
- 通过Ev-RE-EM算法识别出的高风险亚组为女性，年龄>39岁，特定SNP组合（如rs75740786=GA，rs917188199=AT，rs184919069=GC）的个体。
模拟研究
- 模拟研究结果表明，在自相关结构为σ2ITi和复合对称结构（CS）时，Ev-RE-EM、RE-EM和无偏RE-EM算法的预测性能相似，而在一阶自回归过程（AR(1)）下表现较差。

研究结论和讨论研究表明，Ev-RE-EM算法在处理高维纵向数据时具有显著优势，能够生成更小且可解释性更强的树结构。与传统的RE-EM算法相比，Ev-RE-EM算法通过随机选择分裂变量和规则，消除了选择分裂规则的偏差。此外，该算法在不同数据集上的表现一致性表明其在遗传学研究中的广泛适用性。尽管如此，研究也存在一些局限性，例如在处理全基因组数据时的计算负担较大，以及无法处理缺失数据等问题。未来的研究可以进一步优化Ev-RE-EM算法，以提高其在全基因组数据分析中的效率，并探索其在其他领域的应用潜力。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号