OpenClustered:开启聚类数据方法学评估新征程 ——R 包中聚类数据集资源库的创新探索

【字体: 时间:2025年04月11日 来源:BMC Medical Research Methodology 3.9

编辑推荐:

  在聚类数据研究中,因缺乏开源聚类数据集资源库,常依赖有缺陷的数据模拟研究。研究人员开发 OpenClustered R 包,含 19 个二元结局聚类数据集。结果显示其有助于方法学评估比较,减少偏差,推动多领域研究发展。

  聚类数据在流行病学、社会科学、医学等诸多领域广泛存在,它指的是在一个群体或抽样单元内观测值存在相关性的数据 。然而,目前在聚类数据研究方面存在诸多问题。一方面,确定聚类数据的最优方法仍存在许多未解决的问题,虽然近年来提出了很多机器学习和人工智能方法用于聚类数据分析,但由于缺乏大规模的基准研究,不同场景下的最优方法尚不明确。另一方面,现有的数据模拟研究存在过度简化设计和潜在偏差等问题,并且没有开源的聚类数据集资源库可供方法学比较。这使得研究人员在研究聚类数据时困难重重,急需一个可靠的资源库来推动相关研究的发展。
为了解决这些问题,美国维克森林大学医学院(Wake Forest University School of Medicine)生物统计学和数据科学系的研究人员开展了一项研究,开发了一个名为 OpenClustered 的 R 包,这个包中包含了聚类数据集及其元数据,为聚类数据的方法学比较和评估提供了新的资源。该研究成果发表在《BMC Medical Research Methodology》上。

研究人员在开发 OpenClustered R 包时,采用了多种关键技术方法。首先,通过系统搜索互联网上的混合效应分析教程、相关 R 包以及 GitHub 网站和教科书,获取聚类数据集。然后,对数据进行标准化处理,将二元结局变量命名为 “target”,聚类变量命名为 “cluster_id”,并整理成适合分析的长格式。在进行基准测试分析时,使用 R 语言中的 lme4 包实现频率主义者的广义线性模型(GLM)和广义线性混合模型(GLMMs),使用 brms 包实现贝叶斯广义线性混合模型(GLMMs),并利用 missForest 包对缺失值进行插补 。

下面介绍研究的具体结果:

  • OpenClustered 数据集和元数据:研究人员收集并处理了 19 个具有聚类结构和二元结局的数据集,这些数据集来自医学、政治学、语言学、教育、海洋学和动物学等多个领域,多数为真实数据。同时,为每个数据集定义了聚类类型,如分层(hierarchical )、纵向(longitudinal)、重复测量(repeated measures)和分组(grouped )。还提供了元数据,包括数据集的大小(观测数、预测变量数、聚类数)、变量特征(分析任务类型、目标变量类别数、目标变量不平衡度、缺失数据比例)等信息。
  • OpenClustered 包的使用:该包使用简单,安装加载后,数据集和元数据自动加载。可以通过包中提供的代码对数据进行打印、绘图和汇总,还能使用 filter_data () 函数根据数据集的特定特征进行筛选,比如根据观测数或所属领域等条件筛选数据集。
  • 示例基准测试分析:研究人员利用 OpenClustered 中的开源数据集,对比了频率主义者和贝叶斯广义线性混合模型(GLMMs)的实现,同时纳入了未考虑聚类结构的朴素广义线性模型(GLM)作为对照。结果发现,频率主义者和贝叶斯广义线性混合模型(GLMMs)在受试者工作特征曲线下面积(AUC)方面表现相似,均值(标准差)均为 0.86(0.09),而忽略聚类的频率主义者广义线性模型(GLM)的 AUC 为 0.72(0.11) 。在计算时间上,频率主义者广义线性混合模型(GLMMs)比贝叶斯广义线性混合模型(GLMMs)快得多(均值分别为 3.3(8.4)秒和 69.6(115.5)秒)。

研究结论和讨论部分指出,OpenClustered R 包是一个重要的数据资源,为使用开源聚类数据进行基准研究奠定了基础。它克服了数据模拟研究的潜在局限性,提供了一个无偏的开源数据集框架,便于高效分析。通过使用这个资源库,研究人员可以对聚类数据的诸多开放性问题进行方法学评估和比较,包括统计方法、机器学习和人工智能方法的比较,以及缺失数据处理、变量选择等方面的研究。未来,研究人员计划进一步扩展 OpenClustered R 包和聚类数据资源库,添加具有连续结局的聚类数据集,开发用户提交数据集的流程,并纳入从衰老相关的真实世界研究中合成衍生的重复测量数据集。

综上所述,OpenClustered R 包的出现,为聚类数据的研究提供了有力的支持,有助于提高各个研究领域的严谨性,推动聚类数据研究的发展,为解决聚类数据相关的各种问题提供了新的思路和方法。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号