在日益复杂的表型数据集中重新评估数据管理策略

【字体: 时间:2025年10月03日 来源:TRENDS IN Plant Science 20.8

编辑推荐:

  表型数据集日益丰富且异构,包含图像、时间序列、手动测量等。管理需平衡两个目标:提取组织变量便于分析,以及遵循FAIR原则促进数据重用。专用数据集虽便于分析但信息损失大,我们主张上游的严格表型数据集应无信息损失地组织,支持不同用户构建专用数据集。

  

亮点

科学家们为特定的数据分析生成专门的数据集。一个专门的数据集既不能用于生成另一个数据集,也不能重新生成原始数据集。
“严格意义上的”表型数据集(位于专门数据集之前)旨在方便访问和重用那些未包含在已发布的专门数据集中的所有信息。这些数据集组织了表型测量和环境数据的时间进程,并通过知识图谱将它们与遗传数据和元数据关联起来。
数据重用需要存储和记录“严格意义上的”表型数据集(适用于其他学科)以及专门的数据集(适用于专家)。
在不同数据集之间提出了通用规则,例如元数据组织方式或变量命名规范(采用四元组格式:Entity_traitCharacteristic_method_unit)。
信息可以通过数据门户和搜索引擎在各种基础设施之间检索。

摘要

表型数据集变得越来越丰富且具有异构性,其中包含图像、时间进程、手动测量结果、处理后的变量以及元数据。管理这类数据集需要同时满足两个部分相互冲突的目标:(i)通过提取、组织和存储相关变量来促进数据分析;(ii)允许对原始数据、合成数据和计算数据进行重用(遵循FAIR原则)。对于第一个目标,可以从原始信息中提取“专门的数据集”并对其进行定制以适应用户的数据分析需求,但这会导致大量信息的丢失。我们认为,为了实现第二个目标,应该使用数据科学工具以“与理论无关”的方式组织“严格意义上的”表型数据集,从而避免信息丢失。这样不同的用户可以根据计划的数据分析需求构建自己的“专门数据集”。
《Trends in Plant Science》主页。在新标签页中打开

获取全文访问权限

请登录、订阅或购买以获取完整访问权限。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号