生物医学数据治理新范式:Bridge2AI项目推动人工智能就绪数据集的伦理框架构建
《JAMIA Open》:Biomedical data repositories require governance for artificial intelligence/machine learning applications at every step
【字体:
大
中
小
】
时间:2025年12月03日
来源:JAMIA Open 3.4
编辑推荐:
【JAMIA Open编辑推荐】为解决AI/ML应用中生物医学数据治理的伦理挑战,Bridge2AI团队开展多模态数据集构建研究,提出从数据选择、存储到访问的全流程治理方案,确立透明度与公众参与的核心地位,为FAIR(可发现、可访问、互操作、可重用)原则落地提供实践范本。
随着人工智能(AI)和机器学习(ML)技术在生物医学领域的快速渗透,高质量数据集的缺乏成为制约其发展的关键瓶颈。美国国立卫生研究院(NIH)推出的Bridge2AI项目应运而生,旨在创建四个符合FAIR原则(可发现、可访问、互操作、可重用)的旗舰级生物医学数据集。然而,这些数据集的收集、存储和共享过程涉及复杂的伦理挑战,包括数据隐私保护、知情同意制度的适用性差异,以及如何平衡数据开放性与安全性等问题。
为系统解决这些挑战,由范德堡大学医学中心Ellen Wright Clayton教授领衔的跨学科团队,在《JAMIA Open》发表了针对Bridge2AI项目的数据治理框架研究。该研究创新性地将伦理考量嵌入数据生命周期管理的每个环节,提出“伦理设计(ethics by design)”理念,强调在数据收集之初就需预见并解决后续使用可能产生的伦理问题。
研究团队采用多维度分析方法,重点考察了数据治理的六个核心环节:数据选择依据、公众参与机制、知情同意策略、负责任使用规范、存储方案设计以及数据访问控制。针对每个环节,研究不仅梳理了现行法律政策(如《共同规则》和HIPAA《健康保险携带和责任法案》)的约束条件,还结合四个Bridge2AI数据生成项目(DGP)的具体实践,包括聚焦语音数据的Precision Public Health(Voice)、细胞图谱项目CM4AI、急重症康复多模态数据平台CHoRUS,以及糖尿病多模态数据集AI-READI,进行了实证分析。
在技术方法层面,研究特别关注了三种关键技术的应用:联邦学习(federated learning)框架PALISADE-X实现了隐私保护下的分布式模型训练;差异隐私(differential privacy)技术通过添加噪声保护个体数据;三 enclave架构(分析、工具和治理)则通过环境隔离实现数据安全管控。这些技术的协同应用为敏感生物医学数据的合规使用提供了重要保障。
研究显示,数据选择决策受到资源可用性、数据质量(通过FHIR、OMOP CDM等标准评估)及可比性等多重因素影响。特别值得注意的是,Bridge2AI项目的数据收集并非基于特定假设,这使得预先界定数据范围变得困难。为此,AI-READI项目采用了广撒网的策略,收集了从临床影像到环境监测的多种数据类型。在公众参与方面,项目组通过问卷调查、利益相关者论坛和德尔菲法等方法,广泛吸纳了包括原住民群体和传统黑人大学(HBCU)在内的多元声音,确保数据收集反映社会关切。
研究发现,根据数据来源不同,知情同意的适用存在显著差异。直接采集数据的项目(如AI-READI和Voice)需遵循《共同规则》要求获取知情同意;而使用既存临床数据的项目(如CHoRUS)在数据去标识化后可能豁免同意要求。这种差异引发了关于数据代表性和伦理保护的深入讨论——过度依赖同意可能导致数据集人口结构偏差,而完全豁免同意又可能削弱参与者权益保护。
在存储方案上,各项目呈现出从本地服务器到云平台的谱系选择。CM4AI采用完全开放获取模式,而AI-READI则通过FAIRhub平台实施分级访问控制,非糖尿病研究需经过数据访问委员会(DAC)审批。特别值得关注的是CHoRUS项目采用的三 enclave架构,通过禁止数据下载、仅允许在受控环境分析的方式,最大限度降低重识别风险。
研究警示,即使仅允许模型参数下载也存在隐私风险。大规模AI模型(如GPT-4)已被证实可能通过成员推断攻击(membership inference attacks)泄露训练数据特征。这要求数据治理必须考虑模型层面的安全防护,而不仅仅是原始数据管控。
研究结论强调,有效的生物医学数据治理需要建立多方协同的持续监督机制。学术医学中心(AMC)作为数据管理的关键节点,应承担起基础设施建设和伦理审查的双重责任。同时,研究呼吁资助方为公众参与提供更多资源支持,通过建立数据治理委员会等机制,将患者和参与者的权益保障落到实处。这项研究为AI时代的生物医学数据治理提供了系统解决方案,其提出的生命周期管理框架和差异化实践指南,对全球范围内的类似项目具有重要参考价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号