综述:医学研究中的假名化工具:系统评价

【字体: 时间:2025年03月13日 来源:BMC Medical Informatics and Decision Making 3.3

编辑推荐:

  本文系统回顾了医学研究中假名化工具,为研究者选择合适工具提供参考。

  

一、引言

在医学领域,现代数据驱动方法尤其是人工智能(AI)的发展,依赖大量数据集的支持。同时,评估个性化医疗方法的研究变得愈发复杂,涉及多个研究地点和多种类型的数据,这给站点特定和跨站点的安全身份管理带来了新挑战。
医学数据具有敏感性,其处理受到法律严格监管。不同地区的监管框架存在差异,例如美国通过《健康保险流通与责任法案》(HIPAA)对医疗数据进行明确规范;欧盟则依据《通用数据保护条例》(GDPR)将医疗数据纳入个人信息范畴进行管理。为应对这些挑战,在收集和管理医疗数据时,需要采用保护隐私的方法。
假名化作为生物医学研究中常用的数据隐私保护技术,被众多法律法规推荐或强制要求使用。它通过将直接识别信息与医学研究数据分离,在保障数据隐私的同时,允许在特定条件下重新识别数据主体。与其他隐私增强技术不同,假名化是一种设计时考虑隐私的措施,通常在数据收集和整合阶段应用。
在选择合适的假名化工具时,需要综合考虑多方面因素。研究活动的开展地点(单中心或多中心)、项目持续时间(短期或长期)、处理数据量(小数据或大数据)以及工具与现有工作流程的集成性(集成或独立),这些因素构成了选择假名化工具的四个关键维度。不同类型的项目对这些维度的需求不同,例如多中心研究需要工具支持跨站点的数据链接;短期项目注重快速部署;大数据项目对工具的可扩展性要求较高;而集成性则影响工具与现有系统的融合程度。
本研究的主要目的是帮助研究人员找到符合特定需求的假名化工具。具体工作包括收集文献中描述的、公开可用的假名化工具;对其技术特性和开发状态进行分类;依据上述四个关键维度评估工具对不同需求项目的适用性;并针对不同类型的项目提出最适合的工具建议。

二、研究方法

研究遵循系统评价和荟萃分析的首选报告项目(PRISMA)指南进行结构化回顾。在信息搜索阶段,鉴于研究主题涉及信息技术和医学研究两个领域的交叉,研究人员选择在 PubMed 和 Web of Science 核心合集数据库中进行检索。通过将 “假名化” 相关词汇与 “软件工具或服务” 相关词汇用 AND 逻辑组合构建搜索字符串,以确保检索到与研究主题紧密相关的文献。例如,“(‘pseudonyms’ 或 ‘pseudonym’ 等)AND (‘service’ 或 ‘tool’ 等)”。
在文献筛选和工具选择过程中,研究设定了严格的纳入和排除标准。首先,排除所有重复文献。然后,对文献标题和摘要进行初步筛选,纳入原创研究文章、综述文章或系统评价,且文章需在医学背景下描述、提及或引用假名化工具,同时要求文章为英文发表。在此基础上,排除意见文章、社论、评论以及非英文发表的文章。经过这一步骤,大量不相关文献被排除。接下来,对剩余的 92 篇文章进行全文筛选,从中提取出 20 个假名化工具。最终,根据工具选择标准,排除部分工具后,确定了 10 个工具纳入本研究的评估范围。这些工具需主要聚焦于医疗应用、为完整开发的解决方案而非原型、主要用于注册结构化识别数据和生成假名,并且是公开可用或有足够文档可评估其核心功能的工具。
数据图表过程基于四个关键维度展开,研究人员选择了一系列能提供相关指标的数据项,包括技术数据(如假名空间支持、记录链接支持、二次假名化支持等)和元数据(如所属机构、国家、许可证类型等)。数据主要从相关论文中提取,必要时通过互联网搜索补充。数据提取工作由一名审核人员完成,随后由第二名审核人员进行验证。
为了对工具进行分类,研究根据四个关键维度将医学研究项目分为两大类:大型复杂项目,通常具有多中心协作、中到长期持续时间、大数据处理以及异构技术基础设施的特点;小型项目,一般为单中心、运行时间短且数据集较小。研究人员将收集到的数据项与四个维度的属性相关联,通过定量评分方法评估工具对不同项目类型的适用性,根据得分将工具分配到相应的项目类型,但这并不意味着工具的应用局限于此。

三、研究结果

研究共识别出 10 个假名化工具,以下按照字母顺序对这些工具进行介绍:
  • ALIIAS:于 2023 年推出,全称为 “Anonymization/Pseudonymization with LimeSurvey integration and II-factor Authentication for Scientific research”,提供基于网络的假名化和匿名化界面,可与 LimeSurvey 调查网络应用集成。安装该软件可能需要熟悉 LimeSurvey 平台和具备高级 IT 知识,其代码在 2022 年最后更新,在 GitHub 上可获取代码及详细用户手册。
  • CRATE:即 Clinical Records Anonymisation and Text Extraction,2017 年问世,可用于对关系数据库中现有结构化数据进行追溯性假名化,还可选择集成外部自然语言处理(NLP)工具处理自由文本数据。安装时需要进行数据库设置,这对非技术用户可能具有一定挑战性,其代码在 2024 年更新,可在 GitHub 获取。
  • EUPID:European Unified Patient Identity Management 的缩写,由奥地利技术研究所(AIT)最初开发,现由欧盟委员会联合研究中心(EC-JRC)管理,被欧洲罕见病登记基础设施(ERDRI)推荐用于罕见病研究。EUPID 提供软件即服务(SaaS)模式,用户可通过 ERDRI 平台的网络界面直接在浏览器中使用,也可通过 API 集成到其他系统,但需要编程知识。其源代码未公开,相关文档和研讨会材料可在不同平台获取。
  • gPAS - generic Pseudonym Administration Service:2015 年由 Bialke 等人在格赖夫斯瓦尔德大学开发,是一个基于网络的应用程序和服务,用于创建和管理假名。它支持通过前缀、后缀、各种字母选项和域自定义假名,以实现语义分组。gPAS 以 Docker 容器形式提供,但部署时需要设置和托管服务器,并进行手动配置,这需要 IT 专业知识,其代码在 2024 年更新,可在 GitHub 获取。
  • Mainzelliste:2015 年开发,作为 PID Generator 的后继工具,使用纠错码、密码学和随机值组合生成假名。它也以 Docker 容器形式提供,部署时需要设置和托管服务器以及手动配置,需要 IT 专业知识。源代码在 Bitbucket 上公开,2024 年进行了最后更新。
  • OpenPseudonymiser:由诺丁汉大学开发,自 2011 年起作为桌面应用程序可用,使用带盐的哈希函数生成假名,可对 CSV 文件中的一列或多列生成哈希值。由于是独立桌面应用程序,处理文件时无需系统管理知识,适合非技术用户。用户手册显示 2020 年有源代码修订,使用该软件需要在其网站注册。
  • ORCHESTRA Pseudonymization Tool (OPT):2024 年发布,基于广泛使用的办公套件开发,支持快速部署,支持命名空间以及患者、研究对象身份和生物样本的管理与假名化。因其与常用办公工具集成,使用方便,无需额外 IT 基础设施或系统管理技能,代码在 2024 年更新,可在 GitHub 获取。
  • PID - Generator:2000 年最初开发,使用确定性、基于规则的算法生成假名并存储在数据库中,提供命令行界面(CLI),手动设置和配置基于规则的假名生成需要先进技术知识。该工具可在项目主页下载,文档为德语,自首次发布后无进一步开发记录。
  • Pseudonymization Service:2004 年首次推出,扩展了 PID - Generator,使用对称密钥算法生成固定长度的假名。最初使用 CLI,后来更新引入桌面图形用户界面(GUI),可通过特定配置文件和物理介质进行配置和数据处理。初始设置通过配置文件完成,需要一定技术知识,项目主页的文档已过时,仅涵盖软件第一版,且为德语。如需使用该服务,需向开发者申请,其最后更新于 2019 年。
  • SPIDER:即 Secure Privacy - preserving Identity management in Distributed Environments for Research,2022 年推出,通过欧洲罕见病注册平台(EU RD Platform)提供服务,专门用于罕见病研究。它提供 SaaS 解决方案,用户可通过 ERDRI 平台的网络界面在浏览器中使用,也可开发独立或插件形式的专用客户端,但需要编程知识。源代码未公开,EU RD 平台网站提供全面文档和详细培训视频。
在对这些工具进行比较时发现,它们适用于不同的应用场景:
  • 软件即服务(SaaS)解决方案:EUPID 和 SPIDER 作为托管服务,可在欧盟平台内使用或集成到其他应用中。使用时需要特定的法律依据(如同意书)和合同以确保合规性。两者功能相似,都支持假名空间、数据链接、批处理和 API,其中 SPIDER 专注于罕见病研究。
  • 现有数据的假名化:CRATE 主要用于对现有数据库中的结构化和可能的非结构化数据进行假名化,以用于进一步研究。它支持假名空间、数据集链接和批处理,但不提供 API。
  • 现有及新收集数据的假名化:ALIIAS、gPAS、Mainzelliste、OpenPseudonymiser、OPT、PID - Generator 和 Pseudonymization Service 都具备以事务方式对新记录进行假名化的功能,适合集成到数据收集过程中。
进一步针对适用于现有及新收集数据假名化的工具进行比较:
  • 多中心与单中心研究:多中心研究需要工具支持非重叠的假名空间,以便准确跟踪参与者数据,同时通常需要具备记录链接功能和 API 以实现系统集成,且往往需要基于网络的界面。而单中心研究中,本地用户界面可能就足够,不一定需要 API 集成。
  • 短期与长期项目:短期项目注重快速实施和即时结果,独立的、具有本地界面且 API 集成有限的解决方案通常就可满足需求,这类方案易于设置和维护。长期项目则需要更大的灵活性和对更多用户的支持,基于网络的服务更为合适,API 的可用性对于与其他系统集成至关重要,同时数据链接和更新功能也更为关键。
  • 小数据与大数据项目:小数据项目通常涉及手动数据收集,对批处理的需求较低,且往往是短期、单中心项目,简单工具即可满足。大数据项目则通常需要批处理功能,基于网络且提供 API 的服务更易于实现这一需求,同时涉及与其他系统集成的数据收集或生物样本库项目,使用具有 API 的工具更便于设置,而孤立的独立项目则可使用简单工具。
综合比较结果发现,Mainzelliste 和 gPAS 更适合复杂项目;OpenPseudonymiser、OPT、PID - Generator 和 Pseudonymization Service 一般更适合小型项目;ALIIAS 也可用于长期项目,但总体上更适合小型项目。大多数工具支持假名空间和记录链接,但 ALIIAS 仅支持假名空间,不支持记录链接,更适用于特定用例,如调查;Pseudonymization Service 既不支持假名空间也不支持记录链接。部分工具如 gPAS、Mainzelliste 和 OPT 支持对假名化数据进行删除、更新或匿名化等操作。批处理功能在大多数工具中都有支持,但 ALIIAS 仅允许直接数据输入,OpenPseudonymiser 和 Pseudonymization Service 仅通过准备好的列表(如 CSV 文件)支持批处理。工具的用户界面分为基于网络和本地应用两种类型,长期使用时,基于网络的服务更便于维护和适应需求变化。

四、讨论

本研究系统分析了 10 个用于生物医学研究的假名化工具,并重点介绍了 7 个在满足医学研究项目关键需求方面表现突出的工具。如果需要外部 SaaS 解决方案,SPIDER 和 EUPID 是不错的选择;CRATE 则专注于现有数据库的假名化。对于本地部署,gPAS 适用于多中心研究和本地长期项目,还可与其他工具结合用于同意管理和患者注册;Mainzelliste 凭借其 RESTful 接口,支持高效的数据假名化和灵活集成到现有研究网络。对于短期研究和较小的本地项目,OpenPseudonymiser 和 OPT 是推荐工具,它们支持多种功能,包括假名空间、记录链接和二次假名化。
此前已有多项研究涉及假名化及其在医学研究中的作用。Kohlmayer 等人探讨了在真实世界数据收集中假名化面临的挑战,强调平衡数据保护和研究需求的重要性;Lautenschl?ger 等人提供了基于网络的假名化数据管理解决方案,关注分布式研究环境中的可扩展性和安全性;欧盟网络安全局(ENISA)概述了不同的假名化场景,并提供了技术方法和最佳实践建议,但未对具体工具进行比较或推荐;Gehrmann 等人则关注跨研究站点二次使用医疗数据的障碍,指出法律和技术挑战仍然显著。这些研究为本研究理解选择和实施假名化工具的复杂性提供了基础。
本研究也存在一定的局限性。首先,分析未涵盖先进的隐私增强技术,如差分隐私。虽然这些技术提供了严格的隐私保证,但与假名化的概念和目的不同,不在本研究范围内。其次,研究仅依赖文献和文档评估,缺乏实际实验或基准测试,这限制了对工具用户友好性和实际性能的评估。未来计划使用代表性的医学数据集和应用场景进行实证评估,以提供更实际的比较。此外,研究的搜索策略主要识别了来自欧洲,特别是德国的工具,可能存在选择偏差,但由于 GDPR 的实施,假名化在欧盟受到高度重视,德国在医学研究中使用假名化也有悠久传统。

五、结论

本研究首次对生物医学研究中的假名化工具进行了系统回顾。研究表明,假名化工具可从不同维度进行比较,通过这些维度能够识别出最适合特定类型医学研究项目的工具。这为研究人员在选择假名化工具时提供了重要参考,有助于他们根据项目的具体需求,选择最合适的工具来保障医学研究数据的隐私和安全,推动生物医学研究的顺利开展。

濠电偞鍨堕幐鎼侇敄閸緷褰掑炊閳规儳浜鹃柣鐔煎亰濡插湱鈧鎸哥€涒晝鈧潧銈搁弫鍌炴倷椤掍焦鐦庨梺璇插缁嬫帡宕濋幒妤€绀夐柣鏃傚帶杩濇繝鐢靛Т濞茬娀宕戦幘鎰佹僵鐎规洖娲ㄩ悾铏圭磽閸屾瑧顦︽俊顐g矒瀹曟洟顢旈崨顖f祫闂佹寧绻傞悧鎾澄熺€n喗鐓欐繛鑼额嚙楠炴﹢鏌曢崶銊ュ摵鐎殿噮鍓熼獮宥夘敊閻e本娈搁梻浣藉亹閻℃棃宕归搹顐f珷闁秆勵殕椤ュ牓鏌涢幘鑼槮濞寸媭鍨堕弻鏇㈠幢濡ゅ﹤鍓遍柣銏╁灡婢瑰棗危閹版澘顫呴柣娆屽亾婵炲眰鍊曢湁闁挎繂妫欑粈瀣煃瑜滈崜姘┍閾忚宕查柛鎰ㄦ櫇椤╃兘鏌ㄥ┑鍡欏ⅵ婵☆垰顑夐弻娑㈠箳閹寸儐妫¢梺璇叉唉婵倗绮氶柆宥呯妞ゆ挾濮烽鎺楁⒑鐠団€虫灁闁告柨楠搁埢鎾诲箣閿旇棄娈ュ銈嗙墬缁矂鍩涢弽顓熺厱婵炲棙鍔曢悘鈺傤殽閻愬弶鍠橀柟顖氱Ч瀵噣宕掑Δ浣规珒

10x Genomics闂備礁鎼崐鐟邦熆濮椻偓楠炴牠鈥斿〒濯爄um HD 闁诲孩顔栭崰鎺楀磻閹剧粯鐓曟慨妯煎帶閻忕姷鈧娲滈崰鎾舵閹烘骞㈡慨姗嗗墮婵啴姊洪崨濠傜瑨婵☆偅绮嶉妵鏃堝箹娴g懓浠㈤梺鎼炲劗閺呮粓鎮鹃柆宥嗙厱闊洤顑呮慨鈧┑鐐存綑濡粓濡甸幇鏉垮嵆闁绘ḿ鏁搁悡浣虹磽娴e憡婀版俊鐐舵铻為柛褎顨呯粈鍡涙煕閳╁啞缂氶柍褜鍏涚划娆撳极瀹ュ鏅搁柨鐕傛嫹

婵犵數鍋涘Λ搴ㄥ垂閼测晜宕查悗锝庡亞閳绘棃鎮楅敐搴″箺缂佷胶娅墂ist闂備線娼уΛ妤呮晝閿濆洨绠斿鑸靛姇濡ɑ銇勯幘璺轰粶缂傚秳绶氶弻娑㈠冀閵娧冣拡濠电偛鐗婇崢顥窱SPR缂傚倷鐒︾粙鎺楁儎椤栫偛鐒垫い鎺嗗亾妞わ缚鍗抽幃褔宕妷銈嗗媰闂侀€炲苯澧村┑鈥愁嚟閳ь剨缍嗛崜姘跺汲閳哄懏鍊垫繛鎴炵懃婵啴鏌涢弮鎾村

闂備礁鎲¢〃鍡椕哄⿰鍛灊闊洦绋掗崵鍕煟閹邦剦鍤熼柕鍫熸尦楠炴牠寮堕幋鐘殿唶闂佸憡鐟ュΛ婵嗩潖婵犳艾惟闁靛绲煎ù鐑芥煟閻樿京鍔嶇憸鏉垮暣閹儵鏁撻敓锟� - 婵犵數鍎戠徊钘夌暦椤掑嫬鐭楅柛鈩冡缚椤╂煡鏌涢埄鍐惧毀闁圭儤鎸鹃々鐑藉箹鏉堝墽绉甸柛搴㈠灥閳藉骞橀姘濠电偞鍨堕幖鈺傜濠婂啰鏆﹂柣鏃囨绾惧ジ鏌涢埄鍐闁告梹甯¢幃妤呭捶椤撶偘妲愰梺缁樼⊕閻熝囧箯鐎n喖绠查柟浼存涧閹線姊洪崨濠傜濠⒀勵殜瀵娊鎮㈤悡搴n唹濡炪倖鏌ㄩ悘婵堢玻濞戙垺鐓欓悹銊ヮ槸閸婂鎮烽姀銈嗙厱婵炲棙锚閻忋儲銇勯銏╁剶鐎规洜濞€瀵粙顢栭锝呮诞鐎殿喗鎮傞弫鎾绘晸閿燂拷

濠电偞鍨堕幐鎼侇敄閸緷褰掑炊椤掆偓杩濇繝鐢靛Т鐎氼噣鎯屾惔銊︾厾鐎规洖娲ゆ禒婊堟煕閻愬瓨灏﹂柟钘夊€婚埀顒婄秵閸撴岸顢旈妶澶嬪仯闁规壋鏅涙俊铏圭磼閵娧冾暭闁瑰嘲鎳庨オ浼村礃閵娧€鍋撴繝姘厸閻庯綆鍋勬慨鍫ユ煛瀹€鈧崰搴ㄥ煝閺冨牆鍗抽柣妯挎珪濮e嫰鏌f惔銏⑩姇闁告梹甯″畷婵嬫偄閻撳宫銉╂煥閻曞倹瀚�

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号