编辑推荐:
研究人员为解决健康数据共享隐私保护难题,开展 P4 算法研究,大幅缩短执行时间,意义重大。
健康数据隐私保护的新曙光:P4 算法的诞生
在医疗领域飞速发展的今天,健康数据的共享就像一把 “双刃剑”。一方面,它为医学研究提供了海量的信息宝藏,助力科研人员深入探索疾病的奥秘,推动人工智能和机器学习在医学上的广泛应用,有望为人类健康带来前所未有的突破;另一方面,数据中包含的个人隐私信息,一旦泄露,将对个人权益造成严重损害。许多国家为此制定了严格的法律,可如何在保障隐私的同时充分利用这些数据,成了亟待解决的难题。
数据匿名化,作为解决这一难题的重要手段,备受关注。它通过对数据进行修改或转换,降低隐私风险,但这并非易事。简单地删除直接标识符远远不够,还需要综合考虑间接标识符(准标识符)和敏感属性带来的风险。而且,要在降低风险和保持数据效用之间找到平衡,如同在钢丝上跳舞,难度极大。传统的匿名化算法在处理大规模数据时,计算复杂度高,且大多只能适配特定的风险模型、效用模型和转换方法,难以满足实际需求。
在这样的背景下,柏林健康研究所(Berlin Institute of Health at Charité – Universit?tsmedizin Berlin)的 Mehmed Halilovic、Thierry Meurers、Karen Otte 和 Fabian Prasser 等研究人员挺身而出,致力于寻找一种更高效、更灵活的解决方案。他们的研究成果发表在《BMC Medical Informatics and Decision Making》上,为健康数据隐私保护带来了新的曙光。
研究方法:创新的 P4 算法
研究人员提出了一种名为 “Parallel Privacy Preservation through Partitioning(P4 )” 的全新并行算法。该算法的核心思想是将原始数据集分割成多个分区,然后对这些分区进行并行匿名化处理,最后合并成一个受保护的输出数据集。
数据集分区 :根据数据记录的属性值,采用多种策略将数据集分割成多个互不相交的子集。比如,通过基于范围的分区、按相似度聚类记录或依据某种排序方式进行分区。每个分区的数量与处理时的并行度相匹配,以充分发挥并行计算的优势。
并行匿名化 :每个分区独立进行匿名化操作,且使用相同的匿名化设置,包括一种或多种隐私模型(如 k 匿名性[18] 、t - 接近度[23] 等)、一种或多种转换方法(如随机抽样、聚合、抑制、掩码、分类和泛化等)以及一个效用模型。
协调统一 :若采用了全局转换方法,需要对各个分区的转换进行协调统一。例如,在进行全局属性抑制或泛化时,计算所有分区的通用泛化方案,并重新应用到每个分区上。
合规性检查 :对于非单调的隐私模型,检查合并分区时可能产生的等价类是否符合隐私模型的要求,不符合的等价类将从输出数据集中移除。
最终处理 :将匿名化后的分区合并,并可选择进行效用评估,得到最终的匿名化数据集。
研究人员基于开源健康数据匿名化工具 ARX,用 Java 实现了 P4 算法。该工具支持多种隐私模型、转换方法和效用模型的任意组合,为算法的广泛应用提供了有力支持。
研究结果:显著的性能提升
为了验证 P4 算法的有效性,研究人员进行了一系列实验。他们使用了两个真实世界的数据集:美国人口普查(US Census)数据集和健康访谈(Health Interviews)数据集,并对美国人口普查数据集进行了外推,得到更大规模的数据集。
执行时间、内存消耗和数据效用 :实验结果显示,随着并行度的增加,算法的执行时间显著缩短。在处理小数据集(如美国人口普查数据集)时,使用 2 线程可使执行时间缩短 1.47 - 1.71 倍,12 线程时缩短 2.75 - 3.68 倍,64 线程时缩短 3.04 - 7.13 倍;处理大数据集(如健康访谈数据集)时,2 线程可缩短 1.21 - 1.6 倍,12 线程时缩短 3.05 - 5.44 倍,64 线程时缩短 7.35 - 10.4 倍。同时,数据效用也会有所降低,但在可接受范围内。例如,12 线程时,美国人口普查数据集的效用降低 7.62% - 13.79%,健康访谈数据集的效用降低 2.39% - 7.63%。内存消耗随着执行时间的增加而线性增加,但通过 ARX 的配置参数可控制内存使用,实验过程中未出现内存相关问题。
可扩展性结果 :对不同规模的美国人口普查外推数据集进行实验发现,随着数据集规模的增大,执行时间大致呈线性增加,但并行度的提高可降低这一增长幅度。例如,对于 1000 万条记录的数据集,2 线程时执行时间缩短 1.99 倍,12 线程时缩短 8.46 倍,64 线程时缩短 16.78 倍;对于 8500 万条记录的数据集,12 线程时执行时间仍可缩短 4.35 倍,效用降低 1.15%。综合来看,并行度为 12 时,能在性能提升和效用降低之间取得较好的平衡。
研究结论与讨论:开启数据隐私保护新篇章
P4 算法是一种简单而强大的并行和分布式数据匿名化方法。它系统地支持多种隐私、转换和效用模型,为用户在不同应用场景下配置个性化的匿名化过程提供了极大的便利。在医学研究中,这种灵活性尤为重要,可根据不同的研究目标和数据特点,量身定制匿名化方案,最大程度地发挥数据价值。
与以往的研究相比,P4 算法在支持多种模型方面具有显著优势。大多数先前的工作仅关注少数隐私模型和转换方法,而 P4 算法支持 16 种隐私模型、13 种转换方法和 11 种效用模型,几乎涵盖了 ARX 支持的所有模型组合。虽然该算法还存在一些局限性,如目前实验基于多线程实现,在分布式环境下数据需 fit 到每个计算节点的主内存中;实验使用的效用模型在合并数据集时推导综合效用度量存在困难;部分隐私模型尚未完全支持等,但这些都为后续研究指明了方向。
总体而言,P4 算法的出现,为健康数据的隐私保护和合理利用提供了新的思路和方法,有望在医学研究、医疗数据管理等领域得到广泛应用,推动生命科学和健康医学的进一步发展。它就像一把精准的手术刀,在保护个人隐私的同时,能够最大限度地释放健康数据的价值,为人类健康事业贡献力量。
閹垫捁绁�
娑撳娴囩€瑰宓庢导锔炬暩鐎涙劒鍔熼妴濠団偓姘崇箖缂佸棜鍎禒锝堥樋閹活厾銇氶弬鎵畱閼筋垳澧块棃鍓佸仯閵嗗甯扮槐銏狀洤娴f洟鈧俺绻冩禒锝堥樋閸掑棙鐎芥穱鍐箻閹劎娈戦懡顖滃⒖閸欐垹骞囬惍鏃傗敀
10x Genomics閺傛澘鎼isium HD 瀵偓閸氼垰宕熺紒鍡氬劒閸掑棜椴搁悳鍥╂畱閸忋劏娴嗚ぐ鏇犵矋缁屾椽妫块崚鍡樼€介敍锟�
濞嗐垼绻嬫稉瀣祰Twist閵嗗﹣绗夐弬顓炲綁閸栨牜娈慍RISPR缁涙盯鈧鐗哥仦鈧妴瀣暩鐎涙劒鍔�
閸楁洜绮忛懗鐐寸ゴ鎼村繐鍙嗛梻銊ャ亣鐠佹彃鐖� - 濞e崬鍙嗘禍鍡毿掓禒搴n儑娑撯偓娑擃亜宕熺紒鍡氬劒鐎圭偤鐛欑拋鎹愵吀閸掔増鏆熼幑顔垮窛閹貉傜瑢閸欘垵顫嬮崠鏍掗弸锟�
娑撳娴囬妴濠勭矎閼崇偛鍞撮摂瀣鐠愩劋绨版担婊冨瀻閺嬫劖鏌熷▔鏇犳暩鐎涙劒鍔熼妴锟�