基于神经网络的药物发现中训练数据隐私风险研究:成果与启示

《Journal of Cheminformatics》:Publishing neural networks in drug discovery might compromise training data privacy

【字体: 时间:2025年03月28日 来源:Journal of Cheminformatics 7.1

编辑推荐:

  在药物研发中,机器学习模型对分子特性预测至关重要,但数据隐私保护面临挑战。研究人员开展 “Publishing neural networks in drug discovery might compromise training data privacy” 主题研究,利用成员推理攻击评估隐私风险,发现存在信息泄露,图表示和消息传递神经网络可降低风险,为数据共享提供参考。

  在药物研发领域,神经网络正发挥着日益重要的作用,被广泛应用于预测分子特性等关键任务。然而,训练这些模型所依赖的数据集,其生成过程耗费巨大,需要投入大量的时间和资金。这使得相关机构对数据保护极为重视,不愿轻易公开数据。但在人工智能研究领域,分享模型又是促进合作与创新的常见方式,这种矛盾导致数据安全问题日益凸显,数据隐私保护变得至关重要。
在此背景下,来自瑞典阿斯利康研发中心、德国慕尼黑工业大学等机构的研究人员开展了一项研究。他们聚焦于评估在药物发现场景中,公开基于神经网络训练的分子特性预测模型时所面临的隐私风险,该研究成果发表于《Journal of Cheminformatics》。

研究人员采用了成员推理攻击(Membership Inference Attacks)这一在隐私研究中常用的方法,对训练用于预测分子特性的神经网络进行分析。在实验过程中,他们使用了四个不同的数据集,涵盖了如血脑屏障穿透性(Blood - Brain Barrier crossing,BBB)、Ames 致突变性预测(Ames mutagenicity prediction)、DNA 编码文库富集(DNA Encoded Library enrichment,DEL)以及人类 ether - à - go - related 基因(hERG)编码的钾离子通道抑制等不同的分子特性预测任务。同时,研究人员对多种常用的分子表示方法进行了考察,包括扩展连接性指纹(Extended - connectivity fingerprints,ECFPs)、分子访问系统(Molecular Access System,MACCS)键、图表示(Graph Representation)、RDKit 指纹(RDKitFPs)和简化分子输入线输入系统(Simplified Molecular Input Line Entry System,SMILES)表示等,并训练了相应的神经网络模型。

研究结果如下:

  1. 成员推理攻击:通过使用似然比攻击(Likelihood Ratio Attack,LiRA)和稳健成员推理攻击(Robust Membership Inference Attack,RMIA),研究人员发现,在低假阳性率(False Positive Rate,FPR)下,对于训练在较小数据集上的模型,能够显著识别出训练数据中的分子,且不同分子表示方法的模型存在差异,图表示的模型信息泄露最少。在 FPR 为 0 时,血脑屏障穿透性数据集的多数表示方法中,模型的真阳性率(True Positive Rate,TPR)在 0.01 - 0.03 之间,而图表示的模型 TPR 最低12
  2. 结合成员推理攻击:研究发现,结合多种成员推理攻击能够识别出更多训练数据中的分子。对于小数据集,不同攻击识别的分子集合存在较高重叠,但仍小于 100%;对于大数据集,两种攻击识别的分子集合无显著重叠34
  3. 分析识别出的训练数据分子:研究表明,被识别出的分子中,少数类(Minority Class)分子的比例显著高于总体数据集。同时,与训练数据中其他分子结构相似性较低的分子更容易被识别,但识别率与相似性之间不存在简单的系统关系56
  4. 案例研究:以预测分子能否通过血脑屏障的神经网络模型为例,在最严格条件下(FPR 为 0),使用 LiRA 攻击可识别出 23 个训练数据中的结构,其中 21 个来自少数类。当放宽 FPR 时,识别出的结构数量大幅增加7

在研究结论和讨论部分,研究人员指出,他们的研究表明在药物发现中训练的神经网络模型存在训练数据信息泄露的风险。即使模型以看似安全的网络服务形式提供,且不公开权重,这种风险依然存在。不过,使用图表示分子并结合消息传递神经网络(Message - Passing Neural Networks)的模型,对成员推理攻击的脆弱性显著降低,在保护训练数据隐私方面表现更优。此外,研究还发现成员推理攻击在较小数据集上更为有效,且少数类分子和与训练数据结构差异大的分子更容易被识别。这些发现对药物研发机构具有重要意义,提示他们在共享模型时,必须谨慎权衡科学发现的公开性与保护机密数据的必要性。同时,研究人员开发了一个 Python 工具包,可用于评估分子特性预测训练数据的隐私性,帮助研究人员在发布模型前评估隐私风险。这项研究为药物发现领域的数据隐私保护提供了重要的参考,推动了该领域在平衡公开创新与隐私保护方面的发展 。

娑撳娴囩€瑰宓庢导锔炬暩鐎涙劒鍔熼妴濠団偓姘崇箖缂佸棜鍎禒锝堥樋閹活厾銇氶弬鎵畱閼筋垳澧块棃鍓佸仯閵嗗甯扮槐銏狀洤娴f洟鈧俺绻冩禒锝堥樋閸掑棙鐎芥穱鍐箻閹劎娈戦懡顖滃⒖閸欐垹骞囬惍鏃傗敀

10x Genomics閺傛澘鎼isium HD 瀵偓閸氼垰宕熺紒鍡氬劒閸掑棜椴搁悳鍥╂畱閸忋劏娴嗚ぐ鏇犵矋缁屾椽妫块崚鍡樼€介敍锟�

濞嗐垼绻嬫稉瀣祰Twist閵嗗﹣绗夐弬顓炲綁閸栨牜娈慍RISPR缁涙盯鈧鐗哥仦鈧妴瀣暩鐎涙劒鍔�

閸楁洜绮忛懗鐐寸ゴ鎼村繐鍙嗛梻銊ャ亣鐠佹彃鐖� - 濞e崬鍙嗘禍鍡毿掓禒搴n儑娑撯偓娑擃亜宕熺紒鍡氬劒鐎圭偤鐛欑拋鎹愵吀閸掔増鏆熼幑顔垮窛閹貉傜瑢閸欘垵顫嬮崠鏍掗弸锟�

娑撳娴囬妴濠勭矎閼崇偛鍞撮摂瀣鐠愩劋绨版担婊冨瀻閺嬫劖鏌熷▔鏇犳暩鐎涙劒鍔熼妴锟�

相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 急聘职位
    • 高薪职位

    知名企业招聘

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号