编辑推荐:
为解决药物研发中数据隐私与模型性能提升的矛盾,相关研究人员开展 kMoL 开源库研究,其性能良好且灵活,为药物研发提供新途径。
在药物研发的奇妙世界里,机器学习正逐渐成为关键角色,尤其是在定量构效关系(QSAR)和吸收、分布、代谢和排泄(ADME)等任务中。其中,图卷积网络(GCN)模型凭借其对分子结构基于图的独特表示能力,备受关注。然而,现实中却有一道难以跨越的 “鸿沟”—— 数据隐私和安全问题。在药物研发领域,数据是各大公司的核心资产,保护数据至关重要。但与此同时,为了让机器学习模型性能更优、更可靠,需要整合多方数据,而这又不可避免地涉及数据共享,数据隐私风险也随之增加。这一矛盾使得像 GCN 这样有潜力的模型无法充分发挥作用,成为药物研发路上的 “绊脚石”。
为了搬开这块 “绊脚石”,相关研究人员开启了探索之旅,研发出了 kMoL,这是一个集成联邦学习能力的开源机器学习库,主要用于药物研发流程。相关研究成果为药物研发带来了新的曙光,该研究成果为药物研发提供了一个强大且灵活的工具,有望推动药物研发领域在保护数据隐私的同时提升模型性能,相关研究成果发表在《Journal of Cheminformatics》期刊上。
研究人员在开展这项研究时,运用了多种关键技术方法。首先,kMoL 构建了独特的架构,包含机器学习和联邦学习两个主要部分。其中,通过多种数据预处理组件,如加载器(Loaders)、特征化器(Featurizers)等,对原始数据进行处理。支持多种模型架构,包括基于图的架构、混合图架构和多模态架构等。采用贝叶斯优化方法调整模型参数,并运用联邦学习技术实现数据在隐私保护下的共享与模型训练,同时使用多种数据集进行实验评估。
下面来看看具体的研究结果。
实验设计 :研究人员精心设计了实验,一方面用多种数据集测试 kMoL 构建模型的能力,另一方面对比联邦学习与传统本地训练策略的优劣。使用贝叶斯优化进行架构搜索和超参数调整,再用五折交叉验证评估模型性能。在基准测试实验中,用 MoleculeNet 数据集评估 kMoL 并与其他先进方法对比;在联邦学习实验中,用 Toxicity 和 DruMAP ADME 等数据集,按不同联邦学习策略训练模型,与本地训练的基线模型对比。
基准测试实验 :在 MoleculeNet 数据集上的基准测试实验中,研究人员通过贝叶斯优化进行架构搜索和超参数调整,每个数据集进行 25 次试验,每次试验 100 个 epoch。用五折交叉验证评估最佳模型,确保性能可靠。结果表明,使用 kMoL 训练的机器学习模型至少与当前最先进的模型相当,这为后续的联邦学习实验奠定了良好基础。
联邦学习实验 :联邦学习实验使用了 Toxicity 和 ADME 两类数据集。在实验过程中,采用了贝叶斯优化和交叉验证,针对样本较少的数据集,通过多次交叉验证并取平均值来确保结果可靠。实验还对比了多种聚合策略,如简单平均、加权平均和基准平均,同时分析了数据集分割和训练时长的影响。实验结果通过图表展示,详细数据在补充信息中。
在研究结论与讨论部分,基准测试实验显示,kMoL 在多种任务上表现出色,能构建可靠的机器学习模型。联邦学习实验则发现,小数据集指标变异性大,分类任务受联邦学习影响较小,回归任务受影响较大,聚合策略对模型性能影响有限,联邦学习性能损失随客户端数量增加而增加,但分类任务损失较小。总体而言,kMoL 为药物研发中的联邦学习提供了实用工具,不过仍有改进空间。未来可引入更多相关公共数据集,研究更好的聚合策略,尤其是针对回归任务,以提升模型在药物研发中的性能和可靠性。这一研究成果为药物研发开辟了新道路,有望在保护数据隐私的同时,更高效地研发出创新药物,造福人类健康。
閹垫捁绁�
娑撳娴囩€瑰宓庢导锔炬暩鐎涙劒鍔熼妴濠団偓姘崇箖缂佸棜鍎禒锝堥樋閹活厾銇氶弬鎵畱閼筋垳澧块棃鍓佸仯閵嗗甯扮槐銏狀洤娴f洟鈧俺绻冩禒锝堥樋閸掑棙鐎芥穱鍐箻閹劎娈戦懡顖滃⒖閸欐垹骞囬惍鏃傗敀
10x Genomics閺傛澘鎼isium HD 瀵偓閸氼垰宕熺紒鍡氬劒閸掑棜椴搁悳鍥╂畱閸忋劏娴嗚ぐ鏇犵矋缁屾椽妫块崚鍡樼€介敍锟�
濞嗐垼绻嬫稉瀣祰Twist閵嗗﹣绗夐弬顓炲綁閸栨牜娈慍RISPR缁涙盯鈧鐗哥仦鈧妴瀣暩鐎涙劒鍔�
閸楁洜绮忛懗鐐寸ゴ鎼村繐鍙嗛梻銊ャ亣鐠佹彃鐖� - 濞e崬鍙嗘禍鍡毿掓禒搴n儑娑撯偓娑擃亜宕熺紒鍡氬劒鐎圭偤鐛欑拋鎹愵吀閸掔増鏆熼幑顔垮窛閹貉傜瑢閸欘垵顫嬮崠鏍掗弸锟�
娑撳娴囬妴濠勭矎閼崇偛鍞撮摂瀣鐠愩劋绨版担婊冨瀻閺嬫劖鏌熷▔鏇犳暩鐎涙劒鍔熼妴锟�