编辑推荐:
在环境化学、毒理学及药物设计等领域,水溶解性数据至关重要。然而现有数据存在缺口,为填补这一空白,研究人员开发图卷积神经网络模型(GNN)预测 log Sw 。该模型表现出色,为相关领域研究提供有力支持。
在科学研究的广阔领域中,水溶解性这一物理化学性质,就像一把神奇的钥匙,开启了多个重要学科领域的大门。在环境化学的舞台上,它掌控着化学物质在环境中的 “旅行路线” 和最终归宿;在毒理学的世界里,它影响着化学物质的毒性发挥;在药物设计的领域中,它更是决定药物能否顺利被人体吸收、分布、代谢和排泄(ADME 过程)的关键因素 。尽管水溶解性相关的实验数据数量庞大,但化学世界犹如一片广袤无垠的海洋,仍有众多化合物的水溶解性信息隐匿其中,亟待挖掘。这一数据缺口就像一座横亘在研究道路上的大山,严重阻碍了相关领域的深入发展。为了跨越这座大山,来自 Helmholtz Centre for Environmental Research-UFZ 等机构的研究人员勇挑重担,开展了一项极具意义的研究。他们成功开发出一种基于图卷积神经网络(Graph Convolutional Neural Network,GNN)的模型,用于预测化学物质的水溶解性(以 log
Sw 的形式呈现)。研究结果令人振奋,该模型在独立测试集上表现卓越,相关系数
r2 达到 0.901,预测相关系数
q2 为 0.896,均方根误差(RMSE)为 0.657,误差水平与实验误差(0.5 - 0.6 log 单位)相近。这一成果意义非凡,为众多依赖水溶解性数据的研究提供了强大助力,让科学家们在探索化学世界的道路上迈出了坚实的一步。该研究成果发表在《Journal of Cheminformatics》上。
研究人员为开展此项研究,运用了多个关键技术方法。在数据处理方面,他们以 AqSolDB 数据集为基础,经过一系列严格筛选,去除无机化合物、盐类等,同时补充新数据,最终构建出高质量数据集。在模型构建上,利用 Python、Tensorflow、Keras 和 Deepchem 等工具开发 GNN 模型,并通过数据增强策略扩充输入特征。此外,采用五折交叉验证评估模型性能,还运用特定方法确定模型的适用域。
数据集整理
研究人员从 Sorkun 等人发布的 AqSolDB 数据集入手,该数据集包含多个来源的水溶解性数据,成分复杂。研究人员在初步训练 GNN 模型时,敏锐地发现了数据中的潜在异常值。经过仔细排查,找出了诸如将检测限误作水溶解性数据、数据为预测值、数据传输错误、化学物质标识符有误、化学物质在水中不稳定以及误将临界胶束浓度当作水溶解性数据等问题 。针对这些问题,研究人员逐一进行修正,删除错误数据或对数据进行校正。同时,为了使数据集更加科学合理,他们还设定了一些筛选条件,排除了摩尔质量大于 900g/mol 以及 log Sw 大于 0.5 的化学物质。经过这一系列精心整理,最终得到的数据集 log Sw 值范围为?13.17 至 0.50,为后续研究奠定了坚实基础。
最优 GNN 结构的选择与模型性能
研究人员将整理后的包含 9800 种化学物质 log Sw 值的数据集,巧妙地划分为训练集(70%)、验证集(20%)和测试集(10%) 。为了避免训练集选择带来的偏差,他们采用五折交叉验证的方法,对训练集和验证集进行多次随机划分,形成不同的组合。通过生成互变异构体形式和不同的 SMILES 变体,扩大了训练集规模,使训练过程更加稳定,模型预测性能更优。在众多不同设置的 GNN 模型中,研究人员经过大量实验和分析,确定了最优的模型架构:包含两个隐藏层,分别有 64 和 128 个神经元,学习率设为 0.0005,训练 130 个 epoch,并采用 leaky ReLu 函数作为激活函数,L1Loss 函数作为损失函数 。最终,基于五个不同 GNN 模型的均值构建的共识模型表现出色,在测试集上r2 达到 0.901,q2 为 0.896,RMSE 为 0.657 。研究人员还根据模型预测的标准偏差(SD)对预测质量进行评估,发现 SD≤0.1 时,RMSE 为 0.44,预测可靠性高;随着 SD 增大,RMSE 上升,预测可靠性降低 。此外,通过计算化学物质与 k 近邻的 Tanimoto 距离等方法确定的适用域,覆盖了测试集 98.7% 的化学物质,在适用域内的 RMSE 为 0.655,域外为 0.771。
与其他模型的比较
研究人员将自己开发的 GNN 模型与其他多个预测工具和模型进行了全面比较。在与 Sorkun 等人开发的 AqSolPred 共识模型对比时,对 AqSolDB 的 E 子集进行预测,GNN 模型的 RMSE 为 0.43,表现略优 。但考虑到 E 子集中部分数据在训练集中出现过,研究人员重新训练模型,去除重叠数据后,RMSE 变为 0.64 。在与其他模型对 Delaney 子集的预测比较中,GNN 模型最初 RMSE 为 0.49,去除重叠数据重新训练后为 0.71 。与 EPI Suite、ACD GALAS 和 OCHEM 等软件工具对比时,GNN 模型在测试集上的 RMSE 最低,为 0.66 log 单位 。即便考虑到 OCHEM 模型训练集包含部分测试集数据,在排除这些数据后的子集上,GNN 模型的r2 为 0.877,q2 为 0.867,RMSE 为 0.700,依然优于 OCHEM 模型 。对于不同大小分子的预测,GNN 模型在预测较大化学物质(NHAs>30)时,RMSE 相对其他工具也是最低的 。此外,研究人员还发现新添加数据子集的预测 RMSE 略高于原始数据集,但与其他工具相比,GNN 模型的差异更小 。在对以 Delaney 数据集训练的模型性能比较中,GNN 模型虽在小数据集上表现不如部分模型,但研究表明在更大数据集上训练能提升其性能。
研究结论和讨论
在这项研究中,研究人员成功开发出用于预测 log Sw 值的 GNN 模型。通过精心整理 AqSolDB 数据集,并补充 2195 种化学物质的 log Sw 值,构建了涵盖广泛化学物质的数据集。在此基础上训练的共识 GNN 模型在独立测试集上 RMSE 为 0.65,通过相似性方法确定的适用域表明其覆盖范围广泛。研究还发现,模型的预测性能与训练数据的数量和质量密切相关。当前许多深度学习模型在训练时缺乏数据整理和一致性检查,导致性能不佳。而本研究强调了数据整理的重要性,尽管这一过程耗时且难以自动化,但对提升模型性能至关重要。这一研究成果为化学物质水溶解性的预测提供了更可靠的方法,推动了环境化学、毒理学和药物设计等领域的发展,让科研人员在相关研究中有了更有力的工具,能够更准确地评估化学物质的性质和行为,为后续研究开辟了新的道路。