基于贝叶斯神经网络的常微分方程框架,用于研究化学混合物对生存率的影响
《PLOS Computational Biology》:A Bayesian neural ordinary differential equations framework to study the effects of chemical mixtures on survival
【字体:
大
中
小
】
时间:2025年11月12日
来源:PLOS Computational Biology 3.6
编辑推荐:
本研究提出一种融合毒理动力学(TKTD)模型与神经网络(NN)的混合框架,结合贝叶斯推断量化不确定性,用于预测未测试化学混合物的毒性。通过99项急性毒性实验数据验证,发现线性模型在加性效应中表现优异,而NN模型有效捕捉非线性交互作用。贝叶斯方法成功量化预测不确定性,并识别需要进一步实验验证的化学组合。该框架为环境风险评估提供了可扩展的计算工具,未来需验证动态暴露场景下的预测能力。
在植物保护产品(PPP)领域,多种活性成分的组合是一种常见的策略,旨在提高对目标物种的防治效果。然而,这些混合物可能会对非目标物种产生未经测试的化学组合效应,因为它们在应用和降解路径上存在差异。因此,开发一种无需大量实验即可预测这些混合物对非目标物种影响的方法,对于提升环境风险评估的准确性至关重要。当前的毒理动力学(TK)和毒理动力学(TD)模型能够基于浓度相加和独立作用原则,提供混合物毒性随时间变化的预测能力。然而,这些模型在捕捉复杂、非线性相互作用——如协同效应和拮抗效应——方面仍存在局限性。为了克服这些局限,我们提出了一种新的方法,将TKTD模型与神经网络(NN)相结合,提供了一种稳健的框架,用于建模复杂物质之间的相互作用。该模型通过普通微分方程(ODE)编码基本的生物原理,从而约束神经网络以生成生物上合理的解决方案。贝叶斯推断进一步优化了模型,通过处理数据、模型参数和生物过程中的不确定性,同时量化预测的不确定性,从而突出实验数据中的不足之处,提示需要进一步研究的领域。这种混合模型在99项急性毒性研究中进行了评估,包括各种PPP混合物,以测试其识别和预测混合物行为偏差的能力。我们的研究结果表明,尽管简单的线性模型在预测加性混合物效应方面提供了稳健且简洁的基准,但神经网络组件则在识别和预测显著的非线性偏差方面表现出强大的能力。这一双轨方法明确了简单模型和复杂模型各自的作用,为预测未经测试的化学混合物的综合效应提供了一个更具责任感的框架,并为环境风险评估实践提供了指导。
化学混合物对生物体的影响是一个关键的挑战,尤其是在生态毒理学领域。混合物中的化合物可能会产生加性、协同或拮抗效应,从而影响生物的生存能力。传统的毒理动力学-毒理动力学(TKTD)模型在处理单一化合物时表现良好,但在描述混合物的非线性和不确定性动态方面却存在困难。因此,我们提出了一种基于贝叶斯神经微分方程(NODE)的框架,将机制性TKTD建模与深度学习的灵活性相结合,以描述生物体在化学混合物暴露下的生存状态。我们的方法在四个大型数据集上进行了评估,这些数据集遵循OECD测试指南203,包括超过500条时间序列,涉及鱼类在单一和组合农药暴露下的生存情况。该模型能够预测新时间点、不同混合比例以及甚至未见过的混合物的生存率,同时通过贝叶斯推断量化不确定性。该框架在性能上优于已有的机制性模型,并提供了可解释的参数,这些参数与毒理动力学过程相关。通过将神经微分方程与贝叶斯统计相结合,我们提出了一种新的计算范式,用于预测混合物的毒性,将经典机制性理解与现代机器学习相结合,对环境风险评估和监管科学具有直接意义。
在化学混合物的毒性预测中,由于化合物的种类、浓度和组合方式的多样性,无法对所有可能的混合物和浓度比进行实证测试。因此,发展一种能够处理这些复杂性的预测模型成为必要。传统的浓度相加(CA)和独立作用(IA)模型在预测混合物毒性方面表现良好,特别是在单个化合物的毒性数据已知的情况下。然而,它们在捕捉非加性相互作用,如协同和拮抗效应时存在不足。这些非线性相互作用通常发生在一种化学物质(如活性成分或共溶剂)影响另一种化学物质的生物可利用性、吸收、分布或生物转化时。为了改进这些模型,一些研究尝试调整关键参数以反映偏离加性的效应,例如,通过引入偏差参数来影响速率常数,以表示一种物质如何改变另一种物质的消除或损伤修复速率。然而,这些方法依赖于假设偏差主要来源于速率限制常数的相互作用,而这一假设尚未得到充分验证。
为此,我们提出了一种新的方法,该方法通过神经网络(NN)对TK与TD阶段之间的损伤聚合进行建模,从而减少对特定假设的依赖。这种方法是一种“知识嵌入”模型,也被称为物理信息神经网络或神经微分方程模型,允许我们在保留机制性理解的同时,对更模糊的相互作用进行灵活的数据驱动建模。神经网络通过ODE驱动的生物法则进行约束,从而在大规模数据集上进行有效校准,以近似TK与TD阶段之间的复杂功能关系。为了进一步提升模型的可靠性,我们采用了贝叶斯框架,将数据、参数和生物过程的不确定性纳入考虑。贝叶斯推断通过将模型依赖关系视为条件概率,使模型能够在标准实验毒性数据(如OECD协议)上进行稳健校准,同时识别需要进一步数据收集以改进预测的领域。本研究的三个主要目标是:(1)实现一种与常规毒性数据兼容的贝叶斯校准混合模型;(2)评估该模型在混合物中的预测能力,包括不同成分比例或全新的活性成分组合;(3)评估该模型量化偏离CA和IA的能力,以表征混合物中的协同或拮抗趋势。为此,我们使用了99项遵循OECD 203指南的鱼类生存实验数据进行测试,这些数据涵盖了除草剂、杀菌剂和杀虫剂等多种化学物质。尽管TKTD模型的参数基于以往的研究,但神经网络部分需要在多种配置中进行广泛的测试,探索层结构、参数规模和激活函数。这种校准-验证过程,使用子集进行模型校准和预测验证,反映了数据驱动模型在较小有效训练集上的挑战。总体而言,我们期望这种混合框架能够通过整合机制性理解与神经网络的适应性,提高对未经测试化学组合的预测准确性,并支持更可靠的环境风险评估。
本研究的模型分为三个子模型,如图2所示。第一个和第三个子模型分别对应毒理动力学(TK)和毒理动力学(TD)部分。TK子模型描述了化学物质在生物体内的动态变化,而TD子模型则将这些内部浓度转化为生物损伤,并计算生物体的生存概率。这两个子模型均采用简化版的通用生存阈值模型(GUTS)。第二个中间子模型则连接TK和TD,通过多种聚合方法将化学物质转化为一个单一的、随时间变化的损伤变量D(t)。在本文中,我们使用“聚合”这一术语来描述该中间过程,以区别于“相互作用”,后者指的是化合物之间的生化相互作用。
在TK部分,模型采用机制性方法,使用普通微分方程(ODE)来捕捉暴露曲线的时间依赖性动态。对于每种物质i,其暴露曲线Xi(t)被用来描述其在水中的动力学行为,从而得到一个代理的内部浓度Ci(t)。由于直接测量内部浓度不可行,因此该模型假设了每种物质i的主导毒理动力学速率常数kd,i,这是每种物质特有的参数。通过这种方式,TK模型能够描述化学物质在生物体内的动态过程。
在TKTD桥接部分,模型采用了多种变体,如表1所示。桥接函数的作用是将每种物质的内部浓度Ci(t)转化为TD模型的输入,即生物损伤变量D(t)。在这一过程中,有两种可能的方法:使用Ci(t)的导数,或直接使用Ci(t)本身。对于n种暴露化合物,采用导数方法的方程为:
D(t) = f_d(Ci(t))
其中,f_d()是每种物质i的导数函数。另一种方法是直接使用浓度:
D(t) = f(Ci(t))
其中,f()是所有物质浓度的函数。我们选择了第二种方法,因为它能确保D(t)保持正值,并通过直接对D(t)应用指数变换来实现这一目标。
对于线性模型,其方程与以往研究相似,加入了偏置项b以获得更准确的线性模型。为了处理非线性聚合,我们采用了一种基于通用逼近定理的神经网络(NN)。该定理指出,具有非线性激活函数的两层神经网络可以逼近任何函数。因此,我们构建了一个基于该定理的神经网络,以捕捉复杂的非线性相互作用。
在TD部分,模型接收来自TKTD桥接的累积损伤变量D(t),并将其转化为全局生存概率S(t)。TD部分采用的是GUTS-IT框架,即个体耐受性版本,结合了基础生存概率Sb(t)和每种物质i的额外生存概率。TD的作用是将累积的损伤D(t)转化为整体的生存概率S(t)。
在模型构建过程中,我们引入了对参数α的分割方法,以应对其与无效应浓度之间的相关性。这种方法将α表示为每种化合物i的边际参数函数。这一方法与用于建模从内部浓度计算损伤的函数相同。
为了评估模型的拟合效果,我们采用了EFSA推荐的模型性能标准,包括后验预测检查(PPC)、归一化均方根误差(NRMSE)和生存概率预测误差(SPPE)。PPC通过比较预测和观察到的生存计数,总结预测的均值和95%的不确定性范围。NRMSE用于衡量预测值与观测值之间的拟合质量,而SPPE则关注暴露实验结束时的生存概率。由于我们采用了贝叶斯推断,因此还引入了广泛适用的信息准则(WAIC)以估计模型参数的有效数量,并避免过拟合。
在验证过程中,我们采用了两种数据分割方法:随机时间点分割和随机时间序列分割。结果表明,随机时间序列分割方法在性能上优于随机时间点分割。然而,无论采用哪种分割方法,模型在验证子集上的表现大致相当。校准结果表明,神经网络在捕捉实验数据模式方面表现出一定的过拟合倾向,这可能是由于其高度的灵活性,能够紧密拟合训练数据,但也可能捕捉到噪声而非真实的数据分布。我们的初始先验可能过于不充分,但采用贝叶斯推断时,我们并未试图引发关于先验信息是否充分的讨论。
本研究的一个重要成果是开发了一种简单但有效的建模协议,适用于具有不同混合物和变化暴露曲线的数据集。该协议通过活性成分的数量来设定网络层的大小,并采用ReLU激活函数。尽管该神经网络架构在现代标准中较为简单,但其有效地满足了我们的研究目标。通过WAIC作为拟合质量的评估标准,我们发现更复杂的神经网络架构(如具有更多层和参数的模型)在捕捉实验数据模式方面效果不佳。
在模型参数的推断过程中,我们采用贝叶斯方法,将先验知识和不确定性传播相结合,从而实现对参数的稳健估计。贝叶斯推断在药理学研究中已被用于识别协变量与药代动力学参数之间的相互作用,同时评估不同层次的随机效应和不确定性。在人工数据集上,带有单层神经网络的混合模型在检测潜在的协同和拮抗效应方面优于传统的线性模型。而在实际数据集上,带有神经网络的混合模型在参数校准方面优于线性模型,这表明神经网络在拟合多样化函数方面具有更高的灵活性。
然而,值得注意的是,在某些混合物组合中,测试的浓度范围并未能提供足够的信息来得出明确的结论,因此需要更明显的相互作用效应的数据集来进一步验证模型的潜力。在评估混合物的偏离时,我们发现大多数数据集支持加性假设,而协同效应仅在极少数情况下出现。拮抗效应则未被观察到,这与之前关于非加性化合物相互作用的研究结果一致,其中协同效应更为常见。尽管文献中可能存在对拮抗效应的关注不足,这可能是因为协同效应在安全评估中更引人注目,而拮抗效应则较少被研究。
在IA假设下,我们观察到三个活性成分对的协同效应:三氟苯唑与比克芬、氯菊酯与四氯虫酰肼、氟胺磺隆与阿克隆芬。然而,这些结果在很大程度上受到浓度-反应曲线斜率的影响。对于具有陡峭斜率(如对数-对数浓度-反应模型斜率大于1)的曲线,IA模型预测的联合效应通常低于CA模型的预测值。因此,在风险评估中,CA模型通常被用作更保守的参考模型。此外,我们还发现,IA模型中的偏差比CA模型更大,这是因为IA模型通过乘法或非线性函数组合个体反应,而CA模型则是线性相加。因此,任何个体反应的变异或不确定性(如实验误差、生物变异或模型不确定性)在IA模型中被显著放大。
通过本研究,我们验证了模型在人工数据集上的表现,表明该方法不会产生假阳性结果。同时,我们发现,大多数实际数据集支持加性假设,这表明在大多数情况下,混合物的毒性可以被简单模型准确预测。然而,对于某些特定的混合物组合,如比克芬与硫代磷酰胺、比克芬与氯菊酯,模型的预测表现出一定的偏差,提示可能存在协同效应。不过,这些预测的不确定性较高,缺乏验证数据,因此可能属于“幻觉”现象,即模型预测的不一致性。
最后,我们得出结论,本研究提出的混合模型为生态毒理学领域的研究人员和实践者提供了一种强大且易于使用的工具,用于研究和预测复杂混合物的毒性结果。通过在贝叶斯框架中结合机制性TKTD模型与神经网络,该模型增强了我们理解和量化活性成分之间相互作用的能力,并提供了更可靠的信息来判断潜在的协同或拮抗效应。贝叶斯推断还支持对参数的精确估计和对不确定性的有效传播,这对于可靠的预测和基于数据的决策至关重要。该模型的设计兼顾了实用性和适应性,有望在评估和管理生态毒理学风险方面得到广泛应用。
尽管本研究的混合模型已被证明在标准毒理学数据上具有强大的预测能力,但要将其应用于更广泛的监管实践,仍需进一步验证。当前的模型验证仅限于标准的急性毒性测试,这些测试通常采用恒定暴露浓度。然而,环境中的暴露往往具有时间依赖性,以动态脉冲形式发生。因此,未来的重点应是验证模型在时间变化暴露数据集上的预测能力,以确保其在真实环境条件下的适用性。此外,随着对混合物毒性的研究不断深入,该模型的扩展和优化也具有重要意义,特别是在处理更复杂的相互作用和更广泛的活性成分组合方面。通过不断改进模型的结构和参数设置,我们可以进一步提升其预测能力,从而更好地支持环境风险评估和监管决策。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号