利用多尺度分析进行数据驱动的生物系统识别
《PLOS Computational Biology》:Data-driven identification of biological systems using multi-scale analysis
【字体:
大
中
小
】
时间:2025年11月09日
来源:PLOS Computational Biology 3.6
编辑推荐:
提出一种融合SINDy、CSP和神经网络的数据驱动框架,解决多时间尺度生物系统建模难题。通过CSP分解数据集,识别不同动态区域后应用SINDy构建局部模型,有效处理噪声和稀疏数据。以Michaelis-Menten模型验证,展示框架在噪声和动态切换场景下的有效性。
生物系统具有多层次的动态特性,这使得从观测数据中准确识别系统模型变得尤为复杂。传统的方法通常依赖于明确的方程,但这些方法在仅凭观测数据而缺乏明确动力学表达式的情况下,往往难以有效应用。为了解决这一问题,我们提出了一种数据驱动的框架,该框架结合了稀疏非线性动力学识别(SINDy)方法、多尺度分析算法计算奇异摄动(CSP)以及神经网络(NNs)。这一框架能够将整个数据集划分为具有相似动态特性的子集,从而在这些子集内进行系统识别,而不必面对广泛的时尺度范围。因此,当完整的数据集无法让SINDy识别出合适的模型时,CSP则被用来生成具有相似动态的子集,这些子集随后被输入到SINDy中进行模型识别。CSP需要向量场的梯度信息,而该信息通过神经网络进行估计。该框架在Michaelis-Menten模型上进行了测试,该模型在相空间的不同区域具有不同的解析简化形式。结果显示,基于CSP的数据子集能够使SINDy在完整数据集无法识别出有效模型的情况下,准确地识别出对应的简化模型。此外,框架在来自Michaelis-Menten模型的随机版本数据集上也取得了成功。由于该方法是算法性的,因此不受数据集维度的影响,具有良好的可扩展性。
在实际应用中,生物系统的动态行为往往受到多种因素的影响,包括非线性相互作用、多尺度特性以及数据的噪声和稀疏性。这些因素使得传统模型识别方法在处理复杂生物系统时面临挑战。SINDy是一种用于从时间序列数据中识别系统动力学的方法,其核心思想是假设系统的动态可以由候选函数的稀疏组合来表示。然而,SINDy在处理具有复杂非线性关系的数据集时可能会遇到困难,特别是在数据稀疏或噪声较大的情况下。为了克服这一问题,我们引入了弱SINDy,该方法通过在测试函数上进行积分,以增强对噪声和稀疏数据的鲁棒性。尽管弱SINDy在某些情况下表现良好,但其适用性仍然受到预定义函数库的限制,这使得它在处理非标准非线性动态时效果不佳。
针对这一问题,我们提出了一种结合NODE(神经微分方程)和CSP的框架。NODE通过神经网络学习系统的连续时间演化,从而提供一个均匀且密集的向量场。这一向量场可以用于估计系统的雅可比矩阵,而雅可比矩阵的特征向量和特征值则可以用来识别系统的快慢方向和时间尺度。通过CSP分析,我们可以将数据集划分为具有相似动态的子集,从而在每个子集内应用SINDy进行模型识别。这一过程不仅提高了模型识别的准确性,还增强了对噪声和稀疏数据的适应能力。此外,该框架在处理来自Michaelis-Menten模型的随机数据时也表现良好,说明其在实际生物数据中的鲁棒性。
在实验部分,我们使用了Michaelis-Menten模型作为测试案例。该模型描述了酶与底物之间的相互作用,具有三个不同的简化模型:标准准稳态近似(sQSSA)、反向准稳态近似(rQSSA)以及部分平衡近似(PEA)。这些简化模型在相空间的不同区域具有不同的有效性。通过分析完整模型和简化模型的数据集,我们发现弱SINDy在某些情况下能够准确识别出对应的模型,但在具有复杂多尺度动态的PEA模型中却存在识别失败的问题。这表明,当系统表现出非标准非线性动态时,弱SINDy可能无法正确捕捉这些特性。因此,我们提出了一个基于CSP的数据分割方法,将数据集划分为具有不同动态特性的子集,从而在每个子集中独立应用SINDy进行模型识别。
在实际应用中,我们发现该框架能够有效处理噪声数据。通过引入加性噪声和乘性噪声,我们模拟了生物系统中常见的测量误差和过程噪声。结果显示,即使在噪声环境下,该框架仍能准确识别出对应的简化模型。加性噪声对系统轨迹的影响较小,而乘性噪声则在高变量值时导致较大的偏差。然而,通过NODE进行数据平滑处理后,这些偏差得到了有效控制,从而保证了模型识别的准确性。此外,该框架在处理不同噪声水平的数据时表现稳定,说明其对噪声具有较强的鲁棒性。
该框架的一个重要优势在于其算法性和数据驱动性。与传统的基于方程的方法不同,该方法不需要预先知道系统的动力学方程,而是通过数据本身来识别模型。这种特性使其适用于各种复杂的生物系统,无论这些系统是否具有明确的数学表达式。此外,该方法在处理高维数据时也表现出良好的可扩展性。尽管CSP本身是维度无关的,但神经网络的估计方法在高维数据中可能会面临计算成本和数据需求增加的问题。因此,未来的研究方向可能包括引入动态模式分解(DMD)等方法,以提取高维数据中的主要动态模式,从而减少数据量并提高模型识别的效率。
总体而言,该框架提供了一种有效的方法,用于从多尺度生物数据中识别模型。通过结合SINDy、CSP和神经网络,我们能够克服传统方法在处理复杂系统时的局限性,提高模型识别的准确性和鲁棒性。这一方法不仅适用于二维的Michaelis-Menten模型,还可以扩展到更高维度的生物系统,如神经科学、系统生物学和临床监测等领域。未来的研究可以进一步优化框架的超参数设置,提高模型识别的效率,并探索其在其他复杂生物系统中的应用潜力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号