迈向癌症可解释深度学习模型:精准肿瘤学的前沿突破与关键进展

【字体: 时间:2025年02月15日 来源:npj Precision Oncology 6.8

编辑推荐:

  为解决癌症研究中难以推断分子病因、治疗复杂等问题,麻省理工学院等机构研究人员开展癌症可解释 DL 模型研究。结果显示该模型可整合多数据,有多种应用。推荐阅读,助您把握精准肿瘤学前沿!

  

迈向可解释的癌症深度学习模型


阿夫兰特?尼尔森、尼古拉斯?梅梅蒂斯、道格拉斯?A?劳芬伯格

癌症是细胞状态失调的一种表现形式。它源于内在和外在因素的相互作用,这些因素破坏了细胞的动态平衡,其中包括基因和表观遗传改变,以及肿瘤微环境。这种复杂性使得推断治疗该疾病的分子病因颇具挑战。细胞的全系统计算机模型或许能够解决这一问题,因为它们能够快速生成并测试假设,而这些假设在实验室和临床环境中进行测试,要么速度太慢,要么根本无法实现。然而,到目前为止,这类模型受到了实验和计算方面的限制。在这篇展望文章中,来自麻省理工学院生物工程系(Department of Biological Engineering, Massachusetts Institute of Technology)的研究人员认为,现在可以利用深度学习算法整合组学数据和分子网络的先验知识来构建这些模型。这类模型在精准肿瘤学中具有广泛的应用,例如识别药物靶点和生物标志物、预测药物的耐药机制和毒性作用,或者模拟微环境中的细胞间相互作用。

癌症是一种多样化的肿瘤疾病,其中突变和其他改变会驱动诸如细胞持续增殖、逃避免疫系统等表型。从理论上讲,通过针对这些特定的异常,即精准医学,有望实现安全有效的癌症治疗。然而在实际操作中,这颇具挑战,因为细胞过程高度相互关联,并且还依赖于微环境(图 1)。这种复杂性阻碍了人们确定基因改变与疾病表型之间的因果关系,例如哪些突变是导致疾病的驱动因素,哪些是乘客突变。研究发现,抑制癌症特异性信号蛋白可能非常有效,但这种治疗也可能受到负反馈回路的阻碍,例如一种依赖于细胞外信号调节激酶(ERK)的反馈回路会减弱对丝裂原活化蛋白激酶激酶(RAF)的抑制作用。即使一种治疗方法起初取得成功,由于细胞的异质性,也可能出现对治疗产生抗性的细胞,这种异质性可能源于基因组和表观遗传差异。此外,癌细胞与微环境中的其他细胞相互作用,这扩大了它们的信号传导范围。总体而言,突变、药物、耐药机制、反馈回路和环境因素之间的这种相互作用,产生了大量可能的病因,通过实验研究这些病因颇具挑战。因此,计算方法将具有优势。

活细胞是动态系统,其依赖于大量分子之间的生化相互作用,这些相互作用受动力学和传输的物理化学定律支配。这类系统可以用数学模型来描述,为此,基于常微分方程(ODEs)的模型被广泛应用。它们可用于模拟蛋白质和代谢物之间的相互作用,预测与疾病相关的分子,并为扰动提供机制解释。原则上,如果所有分子关系都已知,并且忽略随机效应,那么细胞的活动可以从其初始状态推导出来,即自下而上的建模。然而,由于实际和理论上的原因,这仍然极具挑战性,一种有吸引力的替代方法是根据系统层面的数据拟合模型参数,即自上而下的建模。

机器学习(ML),特别是深度学习(DL)模型,如今在生物学和医学领域得到了广泛应用。这些算法通过在数据上进行训练(即参数化),能够快速做出可推广到未知条件的预测。结合大规模高通量筛选数据集,这些模型已成功应用于各种任务,包括预测药物协同作用、治疗反应、生存概率、疾病结局,以及用于癌症组织学分析。一些模型在描述输入时纳入了分子结构,这使得它们能够将预测外推到未经测试的分子。然而,许多这类模型在预测感兴趣的表型时,并未考虑潜在的机制,因此因其缺乏生物学可解释性而受到批评。最近,先验生物学知识已与机器学习模型相结合,例如以分子网络的形式,从而使模型更具结构性和可解释性,并且在患者和细胞层面都显示出了有前景的结果。

长期以来,基于网络的方法在癌症研究中的实用性已得到认可。这些方法已被用于绘制细胞的功能组织图、对癌症数据进行因果整合和生成机制假设,以及表征对药物治疗的反应及其作用机制。大量以网络为中心的工具已被开发出来,用于探究疾病的生物学机制和治疗方案的作用机制。例如,在 Cytoscape 软件中,研究人员可以整合大型分子网络和组学数据,快速、简便地进行网络统计和可视化。一些方法,如 CausalR、CARNIVAL 和 COSMOS,利用组学数据和先验知识来提出潜在的因果网络,以解释观察到的现象。此外,一些方法可以从单细胞 RNA 测序数据中同时推断基因调控网络,并利用这些网络进行计算机模拟扰动,从而探究特定分子种类扰动的潜在影响。然而,大多数基于网络的方法主要是描述性的,即它们并非为对未知条件(如以前未观察到的突变组合)进行定量预测而构建,这可能需要人工解释。此外,它们通常不会编码诱导观察到的生物学效应的分子结构,因此无法直接预测以前未测试过的分子的效果。

由于癌症中细胞过程高度相互关联,因此需要系统层面的模型来预测突变和其他改变的影响。在这篇展望文章中,研究人员探讨了鉴于深度学习算法、数据采集方法的最新进展,以及积累的分子网络先验知识,构建此类模型的可行性。研究人员还探索了如果成功构建这样的模型,其潜在的应用。

预测性深度学习模型


机器学习,尤其是人工神经网络(ANNs),有助于构建大规模预测模型。人工神经网络通过一系列线性矩阵运算和非线性变换来逼近未知的复杂函数,中间有多层隐藏变量。如果使用了多个隐藏层,这类模型被称为 “深度” 模型。这些模型可以包含数百万个参数,并且可以使用自动微分快速拟合输入 - 输出数据对。深度学习的灵活性和规模使其成为拟合复杂和异质分子数据模型的有前途的候选方法。特别是在癌症研究中,深度学习已被用于预测治疗反应,以及在扰动后高性能地预测肿瘤表型,其他机器学习模型则利用从临床前模型的迁移学习方法来预测患者的反应。

然而,虽然深度学习模型在预测方面表现出色,但它们与所逼近的潜在机制之间的关系往往不明确,即 “黑箱” 问题。因此,有人提出在生物系统中应使用更具可解释性的深度学习模型,在过去几年中,可解释人工智能确实引起了广泛关注。例如,Keyl 等人使用一种称为逐层相关性传播的解释方法,结合人工神经网络模型,从个体患者的蛋白质组数据预测蛋白质相互作用网络。Laurie 和 Lu 开发了一种用于生存预测的深度学习架构,其组件能够捕捉肿瘤动态的特定方面。

研究人员认为,虽然纯粹的预测模型在许多任务中可能有用,例如为进一步的实验验证对扰动进行优先级排序,但安全有效的治疗方法的开发应基于有目的的过程。特别是,它们应旨在影响特定的靶点,具有已知的作用机制和明确的动力学特征。这可以通过构建人类细胞模型来实现。根据对生物建模社区的一项调查,这样的模型至少应涵盖信号转导、代谢和基因调控,包括转录、翻译和降解过程。虽然这项调查涉及一个混合了不同模型类型的框架,但使用深度学习的集成模型在利用不同类型的实验数据实现参数化自动化方面具有优势。

目前,研究人员已利用先验知识为主要的细胞子系统开发了深度学习模型。在信号传导方面,研究人员开发了一种模型,该模型可以根据配体或药物刺激预测转录因子(TF)的活性或细胞活力。该模型使用递归神经网络(RNN),以先验知识信号网络为框架来模拟信号传播。最近,研究人员扩展了这种方法,以模拟小分子药物扰动下的癌细胞信号传导,同时推断其脱靶效应。在代谢方面,研究人员开发了一种模型,该模型可以根据大肠杆菌的代谢物浓度预测代谢率。最后,在基因调控方面,研究人员开发了一种模型,该模型可以再现转录因子与 DNA 结合的化学反应,并根据转录因子浓度预测基因表达水平。使用类似的公式,可以重建这些过程的集成模型。

知识饱和与数据积累


研究人员对分子网络的积累知识现已达到基因组规模,这使得创建全基因组预测模型成为可能。实验技术和计算技术的进步,已促成了包含数千个分子相互作用的先验知识网络的整理。分子关系的先验知识在原则上是有限的,因为它仅限于指定在参与分子以适当浓度存在时哪些相互作用可以发生。这些关系对可能的细胞状态施加了结构约束,尽管它们并不总是有效,因为并非所有分子都存在于每个细胞和细胞状态中。利用这类知识,研究人员已经重建了代谢、信号转导和基因调控的大型网络。对每个相互作用背后参考文献的首次发表日期的分析表明,新发现的速度正在放缓(图 2a)。一种解释可能是研究人员对分子相互作用的先验知识正在趋于完善,尽管其他可能的解释可能包括研究兴趣从基础生物化学的转移,或者发现与纳入数据库之间的时间滞后。特别是对于基因调控网络,有文献支持的相互作用覆盖率较低(8%,相当于每个基因不到一个相互作用),这可能反映了证据评估的转变,从单个已发表的研究转向纳入公共数据库。

与此同时,经过良好注释的高通量数据量继续快速增长。原则上,它可以无限增加,因为它量化了特定实验条件下的细胞状态或表型。为了成功对这些数据进行建模,理想情况下,实验设计(或元数据)和细胞反应都应记录在数据库中。

一个这样的数据库,即基因表达综合数据库(Gene Expression Omnibus, GEO),现已超过一百万个人类样本(图 2b)。还有许多公共数据集,涵盖了众多扰动,如基因敲除,以及不同药物和配体对数千种细胞系的刺激,例如 CLUE 平台拥有超过 780,000 种独特条件下的转录组图谱。这些为研究和模拟疾病及扰动样本的转录组图谱提供了大量数据,无论是批量样本还是单细胞水平的样本。

通过分子条形码(例如核苷酸条形码)在单细胞水平分析样本,能够表征异质群体中的细胞群体,这使得详细描述不同器官中的细胞类型成为可能。这对于临床肿瘤样本尤其有用,因为从批量测量中解析不同细胞类型的混合物及其个体状态颇具挑战。在识别样本中的单个细胞类型后,可以进行伪批量分析,即将来自相同细胞类型的基因表达数据聚合为不同的伪批量样本,从而减少单细胞 RNA 序列数据中常见的技术变异性和缺失值的影响。单细胞分析还使得探索看似同质的细胞群体中的变异性成为可能。最后,分子条形码技术的发展还使得系统地筛选刺激组合成为可能,例如在一项汇总实验中,通过为每种药物使用独特的条形码,测量了对 420 种不同药物组合的转录组反应。

使用不同的实验技术,现在可以在基因组规模上常规表征不同模态的分子数量,包括代谢物浓度(代谢组学)、mRNA 转录本浓度(转录组学)、蛋白质浓度(蛋白质组学)以及与信号状态相关的蛋白质磷酸化水平(磷酸蛋白质组学)。同时对同一组细胞或受试者进行多种数据类型的量化(多组学)也越来越普遍,或者在不同研究中使用不同技术研究同一组细胞系,例如一项研究将代谢谱与 NCI60 面板中 60 种癌细胞系的生长速率差异相关联,而另一项研究则使用磷酸蛋白质组学量化了它们对不同药物的信号反应。然而,到目前为止,整合来自不同研究、数据模态和条件的数据颇具挑战。这部分是由于缺乏统一的分析框架,以及在处理存在缺失数据的样本和受试者时存在困难。

集成模型的建议结构


细胞的活动由一系列改变其分子组成的分子相互作用构成。为了对这些过程进行建模,相互作用可以用子函数来表示,这些子函数逼近所涉及的分子数量之间的输入 - 输出关系(图 3a)。这些相互作用可以大致分为属于特定的细胞子系统,如代谢、信号传导或基因调控,它们通过共享的分子数量相互作用。可以从大量这样的关系构建一个统一的模型(图 3b)。例如,一种酶可以合成一种代谢物,这种代谢物会影响控制转录因子的信号蛋白,进而调节基因的表达。这种具有明确定义的过程,作用于与可观测分子相对应的状态变量的模块化结构,将确保模型的可解释性。

与许多其他物理系统一样,可以假设这些分子函数并不直接依赖于它们发生在何种细胞类型或细胞区室中,即它们具有空间不变性。可以认为,实际上观察到的细胞和区室之间的差异源于分子浓度和翻译后修饰的差异,这些都可以被视为函数的输入。在其他神经网络应用中,使用不变性被证明是有用的,因为它允许在看似不同的条件之间共享参数,例如在图像识别中,相同的卷积函数应用于图像的所有部分。这可能面临的一个挑战是存在细胞类型特异性的分子版本,例如由具有多个剪接变体(即异构体)的基因翻译的蛋白质。这些可以用独立的函数表示,或者通过将异构体组成作为额外输入整合到一个统一的函数中。另一个挑战可能是环境因素,如温度或 pH 值,它们会影响生化反应速率,从而影响输入 - 输出关系,但原则上,这些也可以作为输入。

还可以假设只有分子数量随时间变化,而函数本身不变,即它们具有时间不变性。这意味着可以通过重复应用相同的函数来构建分子轨迹(图 3d),在不同时间使用不同的输入,从某个初始条件和潜在的扰动开始。基于这个假设,可以使用递归神经网络(RNN)来模拟时间动态,递归神经网络是一种深度学习架构,用于迭代地对顺序操作进行建模,其输出是模型的中间隐藏状态,用于计算下一个状态。黑箱递归神经网络已被用于重现基于常微分方程的信号传导模型的预测,研究人员使用递归神经网络在假设信号传导达到(伪)稳态的情况下,直接模拟从配体到转录因子的信号传播。

一个对定义的分子数量进行操作的统一模型,允许对输入进行直接映射,并提取输出。在这种表述中,细胞状态表示为分子特征向量,如转录因子、代谢物、蛋白质等。输入编码每个特定样本的细胞类型、环境和扰动(图 3e)。一个映射子模块可以将输入分配给受影响的分子,例如将药物映射到其靶点,将突变映射到受影响的蛋白质,将配体映射到其受体。细胞类型之间的差异可以通过其基础分子浓度来编码。类似地,与实验数据相关的预测可以从相应分子的状态中提取,例如从 mRNA 浓度的表示中提取基因的表达(图 3e)。细胞状态也是预测细胞表型(如细胞活力)的子模块的合适输入。为此,可以使用整个细胞状态,或者基于知识的子集,例如一组调节细胞增殖的核心转录因子已被用于预测细胞活力。这种通用表示几乎允许使用相同的模型,通过不同的输入整合任何细胞类型中的任何实验条件。由于已知细胞过程在不同的时间尺度上运行,有时将较慢的过程分离为单独的条件进行独立模拟是合理的。

该模型的目的是预测未观察到的细胞状态,以及未测试扰动对药物开发的影响。为了训练模型,可以使用均方误差或负对数似然来最小化分子数量和表型的预期值与预测值之间的差异。这可以针对模型的最终稳态进行,或者在对应于多个时间点积分的不同迭代步骤中进行。对于单细胞数据,模型可以在每种细胞类型的伪批量分析图谱上进行训练,或者,受证据深度学习的启发,可以使用每种特定细胞类型中基因表达的完整分布,在这种方法中,模型估计输出分布的统计矩。为了确认模型对未见过的扰动进行外推的能力,应该使用交叉折叠验证,即在训练过程中留出与每个训练折叠中使用的扰动不同的扰动。最后,实验验证对于评估在没有实验数据的情况下,扰动和状态的有趣结果,并确认这些发现是必要的。

从长远来看,可以设想神经网络还可以对实验设置进行建模,从而大大减少所需的预处理工作。目前,由于测序深度(和缺失值)的差异,以及实验方案(如 RNA 提取、蛋白质组学方法等)的差异,预处理是一个挑战。个体的细胞代表了对理想化细胞输入的自然扰动。癌症对应于这些扰动的一个子空间。这些模型可以解决的挑战是,每种特定癌症的情况略有不同,最佳治疗方法(如目前已有的或假定的药物)将因患者而异(即精准医学的动机)。这些模型可以作为一个框架,统一来自不同情况的数据,以预测哪种治疗方法在特定情况下可能有效。预测模型(如神经网络)相对于描述性(统计)模型的优势在于,它们可以外推,对以前未观察到的情况进行预测。虽然在实践中,模型可能不会直接应用于临床,但它们可以帮助提供生物标志物,将患者分层到不同的治疗方案中,以便进行临床测试。

挑战与局限


对于基于先验知识的模型,网络的准确性和完整性至关重要。可以预期,先验知识既包含注释错误的相互作用,也存在不完整的情况。对于那些被发现对模型预测具有重要意义的相互作用,需要进行严格审查和整理,如果证据存疑,还需结合验证实验,以减轻先验知识中注释错误的限制。随着知识的进一步积累,不完整性有望降低,但也可以通过纳入对未知因素影响进行建模的项来解决这一问题。如果这些项显著改善了模型的拟合度和泛化能力,它们可能构成需要通过实验验证的新相互作用,尽管推断蛋白质 - 蛋白质相互作用并非这一工作的主要目标。类似地,模型范围之外的过程可能表现为分子物种之间缺失的相互作用,例如剪接变体、微小 RNA 或表观遗传调控的影响。分析哪些条件会导致模型失效,以及哪些测量受到影响,有助于深入了解外部影响的重要性和程度。

生物数据中经常出现缺失值和其他不规则情况,这给建模带来了问题。这可能涉及在不同时间点从不同细胞收集的数据、不同样本组之间的批次间差异,或者失败的表型测量。虽然从其公式中并不明显,但通过一些修改,深度学习模型能够很好地处理这些问题。由于人工神经网络使用某种形式的随机梯度下降(SGD)来估计参数,因此可以在梯度计算中忽略缺失数据点,并允许它们取任意值。此外,由于随机梯度下降预测输入变量的梯度,因此可以自动估计缺失值,使其与

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号