利用大语言模型精准预测癌细胞系药物敏感性的创新性突破 —— 开启个性化癌症治疗新时代

【字体: 时间:2025年02月16日 来源:Nature Communications 14.7

编辑推荐:

  为解决癌症治疗中药物敏感性预测及临床应用难题,意大利比萨高等师范学校等机构的研究人员开展癌细胞系药物敏感性预测研究。他们构建模型,精准预测并实验验证。该成果为个性化癌症治疗提供关键依据,强烈推荐科研读者阅读。

  
在这项研究中,来自第一作者单位(意大利比萨高等师范学校生物实验室,即 Laboratorio di Biologia Bio@SNS, Scuola Normale Superiore, Pisa, Italy)的研究人员开发了一种机器学习框架,用于预测和解释癌细胞系对药物治疗的敏感性,并提出了一种利用该模型对从患者样本中获得的批量 RNA 测序(RNAseq)数据进行可靠推断的策略。

研究人员的分析证实,转录组数据是预测细胞系药物敏感性的关键组成部分。事实上,仅将细胞系表达数据作为特征开发的药物特异性模型,其性能与结合药物和细胞系联合表征的顶级预测模型相似。使用药物特异性模型具有诸多优势:在训练过程中对内存的需求较低,这在处理如 PRISM 这样的大型数据集时至关重要;并且该模型能够轻松适配新的数据集和药物。最重要的是,基于 XGBoost 算法构建的针对单个药物的模型,为解释预测结果和说明模型所利用的基因表达特征提供了便捷途径。正如参考文献 5 所强调的,众多药物展现出选择性的活性谱。药物疗效的差异可能揭示特定癌症类型的关键分子机制。从模型的可解释性中获得的见解,有助于深入理解这些细微差别,从而更深刻地认识药物与基因表达谱之间的相互作用。在个性化医疗框架内,这些知识对于开发靶向治疗至关重要,因为了解药物反应的特殊性是根据个体患者情况定制治疗方案的关键。研究人员采用 SHAP(SHapley Additive exPlanations)和排列重要性这双重标准来确定特征重要性,这为识别重要的表达特征设定了严格要求。尽管如此,研究人员发现许多药物模型确实能够仅基于细胞系的基础转录组数据,学习到影响细胞系药物敏感性的机制。

研究人员采用了基于免费可用的大语言模型(LLM)——Mixtral Instruct 8x7b 的策略,来改进对每种药物作用机制(MOA)的描述,并利用其从参考知识库中关联语义上最接近的途径。通过这一资源,研究人员评估发现,许多全基因模型具有与相应药物 MOA 相匹配的显著富集途径,并且经常能够识别出名义靶点。总体而言,在 253 个 GDSC 药物模型中,有 135 个模型能够在重要基因中找到靶点或与 MOA 相关的途径,这表明药物特异性模型利用了已知的生物学机制来完成其预测任务。研究人员还证明,该模型的重要基因成功概括了近期发表的一份纲要中癌症组织的必需基因。研究人员对模型的解释明确表明,药物敏感性源自药物 MOA 与细胞存活所必需基因之间的相互作用。研究人员推测,MOA 与必需基因之间的相互作用程度越高,药物抑制癌细胞生长的效果就越显著。研究人员这种纯粹的数据驱动方法,用于解释药物敏感性机制,可被视为对先前方法的补充,这些先前方法包括基于敏感性与基础基因表达的简单相关性的方法 4,或结合蛋白质 - 蛋白质相互作用(PPI)网络和途径分析的方法 31。

所提出的 LLM 流程以人类可读和可解释的方式提取特征,是利用相关领域知识使用强大的 LLM 的一个范例。未来模型不断增强的 “推理” 能力,有望通过利用多模态内容(如图像和知识图谱)进一步提升该方法的能力,并且类似的 LLM 应用已在文献中出现(例如,https://biochatter.org/ 32)。采用新的策略来减轻 LLM 的幻觉现象(例如,参考文献 33),对于系统评估预测输出并将其可靠地整合到知识库注释过程中至关重要。

在研究中,研究人员首先针对 GDSCv2 数据集定制训练和可解释性策略,此前已有众多方法对该数据集进行过广泛研究 7 - 9。随后,研究人员将相同策略应用于 PRISM 数据集,该数据集包含针对癌细胞系筛选的更多药物。尽管 PRISM 数据集带来了特殊挑战,比如许多药物对癌细胞几乎没有效果,但研究人员表明,一些模型仍取得了良好的性能,并恢复了靶点和相关 MOA 的信息,这些信息涵盖的生物学过程比 GDSC 药物更为广泛。该机器学习模型通过一个可解释的框架处理了 GDSC 和 PRISM 数据集上的药物敏感性预测问题。然而,研究人员在此采用的回归模型类型,可能并不适合研究人员在 PRISM 数据集中观察到的许多药物候选物,这些候选物具有高度特异性的活性谱(换句话说,仅在有限数量的细胞上显示活性)。考虑到许多非肿瘤药物针对特定靶点(例如 GPCR 药物)具有较高的抗癌潜力 26,27,34,未来探索替代的机器学习框架来模拟这些因特异性高、反应变异性低而导致研究人员目前获得较低性能的药物的敏感性,将是一个有趣的研究方向。

为了在现实场景中(即在从患者获得的批量 RNAseq 数据上)部署模型,研究人员使用 Cellligner18 将患者的批量 RNAseq 数据与模型训练所基于的细胞系数据进行对齐。研究人员使用 Celligner 转换后的 RNAseq 数据来训练模型(即 CCLE 数据),并对来自 TCGA 的 10,000 多名患者的样本进行推断,以预测每种药物的半抑制浓度(IC50)。针对每位患者预测的最佳药物,往往与相应癌症类型批准的单一疗法和联合疗法相匹配,例如用于急性髓细胞白血病(AML)的维奈托克(Venetoclax)、用于乳腺癌(BRCA)的氟维司群(Fulvestrant)以及用于皮肤黑色素瘤(SKCM)的达拉非尼(Dabrafenib),还有许多已获批使用的联合药物。这些结果支持了研究人员模型预测的高转化潜力,因为研究人员发现针对许多 TCGA 癌症类型,有更多预测的单一或联合疗法,并且有一些联合使用的迹象,这可能代表了新的药物重新定位机会。

为了进一步验证研究人员的策略,研究人员对最近通过基于激光显微切割的空间转录组学方法确定的胰腺癌(PDAC)不同形态生物型的 RNAseq 数据进行转换,并推断不同亚型样本最可能有效的药物。研究人员表明,预测对 “GL” 生物型比 “TR” 生物型更有效的伊立替康(Irinotecan)和依托泊苷(Etoposide),在与两种 PDAC 亚型反应最相似的不同肿瘤类型更接近的细胞系上,确实显示出差异敏感性,从而证实了研究人员的预测。肿瘤内的高度异质性,即同一患者体内存在具有不同形态和转录谱的异质性肿瘤细胞群,可能导致这些细胞对治疗产生适应性。因此,这种方法对于根据肿瘤的亚型组成设计特定的联合疗法可能很重要。研究人员还在胶质母细胞瘤(GBM)患者的肿瘤样本上证明了模型的能力,即利用预测的药物敏感性谱根据样本在药物敏感性谱上的相似性进行聚类。通过这种方法,研究人员识别出具有特定敏感性的代表性样本,并使用匹配的患者来源的肿瘤原代细胞系进行了实验验证。这些额外的验证不仅增强了研究人员模型的可靠性,还突出了其在临床实践中的潜在可转化性,为多年来一直停滞不前的胶质母细胞瘤治疗领域提供了广泛的潜在新治疗可能性。

这些结果为未来利用 CellHit 流程在替代患者队列上使用更大的药物集(即 PRISM)进行推断铺平了道路。在这方面,开发更快的算法以将用于推断的批量 RNAseq 数据与模型进行对齐至关重要。目前基于 Celligner 的策略,需要在 CCLE、TCGA 和任何其他输入的 RNAseq 数据集之间进行初始对齐,然后在转换后的 CCLE 数据上重新训练模型。研究人员计划采用深度学习架构,如变分自编码器(例如 Mober35),来改进这个初步对齐步骤,这对于有效地将基于细胞系的模型部署到患者样本上至关重要。研究人员将通过一个网络应用程序提供模型,用于对作为输入提供的患者样本的批量 RNAseq 数据进行快速药物敏感性推断。这将允许根据样本的 “反应性” 谱的相似性对输入样本进行分析和比较,除了基于转录组谱的分析之外,这将加快寻找新的个性化癌症治疗方法的假设生成过程。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号