
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于GRN对齐参数优化的可解释基因扰动响应建模:GPO-VAE方法
【字体: 大 中 小 】 时间:2025年07月16日 来源:Bioinformatics 4.4
编辑推荐:
本研究针对基因扰动响应预测中模型可解释性不足的问题,提出GPO-VAE(GRN-aligned Parameter Optimization VAE),通过将基因调控网络(GRN)拓扑结构融入变分自编码器(VAE)的潜空间设计,实现了扰动效应的生物学机制解释。该模型在K562、RPE1等细胞系数据集上达到SOTA预测性能(ATE-p 0.658),同时构建的GRN网络成功捕获KRAS、MYC等癌症相关通路,为靶向治疗开发提供新思路。
在精准医疗时代,理解细胞对基因扰动的响应机制至关重要。然而现有基于变分自编码器(VAE)的预测模型存在"黑箱"困境——虽然能准确预测基因表达变化,却无法解释这些变化背后的生物学机制。这种可解释性缺失严重制约了其在靶点发现和药物开发中的应用。
韩国大学计算机科学与工程系的Seungheun Baek团队在《Bioinformatics》发表的研究中,创新性地将基因调控网络(GRN)拓扑结构与深度学习相结合,开发出GPO-VAE模型。该模型通过GRN对齐参数优化技术,使潜空间中扰动效应特征直接对应基因间因果关系,不仅保持预测精度(ATE-R2 0.417),还构建出包含KRAS-MYC等关键通路的可解释网络。
研究采用三大关键技术:1)基于K562、RPE1等Perturb-Seq数据集构建扩展基因集(G+);2)设计GRN-aligned参数优化目标函数(含K-hop积累和稀疏惩罚项);3)通过Wasserstein距离(μWD)和假遗漏率(FOR)双指标评估网络质量。
【GRN拓扑分析揭示优化机制】
比较不同损失函数的GRN构建效果发现,完整GPO目标(Jgpo)生成的网络兼具高μWD(0.414)和低FOR(0.039),证明多跳因果关系优化能有效扩展通路覆盖。如图3所示,仅用稀疏惩罚(Jsp)会导致扩展基因(G+)边缘化,而单纯DGE损失(JdgeK)则产生过度连接的冗余网络。

【癌症通路验证】
在KRAS相关子网络中(图4a),模型发现CCT2、PSMC2等基因与KRAS存在实验证实的负向遗传互作,这些未记录在STRING数据库中的关系可能揭示新的合成致死靶点。MYC子网络(图4b)则显示NEDD8、WDR12等核糖体亚基基因通过胞质-线粒体定位转换参与MYC依赖的凋亡途径,与Replogle线粒体基因组应激研究相呼应。

【未知扰动预测能力】
排除训练集的TWISTNB等基因测试显示,模型对未见扰动的预测保持高精度(ATE-p 0.919),证明GRN拓扑学习具有强泛化性。如图5所示,预测的ATE分布与实验值高度吻合,为罕见突变研究提供新工具。
该研究突破性地实现了预测精度与机制解释的双重提升,其GRN构建方法为以下领域带来革新:1)通过MED12-ATP1A1等新型互作发现白血病靶点;2)验证多跳扩展基因在通路完善中的价值;3)建立可解释AI在生物医学应用的范式。未来整合多基因扰动和先验知识网络,将进一步增强模型的转化医学潜力。
生物通微信公众号
知名企业招聘