iPiDA-LGE:开启 piRNA 与疾病关联研究的新征程

【字体: 时间:2025年05月10日 来源:BMC Biology 4.4

编辑推荐:

  探索 piRNA 与疾病的关联对发现诊断、预后生物标志物及治疗靶点意义重大。现有计算方法存在特征学习过平滑、忽略局部邻近关系等问题。研究人员提出 iPiDA-LGE 方法,实验表明其能提升预测性能,为相关研究提供新思路。

  在生命科学的微观世界里,PIWI 相互作用 RNA(piRNA)就像一群神秘的 “小精灵”,它们虽小,却在生物进程中发挥着关键作用。piRNA 是一类高度保守、具有物种特异性且表达丰富的小非编码 RNA 分子,能与 PIWI 蛋白家族成员形成复合物,参与转座子沉默、基因表达调控、胚胎发育和表观遗传修饰等多种生物功能,对维持基因组稳定性和生殖过程至关重要。
随着研究的深入,人们发现 piRNA 功能异常与多种疾病的发生发展密切相关。这一发现让科研人员看到了新的希望:如果能精准找到 piRNA 与疾病之间的关联,或许就能发现新的诊断或预后生物标志物,找到更有效的治疗靶点,为攻克疾病带来新的曙光。于是,众多科研人员投身于探索 piRNA 与疾病关联的研究中,提出了许多计算方法。

然而,科研之路并非一帆风顺。现有的计算方法在探索 piRNA 与疾病关联时,遭遇了不少挑战。一方面,在特征学习过程中,当前方法整合全局 piRNA - 疾病网络的邻近信息时,虽然让节点特征更丰富,但也引入了无关噪声干扰,导致节点特征过度平滑,就像是给原本清晰的画面蒙上了一层雾,使得关键信息变得模糊不清。另一方面,现有方法忽视了局部邻近关系,而这对于 piRNA - 疾病关联识别任务至关重要。不同疾病中 piRNA 的功能机制差异很大,全局图学习只能提取通用的、全局不变的节点特征,很难检测出具有区分性的关联模式,就好比用一把万能钥匙去开所有的锁,效果自然不尽人意。

为了突破这些困境,来自西安电子科技大学、深圳北理莫斯科大学、北京理工大学等机构的研究人员携手合作,开展了一项极具意义的研究。他们提出了一种名为 iPiDA-LGE(local and global graph ensemble learning framework for identifying piRNA-disease associations)的新计算方法,旨在更精准地识别 piRNA - 疾病关联。该研究成果发表在《BMC Biology》上,为该领域的研究带来了新的突破。

研究人员在开展这项研究时,运用了多种关键技术方法。首先,在数据集构建方面,他们从 piRBase、Disease Ontology 和 MNDR v3.0 等数据库获取 piRNA 序列、疾病本体信息及已知的 piRNA - 疾病关联数据,经过处理构建了用于实验的数据集。其次,在模型构建中,iPiDA-LGE 框架包含图构建、图表示和关联预测三个主要步骤。通过构建异质关联图和局部上下文图,分别从全局和局部层面获取图的特征;利用图卷积神经网络(GCN)进行图表示学习,其中全局层面 GCN 捕获 piRNA 和疾病的全局邻域特征,局部层面 GCN 捕捉每个 piRNA - 疾病对的局部上下文特征;最后,将全局和局部层面的关联得分进行整合,预测 piRNA - 疾病关联。

下面来看具体的研究结果:

  • 参数分析:研究人员重点分析了局部图学习模块中邻居阶数、 epoch、学习率和 GCN 层数这四个重要参数的影响。结果发现,邻居阶数影响局部图的大小和上下文范围,1 - hop 邻域提取的局部图语义信息有限;随着 epoch 增加,局部图学习模块性能先提升后下降,较大的学习率可能导致模型发散或在最优解附近振荡;与全局图学习不同,局部图学习模块对 GCN 层数相对不敏感。综合考虑运行时间和预测性能,最终将这些参数分别设置为 2、20、0.001 和 2。
  • 全局和局部图集成学习提升预测性能:通过比较 iPiDA-LGE 与仅从局部图学习的 iPiDA-L 和仅从全局图学习的 iPiDA-G 这两个基线预测器,发现融合系数对 iPiDA-LGE 的整体性能较为敏感。iPiDA-L 基于局部图学习,能捕获特定上下文语义,在 iPiDA-LGE 中作用更重要,预测性能更高;iPiDA-LGE 在 AUC 和 AUPR 指标上优于 iPiDA-L 和 iPiDA-G,说明全局和局部图的集成学习有助于提升性能;iPiDA-L 可能产生一些假阳性预测,iPiDA-G 则易将潜在关联预测为阴性,而 iPiDA-LGE 通过整合两者能获得更具区分性的关联分数。
  • 局部和全局图表示的特征分析:研究构建了基于不同特征的四个预测器进行比较,发现基于图结构特征的预测器性能明显优于基于拼接属性特征的 iPiDA-A。iPiDA-L 提取的对特征比 iPiDA-G 更具区分性和表现力,因为 iPiDA-L 从特定局部上下文图中捕获对特征,能检测不同类型 piRNA - 疾病对的特定模式,还能为目标对提取精细的上下文语义。
  • 多种方法的性能比较:研究人员将 iPiDA-LGE 与其他六种前沿方法进行比较,通过随机划分 100 次创建独立测试集,结果表明 iPiDA-LGE 在大多数指标上表现显著更优。在留一病交叉验证中,虽然多数方法性能不稳定且下降,但 iPiDA-LGE 在 AUC、AUPR 等综合指标上仍优于其他方法,在 F1 分数和准确率上也表现出色。
  • 案例研究:研究人员选取了帕金森病、心血管疾病等五种重大疾病进行案例研究,iPiDA-LGE 预测的与这些疾病相关的 piRNA 在生物文献中均有支持。这些 piRNA 在不同样本组中表达差异显著,且大多存在单核苷酸多态性(SNP)变异,可能影响其生物学功能。此外,研究还将 iPiDA-LGE 应用于 miRNA - 疾病和 circRNA - 疾病关联预测任务,结果显示该框架在这两个任务中也具有良好的性能和可扩展性。

在研究结论和讨论部分,iPiDA-LGE 展现出诸多优势。其全局图学习模块整合了 piRNA 序列和疾病本体等辅助信息,构建了补充异质关联网络,缓解了原始关联的稀疏性问题,丰富了生物语义。局部图学习模块考虑了 piRNA 在不同疾病中的特定功能机制,将每个目标 piRNA - 疾病对编码为局部图,学习到更具区分性的摘要表示。两者的结合使得 iPiDA-LGE 能同时基于局部图进行精细推断,基于全局图进行总体判断,提升了预测性能。

不过,研究也存在一些局限性。部分预测的 piRNA - 疾病关联还需生物实验进一步验证,而且 iPiDA-LGE 在阐释 piRNA 影响疾病发展的全面机制方面还面临挑战。未来研究可纳入更多表型和基因型信息,如 SNP、表达谱、piRNA 靶点和多种生物实体关联等,构建更全面的异质生物网络;引入去噪技术、因果推断和可解释机制,提高模型的稳健性和生物学意义。总体而言,iPiDA-LGE 为 piRNA - 疾病关联研究开辟了新道路,为后续生物实验和疾病机制探索提供了有价值的线索和方向,推动了生命科学和健康医学领域的发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号