编辑推荐:
为解决现有计算模型无法捕捉 circRNA 与 miRNA 互作的深度协作特征及指导特征提取网络训练的问题,研究人员开展 DGCLCMI 方法预测 circRNA - miRNA 互作的研究。结果显示该方法性能卓越,有助于发现未知关联,推动相关领域研究。
在生命科学的微观世界里,环状 RNA(circRNA)和微小 RNA(miRNA)之间的 “互动” 一直是科学家们关注的焦点。circRNA 凭借其独特的闭环结构,在体内稳定性超高,就像拥有一层坚固 “铠甲”,能抵御 RNA 酶的降解。曾经,由于技术限制,它被误认作 RNA 加工的 “副产品”,未受重视。但随着高通量测序技术的发展,circRNA 的神秘面纱逐渐被揭开,人们发现它在基因表达调控、细胞功能调节以及疾病发生发展过程中都扮演着重要角色,尤其是它与 miRNA 的相互作用,更是影响深远。
比如在肿瘤的舞台上,circRNA ciRS - 7 就像一位 “搅局者”,它通过吸附 miR - 7,解除了 miR - 7 对其靶基因的抑制,从而为肿瘤细胞的增殖和迁移 “大开绿灯”;在类风湿关节炎的战场上,circRNA hsa_circ_0005198 也不甘示弱,它调控着 miR - 145,影响着成纤维样滑膜细胞的增殖和迁移。这些现象都表明,深入探究 circRNA - miRNA 的调控机制,就像找到了一把解开疾病奥秘的钥匙,对于疾病的预防和治疗意义重大。
然而,传统的湿实验方法在验证 circRNA - miRNA 关联时,就像一场艰难的 “长征”。样本准备和实验分析耗时久,试剂、仪器设备价格昂贵,还对研究人员的技术水平要求极高,并且通量低,难以进行大规模、系统的分析,这无疑给 circRNA 的研究戴上了沉重的 “枷锁”。
为了打破这一困境,电子科技大学等机构的研究人员挺身而出,开展了一项极具创新性的研究。他们提出了一种名为 DGCLCMI(a deep graph collaboration learning method to predict circRNA - miRNA interactions)的深度图协作学习方法,专门用于预测 circRNA - miRNA 的相互作用。经过一系列严谨的实验和分析,研究人员发现,DGCLCMI 算法在预测任务中表现十分出色,显著优于以往的模型,这一成果就像在黑暗中点亮了一盏明灯,为 circRNA - miRNA 互作研究开辟了新的道路。该研究成果发表在《BMC Biology》上,引起了学术界的广泛关注。
研究人员在开展这项研究时,运用了多种关键技术方法。首先,在数据处理上,他们采用了公开可用的实验验证数据集 CMI - 9905、CMI - 9589 和 CMI - 20208,这些数据来自 circBank 和 miRBase 数据库。然后,在特征提取阶段,利用 Skip - gram 模型将 circRNA 和 miRNA 序列转化为数值特征,再借助长短期记忆网络(LSTM)捕获序列的时间上下文特征。最后,通过改进的神经图协同过滤模型(NGCF)挖掘 circRNA - miRNA 的深度协作信息。
研究结果
- 算法性能优异:研究人员使用 DGCLCMI 算法对三个数据集进行五折交叉验证,从多个方面选取七个指标来衡量算法性能。结果显示,该算法在特异性、精度和敏感性等指标上都表现良好。在特异性方面,它能精准识别负样本,降低误诊率;精度上,对正样本的识别准确高效;敏感性也较为出色,能有效召回正样本。综合来看,在 AUC(曲线下面积)指标上,三个数据集的五折平均 AUC 分别达到 0.9546、0.9610 和 0.9645,平均 AUC 为 0.9600,这表明该模型能在不同阈值下有效区分正样本和负样本。
- 与现有算法对比优势明显:将 DGCLCMI 算法与多个先进的 CMI 预测模型对比,在所有数据集上,该算法的 AUC 指标都远超其他算法。在 CMI - 9905、CMI - 20208 和 CMI - 9589 数据集上,AUC 分别比第二好的方法高出 5.07%、3.76% 和 1.47%,AUPR(精确率 - 召回率曲线下面积)分别高出 4.58%、2.84% 和 0.96%。从其他指标来看,在 CMI - 9905 数据集上,与 2024 年提出的 CA - CMA 模型相比,DGCLCMI 算法在特异性上提高了约 12%,精度提高了约 10%,整体 MCC(马修斯相关系数)提高了约 6%;在更大的 CMI - 20208 数据集中,与 BGF - CMAP 模型相比,特异性提高约 11%,精度提高约 10%,MCC 提高约 4%,充分彰显了该算法的优越性。
- 消融实验验证有效性:通过与常用分类器算法进行消融分析,结果表明基于决策树集成学习的 “静态” 分类器在训练过程中无法动态调整特征,而 DGCLCMI 算法的动态统一模型在所有数据集上都表现卓越。在特征提取算法的对比中,发现除 CAE(卷积自动编码器)外,与神经图协同过滤模型搭配的其他特征提取算法在联合优化框架下都性能出色,而 LSTM 由于其独特的 “细胞状态” 和 “门机制”,能有效处理长序列依赖问题,在实验中表现最佳,因此被选为主要的特征提取算法。
- 案例研究成果显著:研究人员通过案例研究进一步验证算法的有效性。他们先在已知标签的 CMI 数据上训练算法,然后预测未知 circRNA 和 miRNA 对之间的相互作用。在选取的 20 个高置信度的未知样本对中,有 18 个已被证实存在相互作用,剩下 2 个未来也可能通过实际测试得到确认,这表明该算法能为潜在的相互作用对提供高置信度的预测,有效缩小实验范围,降低实验成本。
研究结论与讨论
综上所述,DGCLCMI 通过捕获 circRNA - miRNA 的深度协作信息,改进了两者的特征表示,在预测性能上远超以往方法。它为探索未知的 CMI 提供了有力工具,有助于揭示疾病调控网络,推动疾病早期诊断和靶向治疗的发展。虽然现有计算模型在预测 circRNA - miRNA 互作方面取得了一定进展,但普遍存在忽视深度协作特征提取和无法基于此指导特征提取网络训练的问题,而 DGCLCMI 的出现,成功弥补了这些不足。未来,随着研究的不断深入,DGCLCMI 有望在生命科学和健康医学领域发挥更大的作用,为攻克更多疾病难题贡献力量。