
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于图表示学习和梯度提升直方图的lncRNA-疾病关联解码研究
【字体: 大 中 小 】 时间:2025年08月28日 来源:Scientific Reports 3.9
编辑推荐:
本研究针对长链非编码RNA(lncRNA)与疾病关联(LDA)鉴定实验成本高、耗时长的问题,开发了LDA-GMCB预测模型。该模型整合图嵌入学习、多头自注意力机制(MSA)与卷积神经网络(CNN)、低秩奇异值分解(SVD)和直方图梯度提升(HGBoost),在lncRNADisease和MNDR数据库上显著超越现有方法(AUC达0.9734),并成功预测DGCR5与阿尔茨海默病、HIF1A-AS1与帕金森病的新关联,为疾病生物标志物发现提供了高效计算工具。
在生命科学领域,长链非编码RNA(lncRNA)作为长度超过200个核苷酸的非编码RNA分子,已被证实是基因表达调控的关键参与者。近年研究发现,lncRNA的异常表达与阿尔茨海默病(AD)、帕金森病(PD)等复杂疾病密切相关。然而,传统的实验验证方法如RNA测序和基因敲除不仅成本高昂,且耗时费力,这严重制约了lncRNA-疾病关联(LDA)的大规模发现。虽然已有计算预测方法问世,但多数模型要么未能充分学习lncRNA-疾病对(LDP)的特征表示,要么忽视了图结构数据的邻域信息,导致预测精度受限。
为突破这些技术瓶颈,来自湖南工业大学等机构的研究团队在《Scientific Reports》发表了创新性研究成果。该研究开发了LDA-GMCB模型,通过整合图嵌入模块、多头自注意力CNN(MSA-CNN)、低秩SVD和直方图梯度提升(HGBoost)四项核心技术,实现了LDA的高精度预测。研究使用lncRNADisease v2.0/v3.0和MNDR三个数据库的1,956组已验证关联作为训练数据,通过5折交叉验证和冷启动测试验证模型性能。
关键技术方法包括:1)构建融合功能相似性和高斯关联谱核(GAPK)相似性的异质网络;2)采用图卷积网络(GCN)和图注意力网络(GAT)交替的图嵌入模块;3)设计MSA-CNN捕获节点重要性差异;4)结合低秩SVD提取线性特征;5)应用HGBoost分类器进行关联预测。
数据来源
研究筛选了lncRNADisease v2.0(605对关联)、MNDR(1,529对)和lncRNADisease v3.0(1,956对)三个数据库,剔除无序列的lncRNA和无MeSH描述的疾病后,最终保留365个lncRNA与189种疾病的关联数据。
比较实验
在5折交叉验证中,LDA-GMCB的AUC值在三个数据集上分别达到0.9464、0.9734和0.9657,显著优于SDLDA、LDNFSGB等基线模型。特别是在冷启动场景下(屏蔽20%新lncRNA),模型AUC仍保持0.9096(lncRNADisease v2.0)和0.9554(MNDR),证明其处理新实体的能力。
分类器对比
HGBoost以0.9657的AUC值超越MLP、SVM等传统分类器,其直方图分箱策略有效降低了计算复杂度。消融实验证实,结合线性(SVD)和非线性(图嵌入)特征的混合表征使预测性能提升1.67%-2.46%。
案例验证
模型预测的AD相关lncRNA中,MEG3、BDNF-AS等5个已被lncRNADisease v3.0或文献验证;PD相关lncRNA中,GAS5、CDKN2B-AS1等4个获数据库支持。尤其值得注意的是,DGCR5与AD、HIF1A-AS1与PD的新关联为后续实验研究提供了重要线索。
该研究通过多模态特征融合和集成学习策略,解决了现有LDA预测模型特征学习不充分、冷启动性能差等关键问题。LDA-GMCB的创新性体现在:1)首次将GCN-GAT交替架构用于lncRNA/疾病表征学习;2)开发MSA-CNN模块动态加权节点重要性;3)验证HGBoost在生物关联预测中的优越性。研究成果不仅为复杂疾病的机制解析提供了新思路,其开源代码(GitHub可获取)更将推动计算生物学工具的发展。未来通过整合多组学数据和改进负样本筛选策略,模型性能有望进一步提升。
生物通微信公众号
知名企业招聘