
-
生物通官微
陪你抓住生命科技
跳动的脉搏
CanLncG4数据集:整合G-四链体预测与lncRNA癌症调控网络的创新资源
【字体: 大 中 小 】 时间:2025年05月24日 来源:Scientific Data 5.8
编辑推荐:
为解决lncRNA中G-四链体(G4s)在癌症中的系统研究空白,印度理工学院团队整合17,666组实验验证的lncRNA-癌症关联数据,开发CanLncG4数据集。该资源首次将6,408个人类lncRNA的G4形成潜力预测、亚细胞定位及RNA/蛋白相互作用信息系统整合,为探索G4介导的癌症调控机制提供新范式。
在人类基因组中,仅有不到2%的序列编码蛋白质,而超过70%的基因组会转录产生大量非编码RNA(ncRNA)。其中长链非编码RNA(lncRNA)作为"基因组暗物质"的重要代表,已被发现在多种癌症中存在表达失调现象,与肿瘤增殖、转移、代谢重编程等恶性特征密切相关。然而,这些lncRNA究竟通过何种分子机制参与癌症发生发展?近年研究发现,lncRNA中富含鸟嘌呤的序列可形成特殊的G-四链体(G-quadruplexes, G4s)高级结构,这类结构能作为"分子开关"调控lncRNA与蛋白质的相互作用,但科学界一直缺乏系统性研究G4s在癌症相关lncRNA中分布规律及其功能的资源平台。
印度理工学院甘地那加尔分校的Shubham Sharma领衔的研究团队,在《Scientific Data》发表了题为"OPEN A Dataset Curated for the DATA DESCRIPTOR Assessment of G4s in the LncRNAs Dysregulated in Various Human Cancers"的创新数据集。这项工作历时多年,整合了来自Lnc2Cancer 3.0、NPInter v4.0等12个权威数据库的实验数据,结合自主开发的生物信息学分析流程,构建了名为CanLncG4的综合性资源。该数据集不仅涵盖15种癌症类型中6,408个lncRNA的17,666条实验验证关联,还首次实现了三大突破:(1) 使用QGRS mapper和改良版G4Hunter算法预测lncRNA中2G/3G/4G型G4s形成潜力;(2) 整合LncATLAS数据库的亚细胞定位信息;(3) 系统标注了lncRNA互作蛋白中已知的RNA G4结合蛋白(RGBPs),为揭示G4介导的调控网络提供全新视角。
研究团队采用多管齐下的技术路线:首先从Lnc2Cancer 3.0获取癌症相关lncRNA名录,通过NCBI Nucleotide数据库严格筛选经实验验证的转录本序列;随后运用QGRS mapper(参数:最大长度45,最小G组2,环大小0-36)和改良版G4Hunter(窗口45,阈值0.9/1.4)进行G4形成序列预测,特别优化算法以避免重叠序列干扰;同时整合LncATLAS的亚细胞定位数据,以及NPInter/LncTarD的互作组学信息,最终通过人工校验确保数据质量。
研究结果呈现四大核心发现:
在讨论环节,作者强调该研究的双重价值:一方面,CanLncG4为解释临床现象提供新思路——如胰腺癌药物QN-302(已获FDA临床试验许可)可能通过破坏lncRNA G4结构发挥疗效;另一方面,数据集揭示的G4-RGBP互作规律,为开发类似CX-5461的新型G4靶向药物指明方向。值得关注的是,研究团队同步发布了交互式网站(http://www.canlncg4.com),集成G4预测工具和所有数据集下载功能,并承诺持续更新更多癌症类型数据。
这项研究恰逢2024年诺贝尔生理学或医学奖授予ncRNA研究领域之际,为破解"基因组暗物质"的癌症密码提供了关键工具。正如作者指出,这种"自下而上"的研究范式——即从G4结构出发探索lncRNA功能,将显著加速癌症诊断标志物和靶向治疗的发现进程。随着更多研究者利用该资源,我们有望揭开lncRNA三维结构与癌症发生之间的神秘面纱。
生物通微信公众号
知名企业招聘