
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人类基因组中顺式调控模块靶基因预测及功能类型解析揭示其独特特性
【字体: 大 中 小 】 时间:2025年07月16日 来源:BMC Biology 4.4
编辑推荐:
本研究针对顺式调控模块(CRM)靶基因预测难题,开发了CAPP方法,通过整合染色质可及性(CA)、RNA-seq和Hi-C数据,成功预测了14.3%的人类基因组CRM靶基因,首次系统揭示了双重功能CRM(dual CRMs)的远距离调控偏好、增强子(enhancer)的协同作用特性以及沉默子(silencer)对广谱表达基因的调控倾向,为解析基因调控网络提供了新工具。
基因表达调控如同精密的交响乐,而顺式调控模块(CRM)就是指挥家手中的乐谱。在人类基因组中,超过百万个CRM通过增强子(enhancer)和沉默子(silencer)等元件调控基因表达,但长期以来存在三大难题:如何准确预测这些调控元件的靶基因?如何区分它们的功能类型?不同类型的CRM是否存在独特调控特性?这些问题严重阻碍了我们对基因调控网络的理解。
为解决这些挑战,来自中国科学院生物物理研究所的研究团队在《BMC Biology》发表了创新性研究成果。该研究开发了相关性-物理邻近性整合方法CAPP,通过分析107种人类细胞/组织类型的染色质可及性(CA)和RNA-seq数据,结合6种细胞类型的Hi-C数据,成功预测了1.2M个CRM中14.3%的靶基因,并首次系统揭示了双重功能CRM、增强子和沉默子的独特调控特性。
研究主要采用三大关键技术:1)基于逻辑回归模型(LR)的CRM功能状态预测系统,仅需CA数据即可准确预测CRM活性;2)跨组织相关性分析方法,通过Mann-Whitney U检验评估CRM状态与基因表达的关联;3)Hi-C数据验证体系,确认预测的CRM-基因互作具有物理接触证据。
【Most of the genome and our predicted CRMs are covered by consensus TADs in various cell types】
通过分析六种细胞类型的Hi-C数据发现,81.12%的基因组区域被拓扑关联域(TAD)覆盖,96.2%的预测CRM位于TAD内,为靶基因预测提供了空间约束框架。
【CA alone can accurately predict the functional states of CRMs】
开发的新型LR模型仅使用CA单一特征即可高精度预测CRM活性状态(AUROC=0.93),在107种细胞/组织中鉴定出547,695个非冗余活性CRM。
【Target genes of 14% of CRMs can be predicted using currently available datasets】
CAPP方法预测出750,058个增强子-基因调控和5,247个沉默子-基因调控,其中1.4%为双重功能CRM,98.2%为专属增强子,0.4%为专属沉默子。
【A dual functional CRM tends to regulate the largest number of genes】
双重功能CRM平均调控4.5个基因,显著多于专属增强子(4.1个)和沉默子(1.7个),且更倾向调控远距离基因(16.3%的调控距离>5M bp)。
【Enhancers are more cooperative than silencers to regulate target genes】
64.4%的基因受多个增强子协同调控,而仅2.7%的基因受多个沉默子调控,揭示增强子更倾向形成调控联盟。
【Dual CRMs tend to regulate more distant genes】
双重功能CRM的调控距离显著长于专属元件,其靶基因间平均间隔基因数也更多,突破传统方法1-5M bp的预测局限。
【Enhancers tend to regulate more narrowly expressed genes while silencers more broadly expressed genes】
增强子偏好调控组织特异性基因(τ指数较高),而沉默子倾向调控广谱表达基因,反映二者在基因表达调控中的互补作用。
【Static and active cis-regulatory networks can be built by the predicted CRM-gene links】
基于预测结果构建了包含1712个连接组件的静态调控网络(sCRN),并可在特定细胞类型中诱导出活性调控网络(aCRN)。
【Our model outperforms the distance-based method CNA】
相比最近邻分配法(CNA),CAPP将增强子-基因调控的验证通过率从55.9%提升至100%,沉默子-基因调控通过率从9.1%提升至100%。
【Both CAPP and the activity-by-contact(ABC) model might only capture a small portion of enhancer-gene regulations】
与ABC模型比较显示,两种方法预测结果重叠率仅17.2%,提示当前方法仍可能遗漏大量真实调控关系。
【CAPP outperforms PECA in accuracy silencer-gene regulations】
相比PECA方法,CAPP将沉默子-基因调控的验证通过率从不足0.2%提升至100%,显著提高了预测可靠性。
这项研究在基因调控领域取得三大突破:首先,CAPP方法首次实现仅需CA和RNA-seq数据即可同步预测CRM靶基因和功能类型,大幅降低研究成本;其次,发现双重功能CRM具有远距离调控偏好且更富集GWAS和eQTL位点,为解析复杂疾病遗传机制提供新视角;最后,揭示增强子和沉默子在靶基因选择、协同调控等方面的互补特性,完善了对基因表达精密调控的认知。该成果不仅为构建完整的人类基因调控图谱奠定基础,更为理解发育、疾病和进化中的基因调控机制提供了全新框架。
生物通微信公众号
知名企业招聘