《Cell Genomics》:Incomplete lineage sorting of segmental duplications defines the human chromosome 2 fusion site early during African great ape speciation
编辑推荐:
为厘清人类独有46条染色体核型起源,编辑推荐:针对“人类2号染色体何时、如何形成”这一悬而未决的演化难题,研究者利用T2T完整基因组,系统解析融合位点单碱基结构、片段重复(SD)与着丝粒退化,发现融合事件>5 mya并受ILS驱动,CRISPR-Cas9缺失实验揭示其调控神经发育基因表达,为染色体重排促物种形成提供功能证据。
约700万年前,非洲一支古猿种群中发生了一次“染色体黏合”事件:两条中等大小的染色体头尾相连,诞生了一条超长染色体——今天的人类2号染色体。这一融合把祖先48条染色体减为46条,成为人类与黑猩猩、大猩猩等近亲最醒目的核型差异。然而,融合究竟何时发生?是偶然还是受到自然选择青睐?断裂-融合-修复留下的“疤痕”序列是否仍影响当代人类基因调控?这些疑问因融合区富含高度重复、难以测序的片段重复(SD)和卫星DNA而长期悬而未决。过去基于短读长或BAC克隆的组装常把复杂重复“折叠”成缺口,使融合位点结构、演化历史与功能后果始终蒙着一层“迷雾”。
为彻底揭开这层迷雾,Yang等借助“端粒到端粒”(T2T)联盟发布的完整人类CHM13v2.0基因组以及黑猩猩、倭黑猩猩、大猩猩、两种猩猩和猕猴的T2T组装,对2号染色体融合区进行单碱基分辨率剖析,并结合47个不同人群单倍型、CRISPR-Cas9基因编辑与神经前体细胞(NPC)转录组,系统回答“何时融合、如何融合、融合后干了什么”三大问题。论文2026年1月发表于《Cell Genomics》。
主要技术路线:
T2T完整基因组比对:用minimap2进行跨物种共线性与结构变异鉴定;
SD注释与系统发育:SEDEF检出≥98%一致、≥20 kbp的SD,MAFFT+IQ-TREE+BEAST估算分歧时间;
不完全谱系分选(ILS)分析:500 bp滑窗构建邻接树,量化拓扑不一致比例;
甲基化与着丝粒退化:RepeatMasker+HumAS-HMMER划分α卫星超染色体家族(SF),mrsFAST检测古人类k-mer;
CRISPR-Cas9缺失:CN1 iPSC中设计双sgRNA敲除109 kbp融合区,定向分化为NPC,RNA-seq(edgeR/DESeq2)筛选差异表达基因(DEG)。
研究结果
融合位点结构特征
作者首先将人类2q14.1约109 kbp融合区与黑猩猩2a、2b对应区域比对,发现人类该段由7个高一致SD拼接成约455 kbp的大重复块,其中3个核心SD——SD_fusion_A(50 kbp,源自祖先chr9)、SD_fusion_B(36 kbp,源自祖先chr12/20)、SD_fusion_C(22 kbp,源自祖先chr22)——在非洲猿中拷贝数差异巨大,且两侧分布倒位与卫星DNA,提示融合前已存在复杂结构重塑。
不完全谱系分选驱动融合
系统发育显示,三个融合SD均呈现“基因树-物种树”不一致:例如人类SD_fusion_A单系群与黑猩猩、倭黑猩猩拷贝分开,而与猩猩、大猩猩某些拷贝更近,符合ILS特征。5 Mbp侧翼窗口分析发现,融合界面处ILS比例升高至50.69%,为染色体平均值的1.39倍,且呈极性分布(远端chr2b侧富集、近端chr2a侧缺失)。作者据此推断,融合并非近代事件,而是发生在>5百万年前非洲类人猿有效群体规模较大时期,祖先染色体端部多种结构单倍型并存,最终某一组合通过端粒-端粒融合固定于人类祖先。
端粒-端粒融合并非“裸端”相连
既往推测融合仅是两条染色体端粒序列(TTAGGG)简单连接。本研究在SD_fusion_B与SD_fusion_C内部检出倒置的端粒重复(CCCTAA/GGGTTA)及其侧翼TAR1元件,表明这些序列早在融合前已插于片段重复中;融合后人类2q14.1留下两处TAR1+端粒序列“疤痕”,支持SD介导的融合模型。
非洲猿亚端粒卫星扩张与融合“分道扬镳”
黑猩猩与倭黑猩猩2a、2b短臂具5–19.6 Mbp的亚端粒异染色质帽,由32 bp pCht卫星阵列与平均32 kbp的SD spacer交替排列。所有 spacer 与 SD_fusion_A 共享 98.05% 一致序列,系统发育同样呈ILS拓扑,表明它们源自同一祖先重复,但在黑猩猩支系中通过谱系特异性扩增形成数百份拷贝,而在人类支系中因融合与后续丢失,pCht卫星完全缺席。
着丝粒退化与表观遗传印记
融合导致黑猩猩祖先2b着丝粒(Cen_decay)在人中退化。该退化区由3段α卫星阵列(cenD_1/2/3)组成,被SVA、L1PA3等转座子打断。94个人类组装中检测到5种结构单倍型,长度差异主要源于cenD_1/2,且97.5% k-mer亦存在于尼安德特人、丹尼索瓦人,说明退化早于现代人与古人类分歧。甲基化分析显示该退化区显著低于功能性高阶重复(HOR)着丝粒,提示表观遗传已“关闭”其着丝粒功能。
融合区缺失影响神经发育基因表达
融合位点内注释到4个非编码基因/假基因(PGM5P4、FAM138B、WASH2P、DDX11L2),在睾丸、食管、输卵管、小脑有表达。CRISPR-Cas9杂合敲除109 kbp后,NPC转录组显示547个上调、869个下调基因(FDR<0.05,|log2FC|>2)。GO富集揭示上调基因富集于“模式规格化”,下调基因则富集于“前脑发育”“轴突导向”等神经发生通路,提示融合区虽非蛋白编码核心,但通过三维基因组或调控元件影响神经发育程序,可能为人类认知性状演化提供潜在调控变异。
结论与讨论
本研究基于T2T完整基因组,首次把人类2号染色体融合断点细化到单碱基水平,证明:
融合由109 kbp三段关键SD促成,其祖先拷贝在非洲大猿中因ILS随机保留,时间>5 mya;
融合并非简单端粒连接,而是SD内嵌端粒/TAR1元件介导;
融合后人类失去亚端粒pCht卫星,伴随退化着丝粒表观沉默;
融合区缺失可扰动NPC中神经发育基因表达,暗示其具有调控功能。
该成果把经典的“人类2号染色体融合”故事从细胞遗传学描述推进到基因组学-功能学整合解释,为理解染色体重排如何通过不完全谱系分选、重复序列周转与表观遗传重塑,推动物种形成与性状创新提供了范式。未来若能解析融合所致三维染色质结构变化,或将进一步揭示人类独特脑发育与疾病易感的演化根源。