端粒到端粒基因组组装结合多组学数据:解锁六倍体面包小麦进化之谜

《Nature Genetics》:A telomere-to-telomere genome assembly coupled with multi-omic data provides insights into the evolution of hexaploid bread wheat

【字体: 时间:2025年04月08日 来源:Nature Genetics 31.8

编辑推荐:

  面包小麦基因组复杂庞大,测序面临诸多挑战。研究人员开展 “六倍体面包小麦基因组进化” 主题研究,成功组装出 CS-IAAS 基因组,解析了基因组重排等事件,注释大量基因。这一成果发表在《Nature Genetics》上,为小麦基因组研究带来重大突破,对未来小麦研究和育种具有重要意义

  

在农业领域,面包小麦(Triticum aestivum L.)作为全球广泛种植的作物,是数十亿人的主要热量来源。随着人口增长,提高小麦产量迫在眉睫。然而,面包小麦基因组极为复杂,其估计约 150 亿碱基对(Gbp),包含三个亚基因组,且超过 85% 为重复序列,这给测序工作带来巨大挑战。此前,虽有国际小麦基因组测序联盟(IWGSC)发布参考基因组,但仍存在大量缺口。在此背景下,为深入了解小麦基因组,挖掘其遗传潜力,北京大学现代农业研究院等机构的研究人员开展了相关研究。
研究人员通过结合长读长测序技术和综合分析方法,成功组装出六倍体面包小麦(cv. CS)的端粒到端粒(T2T)参考基因组 CS-IAAS。这一成果发表在《Nature Genetics》上,为小麦基因组研究带来重大突破,对未来小麦研究和育种具有重要意义。
在研究方法上,研究人员主要运用了以下关键技术:首先,采用 PacBio HiFi 和 ONT 超 long(UL)读长测序技术,结合染色体构象捕获(Hi-C)、Illumina 和 Bionano 数据,为基因组组装提供全面数据支持;其次,开发半自动组装流程 SPART,整合多种技术优势,提高组装效率和准确性;此外,利用长读长异构体测序(Iso-Seq)生成全长转录组图谱,结合多种数据进行高精度基因注释;还运用质谱技术对小麦蛋白质组进行深入分析。
研究结果如下:

  • 完整的面包小麦基因组组装:通过多种测序技术和数据的整合,成功构建出长度为 145.1Gbp 的 CS-IAAS 基因组,其 contig N50达到 723.78Mbp,填补了所有缺口,包含全部 42 个端粒和 21 个着丝粒。经多种评估方法验证,该基因组完整性、连续性和准确性极高。

  • 小麦亚基因组的重排和进化:通过对不同倍性小麦的综合共线性分析,发现小麦四倍体化过程中存在 223 种重排事件,如 4A 染色体的易位和倒位;六倍体化过程中有 23 个主要染色体倒位,影响了 2083 个基因,这些基因富集在 “光合作用”“前体代谢物和能量生成”“翻译” 等功能中,且倒位区域基因受正选择。

  • 亚基因组特异性 rDNA 结构组装和鉴定:在 CS-IAAS 基因组中鉴定出 50.86Mbp 的 rDNA 阵列,包含 5611 个完整 rDNA 拷贝,远超之前报道。对 rDNA 结构分析发现,不同染色体 rDNA 阵列存在差异,如 1B 和 6B 染色体 rDNA 阵列方向未完全确定,且 rDNA 阵列间序列包含转座元件(TEs)。

  • 完整的小麦端粒重复序列:利用植物端粒重复基序(TTTAGGG),识别出 21 条染色体两端的端粒,其长度范围为 4718bp 至 32663bp,平均长度 16983bp,累积长度 713290bp。小麦端粒中存在拟南芥型(TTTAGGG)n和脊椎动物型 TTAGGG 序列,表明这种序列替换发生时间较早。

  • 面包小麦基因组中 TE 和节段性重复(SD)的进化特征:在 CS-IAAS 基因组中注释到大量 TEs,总长度达 12.34Gbp,占基因组的 85.04%,并发现两个近期扩张的 DNA 转座子亚家族。SD 序列占基因组的 64.83% ,A 和 B 亚基因组的基本 SD 集数量高于 D 亚基因组。TEs 和 SDs 对基因表达和进化有重要影响,如 TE 插入影响基因表达平衡,SD 区域基因表达水平高于 TE 捕获基因。

  • 着丝粒结构的亚基因组特异性特征:重建小麦着丝粒精确位置,其跨度为 192.7Mbp,主要由 TE 序列组成。发现着丝粒中 Gypsy 家族元件富集,不同亚基因组着丝粒序列多样性增加。着丝粒区域的 Retand 元件在进化中具有重要作用,其在不同亚基因组着丝粒中的分布和插入时间存在差异,且与着丝粒的扩张和进化相关。

  • 高精度基因注释与全长转录组:利用 Iso-Seq 和多种数据进行基因注释,建立了包含 141035 个高置信度(HC)蛋白质编码基因模型的综合注释。鉴定出 2850 个核苷酸结合位点富含亮氨酸重复(NBS-LRR)基因,数量高于之前报道。此外,还识别出大量可变剪接(AS)事件,这些事件具有组织特异性,且在同线性 HC 基因三联体中表现出较高的不平衡水平。

  • 六倍体面包小麦蛋白质组草图:通过质谱技术对小麦胚芽鞘、胚根和节组织进行蛋白质组分析,鉴定出 36701 个 HC 基因的蛋白质组和 29902 个 HC 蛋白质的独特肽段,蛋白质数量远超之前研究。蛋白质组数据支持了基因注释中开放阅读框边界的准确性。
    研究结论表明,CS-IAAS 基因组成功填补其他组装的缺口,未组装区域主要由高度重复序列组成,不同亚基因组存在差异。精确鉴定的 TEs 和 SDs 揭示了它们在六倍体基因组进化中的关键作用,影响基因表达和亚基因组进化。转录、AS 和翻译的调控对维持六倍体基因组基因功能至关重要,AS 表现出较高的亚基因组偏向性,可能是适应性进化和物种形成的关键底物。综上所述,T2T 无缺口的 CS-IAAS 基因组组装是大型复杂多倍体基因组研究的突破,其完整的基因组和丰富的转录组、蛋白质组数据,将助力基因组序列、基因表达和蛋白质变异的全基因组功能研究,也为跨物种基因组研究提供重要参考。

濞戞挸顑堝ù鍥┾偓鐟邦槹瀹撳孩瀵奸敂鐐毄閻庢稒鍔掗崝鐔煎Υ婵犲洠鍋撳宕囩畺缂備礁妫滈崕顏呯閿濆牓妯嬮柟娲诲幘閵囨岸寮幍顔界暠闁肩瓔鍨虫晶鍧楁閸撲礁浠柕鍡楊儐鐢壆妲愰姀鐙€娲ゅù锝嗘礋閳ь剚淇虹换鍐╃閿濆牓妯嬮柛鎺戞閻庤姤绌遍崘顓犵闁诡喓鍔庡▓鎴︽嚒椤栨粌鈷栭柛娆愬灩楠炲洭鎯嶉弮鍌楁晙

10x Genomics闁哄倹婢橀幖顪渋sium HD 鐎殿喒鍋撻柛姘煎灠瀹曠喓绱掗崱姘姃闁告帒妫滄ご鎼佹偝閸モ晜鐣遍柛蹇嬪姀濞村棜銇愰弴鐘电煁缂佸本妞藉Λ鍧楀礆閸℃ḿ鈧粙鏁嶉敓锟�

婵炲棎鍨肩换瀣▔鐎n厽绁癟wist闁靛棗锕g粭澶愬棘椤撶偛缍侀柛鏍ㄧ墱濞堟厤RISPR缂佹稒鐩埀顒€顦伴悧鍝ヤ沪閳ь剟濡寸€n剚鏆╅悗娑欏姃閸旓拷

闁告娲滅划蹇涙嚄閻愬銈撮幖鏉戠箰閸欏棝姊婚妸銉d海閻犱焦褰冮悥锟� - 婵烇絽宕崣鍡樼閸℃鎺撶鎼达綆鍎戝☉鎾亾濞戞搩浜滃畷鐔虹磼閸℃艾鍔掗悗鍦仱閻涙瑧鎷嬮幑鎰靛悁闁告帞澧楅弳鐔煎箲椤斿灝绐涢柟璨夊倻鐟㈤柛娆樺灥椤宕犻弽顑帡寮搁敓锟�

濞戞挸顑堝ù鍥Υ婵犲嫮鐭庨柤宕囧仜閸炴挳鎽傜€n剚顏ら悹鎰╁妺缁ㄧ増鎷呭⿰鍐ㄧ€婚柡瀣姈閺岀喎鈻旈弴鐘虫毄閻庢稒鍔掗崝鐔煎Υ閿燂拷

相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 急聘职位
    • 高薪职位

    知名企业招聘

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号