RIFinder揭示禾本科植物基因组中广泛存在的适应性远程渐渗现象
《Plant Communications》:RIFinder reveals widespread adaptive remote introgression in grass genomes
【字体:
大
中
小
】
时间:2025年12月09日
来源:Plant Communications 11.6
编辑推荐:
本研究开发了RIFinder工具,首次系统性地在122个禾本科植物基因组中检测到622个远程渐渗(RI)事件,揭示了RI在植物适应性进化中的重要作用。研究发现RI基因显著富集于胁迫响应通路,并鉴定到与耐旱性相关的基因簇及禾本科碱生物合成基因簇的跨亚科转移事件,为理解植物网状进化提供了新视角。
在生命演化的长河中,基因交流一直是推动生物多样性和适应性进化的重要力量。传统研究主要关注两类基因转移模式:近缘物种间的基因组渐渗(如杂交育种)和跨界的水平基因转移(HGT),例如细菌向植物的基因转移。然而,在亲缘关系较远但尚未达到跨界水平的物种之间,是否存在大规模的基因交流?这种被称为“远程渐渗”(Remote Introgression, RI)的现象,其普遍性和进化意义在植物中仍知之甚少。禾本科(Poaceae)作为地球上最重要的植物家族之一,包含了水稻、小麦、玉米等主要粮食作物,其物种间分化时间可追溯至数百万年前,为研究深层次基因交流提供了理想模型。
此前,尽管有零星报道暗示禾本科不同亚科间可能存在基因转移,例如与胁迫响应相关的基因片段从黍亚科(Panicoideae, PAN)渗入到大麦属(Hordeum)物种,但缺乏在全基因组尺度上进行系统性检测的工具,使得RI的普遍性、进化动力及其功能意义难以评估。主要挑战在于,随着物种间分化时间的增加,基于位点模式的检测方法(如D统计量)效力急剧下降,而传统的系统发育方法又难以处理大规模、复杂的系统发育关系。此外,基因树与物种树之间的不一致性可能由多种因素引起,如不完全谱系分选(ILS)、基因重复和丢失等,如何准确区分这些因素与真正的RI信号是一项重大难题。
为解决上述问题,浙江大学等单位的研究团队在《Plant Communications》上发表了题为“RIFinder reveals widespread adaptive remote introgression in grass genomes”的研究论文。该研究开发了一种名为RIFinder(Remote Introgression Finder)的新系统发育分析方法,专门用于在远缘物种间检测RI事件。利用该工具,研究人员对涵盖禾本科主要谱系的122个单倍体基因组(来自78个物种)进行了全面扫描,揭示了RI在禾本科进化史上的广泛存在,并深入探讨了RI基因的功能特征及其对植物适应性(如抗逆性)和特殊代谢产物(如禾本科碱)进化的贡献。
为开展此项研究,研究人员首先开发了RIFinder这一核心工具。该方法流程主要包括三个模块:同源基因簇的系统发育推断、RI信号检测和统计显著性检验。关键技术点包括:通过马尔可夫聚类(MCL)算法将全基因组蛋白序列聚类为同源组(HG);使用MAFFT进行多序列比对,IQ-TREE构建最大似然基因树;通过树分解算法将可能包含直系同源和旁系同源基因的大基因树拆分为更可靠的、类似直系同源群的子树(OG-like);利用改进的分支长度检验(mBLT)来区分RI和ILS;并通过拓扑结构检验(如AU检验)验证关键RI事件。研究所用的122个禾本科基因组数据来源于公共数据库(如Phytozome, NGDC, Ensemble Plants),涵盖了禾本科的BOP(包含竹亚科Bambusoideae-BAM、稻亚科Oryzoideae-ORY、早熟禾亚科Pooideae-POO)和PACMAD(包含虎尾草亚科Chloridoideae-CHL、黍亚科PAN等)两大进化枝。功能富集分析基于InterProScan和Pfam注释,表达分析利用了植物公共RNA-seq数据库(PPRD)的数据。此外,研究还结合了生态位模型分析、共表达网络分析(WGCNA)、代谢组学(LC-MS/MS)以及水稻、大麦、小麦等物种的泛基因组分析等多种技术手段。
广泛存在的RI事件 across the grass genomes
研究人员应用RIFinder对禾本科BOP和PACMAD两大进化枝之间的基因交流进行了系统性检测。结果在122个单倍体基因组中鉴定出622个候选RI事件,涉及543个不同的同源基因。这些事件在不同分化节点上均有发生,其中PACMAD到BOP的基因转移数量略多于反向转移。RI事件的分布在不同亚科间存在显著差异:在BOP谱系中,POO和ORY亚科每个单倍体基因组平均分别获得了117.7和67.3个RI基因,显著高于BAM亚科;而在PACMAD谱系中,CHL物种从BOP接受的RI基因少于PAN物种。PAN亚科贡献的转移基因数量最多(平均每个单倍体基因组约73.7个)。特别值得注意的是,BAM亚科无论是作为供体还是受体的基因数量都是最少的,这可能与其独特的生命周期(如漫长的营养生长期和单次开花特性)限制了与其他开花物种基因交流的机会有关。在POO亚科内部,小麦族(Triticeae)物种(如大麦、黑麦、小麦)含有的RI受体基因数量显著多于其姐妹群早熟禾族(Poeae)物种(如碱茅、燕麦)。分子定年分析揭示了一次约3000万年前(30 mya)的小麦族特异性RI脉冲,这与小麦族和早熟禾族的分化时间(约3570万年)相符。研究还成功回顾了多个先前报道的具有强RI信号的案例,如小麦族中参与DIMBOA生物合成的Bx基因簇从PAN的转移,以及大麦中一个来自黍属(Panicum)的胁迫响应相关DNA片段,验证了RIFinder的有效性。
RI基因的特征和功能暗示 Characteristics and functional implication of RI genes
对RI基因编码蛋白的功能分析表明,它们显著富集于胁迫响应过程,尽管富集的具体功能域在不同物种间有所差异。例如,在水稻中,与病原菌和寄生真菌防御相关的脂氧合酶(PF00305)和NB-ARC(PF00931)结构域显著富集;WD40结构域(PF00400)的富集提示RI基因可能参与发育过程和非生物胁迫响应;萜类合酶结构域(PF01397)的富集则暗示其在次级代谢物(如稻瘟菌素momilactone)生物合成中的作用。在小麦中,与叶片表面蜡质形成相关的蜡酯合酶结构域(PF03007, PF06974)显著富集,这有助于增强对生物和非生物胁迫的耐受性。PPR家族结构域(PF13041)的富集表明RI基因功能的多样性。在玉米中,与胁迫响应和光合作用相关的乌头酸酶RI基因显著富集。在苔夫(Eragrostis tef)中,也检测到NB-ARC和富含亮氨酸重复序列结构域的显著富集。这些结果表明,RI来源的基因通常编码参与信号传导和胁迫响应的蛋白,可能使受体物种能够动态调控基因表达和免疫策略。
研究人员进一步分析了水稻和小麦中RI受体基因的表达模式。在水稻的54个RI外源基因中,有40个在至少一种组织中表达(FPKM > 1)。其中,GF14a基因在所有检测的组织中均组成型表达,该基因被报道可通过抑制OsMYBS2的活性来在强光条件下防止光损伤和光抑制,并且该基因位于一个选择清除区域内,暗示其在驯化中的作用。在胁迫处理下,40个基因表现出差异表达。例如,抗褐飞虱基因Bph14在淹水处理下上调,而在褐飞虱侵染时下调。相比之下,小麦中RI基因的表达模式受到多倍体和亚基因组不对称性的影响。在191个外源基因中,有112个(58.6%)表达,分布在A、B、D三个亚基因组上,其中28个基因表现出组织特异性表达。有52个基因拷贝在任何处理下均未检测到表达,可能是由于剂量补偿或转录沉默所致。这表明与水稻相比,小麦的多倍体基因组结构为RI来源基因的调控带来了更大的复杂性。
梭梭草中一个可能与其卓越耐旱性相关的小麦族来源片段 A Triticeae-derived segment in Cleistogenes sonorica associated to drought tolerance
研究揭示了一个与适应性性状密切相关的具体案例。四倍体CHL物种梭梭草(Cleistogenes songorica, Cson)是一种重要的多年生牧草,对温带盐碱、半干旱和沙漠地区具有卓越的适应性,尤其以其极强的耐旱性著称。研究人员在Cson的A亚基因组染色体6上发现了一个约30 Kb的片段,包含5个蛋白编码基因(RIG1至RIG5),被鉴定为RI片段。系统发育分析显示,这些RI基因与虎尾草亚科(CHL)的其他物种明显不同,而是与碱茅(Achnatherum splendens, Aspl,属于POO亚科的小麦族)中的同源基因聚为一支,并且基因顺序和方向高度保守,表明这是一次单一的RI事件。该片段仅存在于Cson的A亚基因组,而在其B亚基因组和其他CHL物种中缺失,暗示其为近期谱系特异性获得。进一步的序列比对、拓扑结构检验和表达分析均支持这一结论。值得注意的是,在干旱胁迫下,RI获得的RIG2和RIG3基因显著下调,而RIG5基因上调,而其同源的非RI基因(位于B亚基因组)仅HRIG2对胁迫有响应,表明RI获得的基因簇可能经历了功能分化,为Cson的耐旱性做出了贡献。地理分布和生态位分析显示,Aspl和Cson在东亚盐碱草地存在同域分布,且二者的生态位高度重叠,而Cson与其近缘物种(如结缕草Zoysia japonica)的生态位则存在显著分化,这提示地理生态位的接近可能与跨亚科的基因流保存有关。
禾本科碱生物合成基因簇的进化轨迹 Evolutionary trajectory of gramine biosynthetic gene cluster among grass
另一个引人注目的发现涉及防御性生物碱——禾本科碱(gramine)的生物合成基因簇(GBGC)的进化。禾本科碱是一种具有广谱防御活性的吲哚生物碱。其生物合成需要两个核心基因:细胞色素P450单加氧酶基因AMIS/CYP76M57和N-甲基转移酶基因NMT,它们在基因组中物理位置相邻。系统发育分析发现,AMIS和NMT基因的进化历史存在显著的拓扑结构冲突,显示出RI信号。AMIS同源基因分为三个进化枝:一个位置保守的进化枝(Clade 1),一个稻亚科特异性进化枝(Clade 2,包含参与植物抗毒素phytocassane合成的CYP76M5-M8基因),以及一个与GBGC相关的进化枝(Clade 3)。关键的是,Clade 3中的基因(来自CHL、PAN和POO物种)形成了一个单系群,但其系统发育位置却嵌套在稻属(ORY)谱系中,这与物种树预期不符。NMT同源基因的系统发育拓扑结构也呈现出类似的RI信号。基因共线性分析显示,AMIS和NMT在多个物种中成簇存在,尽管它们被几千个碱基对隔开,支持了它们可能被共同渐渗的假说。通过整合系统发育、共线性和亚科分化时间证据,研究人员推断AMIS和NMT的成簇最早出现在BOP祖先谱系中,随后通过一次RI事件渗入到PAN和CHL的共同祖先中。在水稻中,该GBGC区域几乎只存在于粳稻(O. sativa ssp. japonica/geng)及其野生祖先O. rufipogon的Or-3群体中,并且在粳稻驯化过程中受到了人工选择。在小麦中,两个串联的AMIS同源基因在镰刀菌侵染下被强烈诱导,并与邻近的色胺5-羟化酶基因TaELL1共表达,暗示其可能参与5-羟色胺生物合成通路以增强病原抗性。然而,代谢产物检测发现,尽管大麦(阳性对照)能产生丰富的禾本科碱,但在具有GBGC的水稻和茭白(Zizania latifolia)中未能检测到禾本科碱的表达和积累。在具有GBGC的Cenchrus macrourus(PAN)中,GBGC基因在茉莉酸甲酯(MeJA)处理下有转录活性,但检测到的不是禾本科碱本身,而是几种响应胁迫的未知禾本科碱相关离子峰,提示其可能产生了功能性的禾本科碱衍生物或异构体。
本研究通过开发RIFinder这一创新工具,首次在基因组尺度上揭示了远程渐渗(RI)作为介于近缘渐渗和跨界HGT之间的一种普遍进化机制,在禾本科植物适应性进化中扮演了关键角色。研究证实了RI事件的广泛性、非随机分布及其与生态适应性(如胁迫耐受、防御化合物合成)的紧密关联。
该研究的核心结论在于:1)RI是禾本科进化中一个被低估但重要的力量,RIFinder为系统性检测此类事件提供了可靠工具;2)RI基因显著富集于胁迫响应等适应性功能,表明自然选择在固定这些外来基因中起作用;3)具体案例(如梭梭草中的耐旱相关片段和禾本科碱生物合成通路)生动展示了RI如何直接贡献于重要农艺性状的形成;4)RI的分布可能受到物种生物学特性(如生殖周期)和生态地理分布(如生态位重叠)的共同影响。
当然,该研究也存在一些局限性,例如区分古老RI与ILS仍具挑战性,当前方法对基因树分辨率的依赖可能漏掉部分RI事件。未来结合k-mer或泛基因组比对框架有望提升检测灵敏度。此外,RI发生的具体遗传机制(是祖先基因流还是远缘杂交克服生殖障碍)仍需进一步探索。尽管如此,这项研究无疑为我们理解植物基因组的复杂进化历史打开了一扇新的窗口,揭示了网状进化在塑造植物多样性中的深远影响。RIFinder工具的发布及其在禾本科中的成功应用,将为未来研究其他植物类群乃至其他真核生物中的深层次基因交流提供强大助力,对作物育种中挖掘利用远缘优异基因资源也具有重要启示意义。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号