利用加性遗传模型和事后随机森林分析,对荷斯坦奶牛在3个泌乳周期内的繁殖性状进行了基因组评估
《Journal of Dairy Science》:Genomic assessment of reproduction traits in Holstein dairy cattle across 3 lactations using additive genetic models and post hoc random forest analysis
【字体:
大
中
小
】
时间:2025年12月05日
来源:Journal of Dairy Science 4.4
编辑推荐:
本研究利用基因组关联分析(GWAS)和随机森林(RF)方法,分析了超过7400头德国荷斯坦奶牛在三个泌乳期中的繁殖性能数据,发现遗传方差较低(h2范围0.016-0.128),但通过多方法结合鉴定出多个与繁殖障碍相关的基因组区域和候选基因,揭示了非加性遗传效应的重要性。
本研究聚焦于德国荷斯坦奶牛繁殖性能的多 lactation 分析,旨在通过基因组关联分析(GWAS)和随机森林(RF)方法揭示非加性遗传效应在繁殖性状中的潜在作用。研究整合了超过7400头奶牛在三个 lactation 中的连续繁殖数据,包括母胎死(SBm)、子宫内膜炎(MET)、胎盘滞留(NGV)和卵巢周期紊乱(ZYS)等12项观测指标。通过混合线性模型(MLMA)和机器学习算法(RF)的互补分析,首次系统性地探索了繁殖性状中加性遗传方差与非加性遗传方差的交互作用。
### 研究背景与问题提出
传统基因组学分析主要关注加性遗传方差,但繁殖性状如母胎死、卵巢周期紊乱等常涉及多因素交互作用。已有研究表明,非加性遗传效应(如显性效应、表观效应和互作效应)在繁殖性状中贡献显著,例如母胎死中显性效应占比达23%,但现有研究多局限于单一性状或小样本分析。本研究创新性地采用GWAS与随机森林的联合分析方法,旨在识别基因组中可能存在的非加性遗传效应区域,并验证其与已知生理通路的关系。
### 研究方法
#### 数据预处理
采用德国VIT数据库的完整繁殖记录,通过多维度筛选排除异常个体。最终纳入7413头奶牛,要求同时满足:①完整三个 lactation 的繁殖记录;②未发生农场迁移(避免管理因素干扰);③个体健康状态无重大异常。数据清洗后得到12个性状- lactation 组合,涵盖从首次产犊到第三 lactation 的关键繁殖阶段。
#### 基因组关联分析(GWAS)
采用GCTA平台进行单SNP回归分析,设置双阈值过滤:
1. **基因组级显著(GW)**:Bonferroni校正后 p<1.11×10??
2. **染色体级显著(CW)**:p<2.27×10??(按每染色体SNP数量调整)
通过计算基因组通胀因子(λ)验证模型可靠性,结果显示除MET_ln2(λ=1.016)外,其余组合均接近1(0.979-1.015),表明群体结构均衡。共识别35个显著SNP位点,其中9个达到基因组显著水平,形成覆盖6条染色体(BTA6、11、14、16、21、25)和X染色体的关联图谱。
#### 随机森林扩展分析
基于GWAS结果,对每个显著染色体区域构建3次独立随机森林模型,关键参数设置:
- **样本量**:采用两倍少数类样本(case-control balance)
- **特征选择**:测试sqrt(P)、P/3、0.1P等7种mtry值
- **迭代优化**:ntree从100递增至30000,直至OOB误差率收敛
最终确定最优参数组合(ntree=50,000,mtry=sqrt(P)),实现模型间Pearson相关系数达0.854-0.973,显著高于随机森林方法在动物科学领域的常规表现(平均r=0.72)。
### 关键发现
#### 1. 遗传方差特征
- **低遗传方差**:所有性状的h2值均低于0.13(MET_ln1最高),与既有研究一致(Heringstad, 2010)
- ** lactation 差异显著**:ZYS发病率随 lactation 增加从11.51%升至18.70%,而SBm发病率则从6.80%降至2.58%
- **特殊案例**:SBm_ln2未达显著(p=0.5),可能因样本量过小(仅178头)或性状本身遗传方差极低(h2=0.000±0.007)
#### 2. GWAS主要发现
- **BTA21成为核心区域**:共识别12个显著SNP(其中3个达基因组显著),覆盖从第30Mb到第40Mb的遗传区域
- **X染色体富集信号**:BTAX上的6个显著SNP形成连续区间(105-115Mb),包含GRIA3等已知繁殖相关基因
- **多性状共线性**:ZYS在三个 lactation 中均存在BTA21和BTAX的显著信号,但MET主要分布在BTA7、16等染色体
#### 3. 随机森林的补充发现
- **额外SNP识别**:RF筛选出18-31个高重要性SNP(前2%),其中:
- BTA21区域新增SCAMP2(P=2.95E-5)和PTPN9(P=3.85E-6)
- BTAX新增ARL13A(P=1.52E-9)和IL1RAPL2(P=5.26E-5)
- **区域聚类特征**:BTA21在30-40Mb区间形成连续重要性分布,与已知卵母细胞成熟相关基因(如SCAMP5)位置高度吻合
- **跨 lactation 共享SNP**:BTA21和BTAX共有2个SNP(rs29020729和rs29019929)在ln1-ln3中均达显著
### 生物学意义解析
#### 基因组区域功能注释
1. **BTA6-KLHL8**:已知在卵母细胞成熟中起作用(Koh et al., 2018),本研究发现其与SBm_ln1显著相关(P=2.13E-5)
2. **BTA11-PRKD3**:参与乳腺发育(Pausch et al., 2016),本研究显示其在ZYS_ln3中达染色体显著水平
3. **BTA21区域**:
- **30-35Mb**:SCAMP2(分泌颗粒膜蛋白2)与胚胎发育异常相关(Wu et al., 2020)
- **35-40Mb**:PTPN9(蛋白酪氨酸磷酸酶)调控激素信号传导(Liu et al., 2021)
4. **BTAX**:
- **GRIA3**:与母牛受胎率相关(Cole et al., 2011)
- **ARL13A**:调控纤毛信号通路(Song et al., 2018),人类突变与生殖障碍相关(Sironen et al., 2020)
#### 非加性效应机制推测
- **显性效应主导**:ZYS在BTAX上的SNP(rs29010851)具有方向性显性特征,其效应值较加性模型高2.3倍
- **表观互作网络**:BTA21的SCAMP2与BTAX的GRIA3形成跨染色体调控模块,与卵巢周期紊乱的表观遗传特征吻合
- **多因素叠加效应**:MET_ln1的BTA21区域同时存在加性(h2=0.128)和显性效应(RF重要性值+0.47)
### 方法学创新与局限
#### 创新点:
1. **双阶段筛选策略**:先通过GWAS缩小范围(35个SNP→23个染色体区域),再通过RF进行深度挖掘,较传统单方法提高发现效率达40%
2. **动态阈值调整**:针对不同lactation的发病率差异,采用滑动窗口法(window size=10,000bp)进行区域重要性加权
3. **抗干扰设计**:通过农场效应校正(PC校正)和样本量平衡(stratified sampling)降低环境噪声影响
#### 局限性:
1. **样本代表性**:研究群体局限于德国荷斯坦牛,需验证其他品种的泛化性
2. **SNP密度限制**:现有50K芯片分辨率不足以捕捉小效应SNP,未来需升级至100K芯片
3. **表观遗传信息缺失**:未纳入甲基化等表观标记,可能低估复杂性状的遗传贡献
### 理论贡献与实践价值
#### 理论突破:
1. **非加性遗传方差可视化**:首次绘制繁殖性状的显性效应热图(见图3),显示BTA21在35-40Mb区间存在连续显性效应(平均效应值+0.23)
2. **机器学习与经典模型的互补性**:RF在BTA21区域发现的18个SNP中,有12个与GWAS结果重叠,但新增的SCAMP2等基因在功能注释中显示更明确的生物学关联
3. **时间动态效应建模**:通过lactation分层分析,揭示ZYS的遗传效应存在时间依赖性(ln3期效应值较ln1期高1.8倍)
#### 应用前景:
1. **分子设计育种**:在BTA21和BTAX区域优先选择SNP组合(如BTA21-SCAMP2-BTAX-GRIA3),可提高繁殖性状选择精准度
2. **管理策略优化**:针对高遗传效应区域(如BTAX 105-115Mb)设计环境干预措施,可能将ZYS发病率降低15-20%
3. **技术平台升级**:建议整合RNA-seq和表观组数据,构建三维基因组模型(3D-GWAS)以捕捉非加性效应
### 未来研究方向
1. **多组学整合**:将GWAS结果与转录组(RNA-seq)和蛋白质组数据关联,构建"SNP-基因-通路"三级网络
2. **全基因组关联设计**(GWAS-CAD):针对重复出现的SNP区域(如BTA21在ln1-ln3共现12个SNP),设计全基因组关联设计(QTL-by-QTL)
3. **动态效应建模**:开发基于时间序列的机器学习模型(如LSTM-GWAS),捕捉性状遗传效应的发育动态
本研究为繁殖性状的遗传解析提供了新范式,其核心价值在于:
1. 首次系统揭示加性/非加性遗传效应在繁殖性状中的时空分布特征
2. 建立"GWAS筛选→RF深化→功能基因验证"的完整分析链条
3. 提出基于区域聚类的多性状遗传调控网络模型
这些发现不仅完善了繁殖性状的遗传基础理论,更为精准的分子设计育种提供了关键靶点,对降低 dairy cattle 繁殖损失(当前全球年均损失达8.7%)具有重要实践意义。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号