编辑推荐:
为解决植物 CHH 甲基化检测中高甲基化阳性样本稀缺、跨物种通用性差及 R10.4 平台软件适配问题,研究人员开展基于深度学习的植物 5 - 甲基胞嘧啶(5mC)检测研究。结果显示 DeepPlant 显著提升 CHH 检测准确性,在多物种表现优异。该研究为植物表观遗传学研究提供有力工具。
在植物的微观世界里,DNA 甲基化,尤其是
5 - 甲基胞嘧啶(5mC),如同一位神秘的幕后调控者,掌控着众多关键的生命进程。它能调节基因表达,决定哪些基因开启或关闭;让调皮的转座子安静下来,维持基因组的稳定。与动物不同,植物的 5mC 存在于 CpG、CHG 和 CHH 三种序列环境中,其中 CHH 甲基化虽含量少,但在沉默转座子、保障植物发育和应对压力时发挥着不可或缺的作用。
以往,Bisulfite 测序(BS-seq)是检测 5mC 的常用方法,可它就像一个带着枷锁的舞者,受限于短读测序技术,在复杂重复的基因组区域,如着丝粒和转座子区域,难以准确施展拳脚,还会引入偏差,影响检测精度,特别是对 CHH 基序的检测。随着科技发展,牛津纳米孔测序(ONT)技术崭露头角,它能直接利用纳米孔测序信号,在天然长读长上检测 DNA 修饰,为研究带来新希望。此前开发的 DeepSignal-Plant 深度学习工具,虽在全基因组 5mC 检测上取得一定成果,但 ONT 新推出的 R10.4 FlowCell 在碱基识别上有了显著提升,可与之适配的软件却滞后了。已有的为 R9.4 平台开发的甲基化检测工具,如 Tombo、Megalodon 和 DeepSignal-Plant 都无法直接应用于 R10.4 FlowCell。而 ONT 为 Dorado 软件引入的新 5mC 检测模型,在检测植物中高甲基化水平的 CpG 和 CHG 时表现尚可,可面对 CHH 甲基化检测却力不从心,主要原因是训练用的阳性 CHH 样本有限。
为了突破这些困境,中山眼科中心、中山大学人工智能学院、上海第二工业大学等多机构的研究人员携手开展研究。他们深入挖掘公开的 BS-seq 数据集,筛选出富含高甲基化 CHH 位点的植物物种,像丹参(Salvia miltiorrhiza)、马铃薯(Solanum tuberosum)和蓖麻(Ricinus communis)等,并对这些物种进行测序,大大增加了 CHH 阳性样本数量,构建了涵盖 97.2% 以 CHH 基序为中心的 9 聚体上下文的综合训练数据集。同时,研究人员开发了 DeepPlant 这一深度学习工具。
研究人员运用了多种关键技术方法。首先,从多种植物材料中提取 DNA,包括丹参的根、马铃薯的块茎、蓖麻的胚胎等,利用牛津纳米孔技术 ONT PromethION R10.4.1 平台进行测序,并使用 ONT 官方碱基识别器 Dorado 进行碱基识别和 5mC 修饰的检测。同时,对相同的基因组 DNA 进行 BS-seq,作为评估的参考标准。此外,通过筛选高置信度的位点用于模型训练,从不同物种的全基因组 BS-seq 分析中挑选符合特定甲基化频率标准的 CHH、CHG 和 CpG 位点。最后,基于这些数据构建并训练 DeepPlant 模型。
研究结果
- 样本选择:研究人员分析了 10 种植物的 BS-seq 数据,挑选出高甲基化 CHH 位点比例高或 k-mer 上下文多样性大的样本,如马铃薯块茎、丹参根等。收集 7 种物种的组织样本进行 BS-seq,经分析后选择丹参、马铃薯和蓖麻的数据集进行模型训练,其组合数据集覆盖了 97.2% 的 9 聚体上下文。另外选取 6 种不同 CHH 甲基化水平的物种用于测试,为模型训练和评估提供了广泛且具代表性的基础。
- 模型架构与训练:DeepPlant 采用三重编码器架构,结合 Bi-LSTM 和 Transformer 两种神经网络架构。通过对不同 k-mer 长度样本的训练测试发现,9 聚体样本训练的模型性能优于 Dorado,51 聚体模型虽准确率高但存在过拟合,最终确定 13 聚体 Bi-LSTM 模型为最优。同时,研究人员还训练了 CHG 和 CpG 检测模型。
- 5mC 甲基化频率定量评估:在 6 个测试数据集上,测序深度为 30× 时,DeepPlant 与 BS-seq 的皮尔逊相关性(r)达到 0.705 - 0.838。对于 CHH 甲基化含量较高的物种,相关性超 0.80。与 Dorado 相比,DeepPlant 相关性更高,测序深度增加时,DeepPlant 相关性稳步提升,而 Dorado 在多数情况下下降。在 CHG 和 CpG 模型评估中,DeepPlant 也表现出色。
- 单分子甲基化检测性能:在单分子甲基化检测方面,DeepPlant 在训练和测试数据集上均优于 Dorado。在平衡的完全甲基化和未甲基化样本数据集上,DeepPlant 的 F1 得分更高,假阳性率(FPRs)低于 6% ,而 Dorado 在部分物种上 FPRs 较高。通过 ROC 和 PR 曲线分析进一步证实了 DeepPlant 在单分子水平的优势。
- 水稻着丝粒和转座子区域 CHH 甲基化分析:利用 DeepPlant 对水稻(Oryza sativa)的着丝粒区域进行分析,发现其能几乎完全描绘染色体 4、5、8 和 12 的着丝粒区域,在着丝粒和非着丝粒区域的 CHH 位点覆盖度均优于 BS-seq。在分析水稻着丝粒转座子时,发现不同类型转座子的 CHH 甲基化水平存在差异,且部分转座子有链偏向性。
研究表明,DeepPlant 能精准检测植物基因组中所有序列环境下的 5mC 修饰,尤其是 CHH 甲基化。它解决了现有方法的局限性,提升了对植物表观基因组的分析能力,能深入研究复杂重复基因组区域的甲基化模式。不过,DeepPlant 也存在一些不足,如计算效率不如 Dorado,高甲基化 CHH 样本稀缺问题仍未完全解决,还可能存在过拟合风险。未来可探索人工富集 CHH 甲基化样本的方法,整合其他数据以更全面地理解表观遗传调控。总体而言,DeepPlant 为植物表观遗传学研究提供了强大工具,有助于深入探索植物复杂的表观遗传景观,推动植物基因组调控、稳定性和适应性等方面的研究,为植物生物学和农业科学发展做出重要贡献。
濞戞挸顑堝ù鍥┾偓鐟邦槹瀹撳孩瀵奸敂鐐毄閻庢稒鍔掗崝鐔煎Υ婵犲洠鍋撳宕囩畺缂備礁妫滈崕顏呯閿濆牓妯嬮柟娲诲幘閵囨岸寮幍顔界暠闁肩瓔鍨虫晶鍧楁閸撲礁浠柕鍡楊儐鐢壆妲愰姀鐙€娲ゅù锝嗘礋閳ь剚淇虹换鍐╃閿濆牓妯嬮柛鎺戞閻庤姤绌遍崘顓犵闁诡喓鍔庡▓鎴︽嚒椤栨粌鈷栭柛娆愬灩楠炲洭鎯嶉弮鍌楁晙
10x Genomics闁哄倹婢橀幖顪渋sium HD 鐎殿喒鍋撻柛姘煎灠瀹曠喓绱掗崱姘姃闁告帒妫滄ご鎼佹偝閸モ晜鐣遍柛蹇嬪姀濞村棜銇愰弴鐘电煁缂佸本妞藉Λ鍧楀礆閸℃ḿ鈧粙鏁嶉敓锟�
婵炲棎鍨肩换瀣▔鐎n厽绁癟wist闁靛棗锕g粭澶愬棘椤撶偛缍侀柛鏍ㄧ墱濞堟厤RISPR缂佹稒鐩埀顒€顦伴悧鍝ヤ沪閳ь剟濡寸€n剚鏆╅悗娑欏姃閸旓拷
闁告娲滅划蹇涙嚄閻愬銈撮幖鏉戠箰閸欏棝姊婚妸銉d海閻犱焦褰冮悥锟� - 婵烇絽宕崣鍡樼閸℃鎺撶鎼达綆鍎戝☉鎾亾濞戞搩浜滃畷鐔虹磼閸℃艾鍔掗悗鍦仱閻涙瑧鎷嬮幑鎰靛悁闁告帞澧楅弳鐔煎箲椤斿灝绐涢柟璨夊倻鐟㈤柛娆樺灥椤宕犻弽顑帡寮搁敓锟�
濞戞挸顑堝ù鍥Υ婵犲嫮鐭庨柤宕囧仜閸炴挳鎽傜€n剚顏ら悹鎰╁妺缁ㄧ増鎷呭⿰鍐ㄧ€婚柡瀣姈閺岀喎鈻旈弴鐘虫毄閻庢稒鍔掗崝鐔煎Υ閿燂拷