《BMC Bioinformatics》:DeepMethyGene: a deep-learning model to predict gene expression using DNA methylations
编辑推荐:
为解决 DNA 甲基化与基因表达关系研究中存在的问题,研究人员开展了利用深度学习构建 DeepMethyGene 模型预测基因表达的研究。结果显示,该模型预测性能优异,优于 geneEXPLORE 模型。这为疾病进展预测和临床干预提供了理论支持。
在生命的微观世界里,基因表达就像一场精密的交响乐,指挥着细胞发挥各种神奇功能,对生物体的生长、发育和功能调节至关重要。一旦这场 “交响乐” 出现异常,许多疾病就可能随之而来,比如癌症。而 DNA 甲基化作为一种关键的表观遗传机制,如同一位幕后调音师,通过在 DNA 胞嘧啶上添加甲基化基团,来调节基因表达的 “音量”。
深入探究 DNA 甲基化对基因表达的影响,不仅有助于揭示基因调控的复杂奥秘,还能为疾病治疗开辟新的道路。然而,目前在这个领域的研究中,存在不少问题。一方面,现有的研究在分析甲基化对基因表达的影响时,大多局限于启动子区域,忽略了远端基因组区域的甲基化情况;另一方面,已有的预测模型,如 geneEXPLORE,预测准确性有待提高,且其静态架构难以适应复杂多变的生物数据。
为了攻克这些难题,中国科学院上海营养与健康研究所的研究人员展开了深入研究。他们构建了一个名为 DeepMethyGene 的自适应递归卷积神经网络模型,利用 DNA 甲基化信息来预测基因表达。这项研究成果发表在《BMC Bioinformatics》上,为该领域带来了新的突破。
研究人员在开展研究时,主要运用了以下关键技术方法:
数据来源 :使用来自癌症基因组图谱 (TCGA) 的多种癌症类型的 DNA 甲基化 (450K 阵列) 和 RNA 测序数据,包括乳腺癌 (BRCA)、结肠癌 (COAD)、胶质母细胞瘤 (GBM) 和肺腺癌 (LUAD),其中 BRCA 数据集作为主要训练集。
数据预处理 :对甲基化数据进行过滤、缺失值插补,并将 β 值转换为 M 值;对基因表达数据根据表达水平和启动子区域探针信息进行过滤。
模型构建 :DeepMethyGene 模型基于 ResNet 构建,采用自适应回归卷积神经网络架构,包含卷积层、残差块和全连接层,使用 Adam 优化器和均方误差损失函数 (MSELoss),通过五折交叉验证进行评估。
研究结果如下:
DeepMethyGene 准确预测基因表达 :通过五折交叉验证评估多个计算模型,DeepMethyGene 展现出最高的预测性能,其平均 R2 值达到 0.640,显著高于 geneEXPLORE (0.449)、支持向量机 (SVM,0.327) 和随机森林 (0.374)。去除卷积层的 DeepMethyGene 变体 (NoConvLayer) 性能大幅下降,证明卷积层对提升模型性能至关重要。在不同数据集上,DeepMethyGene 均表现出良好的预测性能,在 BRCA、COAD、GBM 和 LUAD 数据集上的 R2 值分别为 0.640、0.668、0.696 和 0.640,反映出其强大的泛化性和稳健性。
预测性能受甲基化位点数量影响 :研究发现,基因位点 1Mb 半径内的甲基化位点密度与预测准确性相关。DeepMethyGene 在甲基化位点数量相对较低的区域表现更优,但随着甲基化位点数量增加,其相对 geneEXPLORE 的优势逐渐减弱,表明密集的甲基化模式可能影响 DeepMethyGene 的预测准确性。
预测性能与甲基化位点和基因的距离有关 :预测准确性与甲基化位点到转录起始位点 (TSS) 的距离密切相关。当甲基化位点更靠近 TSS 时,DeepMethyGene 的预测准确性 (R2 ) 优于 geneEXPLORE,这表明 TSS 周围甲基化位点的分布显著影响模型性能,DeepMethyGene 在捕捉近端调控模式方面具有优势。
研究结论和讨论部分表明,DeepMethyGene 模型在预测基因表达方面具有显著优势。它能够根据不同的输入维度动态调整通道数量,有效从复杂的甲基化图谱中提取特征,提高了预测准确性和计算效率。同时,该模型基于 ResNet 构建,能更好地处理甲基化数据和基因表达之间的复杂关系。此外,研究还发现甲基化位点的数量和位置对模型预测性能有重要影响,这为后续算法的优化和改进提供了重要依据。
这项研究为理解疾病的分子机制和开发有效的治疗策略奠定了基础。未来,研究人员可以进一步拓展该模型在更广泛时间序列分析任务中的应用,优化网络结构,以提高预测准确性和泛化能力,有望为疾病的预防、早期诊断和治疗带来新的思路和方法。
閹垫捁绁�
娑撳娴囩€瑰宓庢导锔炬暩鐎涙劒鍔熼妴濠団偓姘崇箖缂佸棜鍎禒锝堥樋閹活厾銇氶弬鎵畱閼筋垳澧块棃鍓佸仯閵嗗甯扮槐銏狀洤娴f洟鈧俺绻冩禒锝堥樋閸掑棙鐎芥穱鍐箻閹劎娈戦懡顖滃⒖閸欐垹骞囬惍鏃傗敀
10x Genomics閺傛澘鎼isium HD 瀵偓閸氼垰宕熺紒鍡氬劒閸掑棜椴搁悳鍥╂畱閸忋劏娴嗚ぐ鏇犵矋缁屾椽妫块崚鍡樼€介敍锟�
濞嗐垼绻嬫稉瀣祰Twist閵嗗﹣绗夐弬顓炲綁閸栨牜娈慍RISPR缁涙盯鈧鐗哥仦鈧妴瀣暩鐎涙劒鍔�
閸楁洜绮忛懗鐐寸ゴ鎼村繐鍙嗛梻銊ャ亣鐠佹彃鐖� - 濞e崬鍙嗘禍鍡毿掓禒搴n儑娑撯偓娑擃亜宕熺紒鍡氬劒鐎圭偤鐛欑拋鎹愵吀閸掔増鏆熼幑顔垮窛閹貉傜瑢閸欘垵顫嬮崠鏍掗弸锟�
娑撳娴囬妴濠勭矎閼崇偛鍞撮摂瀣鐠愩劋绨版担婊冨瀻閺嬫劖鏌熷▔鏇犳暩鐎涙劒鍔熼妴锟�