
-
生物通官微
陪你抓住生命科技
跳动的脉搏
TISCalling:基于机器学习的植物和病毒翻译起始位点预测新框架
【字体: 大 中 小 】 时间:2025年08月02日 来源:Plant Molecular Biology 3.8
编辑推荐:
本研究针对现有计算方法在识别植物非AUG翻译起始位点(TIS)的局限性,开发了整合机器学习与序列分析的TISCalling框架。该工具通过构建跨物种预测模型,系统鉴定了5'UTR和CDS区的AUG/non-AUG TIS,揭示了保守及物种特异性序列特征,并在病毒基因组和胁迫响应基因中验证了预测准确性。研究为解码基因组翻译景观提供了独立于Ribo-seq的解决方案,相关成果发表于《Plant Molecular Biology》。
在生命科学领域,解码mRNA的翻译起始位点(TIS)是理解基因表达调控的关键环节。然而现有方法存在明显局限:传统计算工具主要依赖核糖体图谱(Ribo-seq)数据,难以系统识别植物中的非AUG起始位点;比较基因组学方法受限于序列保守性要求;而现有预测模型PreTIS仅适用于哺乳动物5'UTR区域。这些技术瓶颈导致大量潜在的小开放阅读框(sORF)和调控元件未被发现,严重制约了对基因组编码潜力的全面认识。
中国科学院植物与微生物生物学研究所的研究团队在《Plant Molecular Biology》发表创新成果,开发了TISCalling计算框架。该研究整合机器学习与统计分析方法,利用乳胞内酯素(LTM)处理的Ribo-seq数据,构建了能同时预测AUG和非AUG起始位点的跨物种模型。研究首次系统比较了拟南芥、番茄、人类和小鼠的翻译起始机制异同,发现"G"核苷酸含量和-12位"C"碱基等关键特征具有物种特异性。通过开发命令行工具和可视化平台,实现了从基础研究到应用转化的完整解决方案。
关键技术方法包括:1)收集拟南芥悬浮细胞等4物种的LTM-Ribo-seq数据构建训练集;2)提取1240个序列特征(含Kozak序列、密码子使用偏好等);3)采用逻辑回归和SVM算法构建预测模型;4)通过特征权重分析揭示调控机制;5)利用农杆菌瞬时表达系统进行体内验证。
主要研究结果体现在以下方面:
模型构建与性能验证
通过分析201-bp侧翼序列特征,构建的5'UTR-AUG模型AUROC达0.90以上。跨物种预测显示拟南芥模型对番茄TIS预测效果最佳(AUROC>0.94),证实植物间翻译起始机制的保守性。特征重要性分析发现PWM矩阵(-15至+10区域)是跨物种共有特征,而-12位"C"碱基是哺乳动物特有抑制元件。
病毒基因组应用
拟南芥CDS-AUG模型成功预测双生病毒AV2基因135/189位点(得分0.58/0.41),突变实验证实这些位点对病毒蛋白表达至关重要。人类模型对SARS-CoV-2基因组TIS预测AUROC达0.68,显示宿主模型对病毒基因组的适用性。
胁迫响应基因发现
在热激转录因子AtHSFB1的5'UTR中,除已知uORF1外,还预测到AUA/CUG新型起始位点。番茄同源基因分析发现类似调控模式,暗示植物可能通过可变翻译起始响应环境胁迫。
非编码RNA解码
在4个ncRNA中预测到高评分TIS位点(>0.8),免疫印迹证实其编码能力。整合LTM信号分析揭示这些"非编码"RNA可能通过隐蔽翻译产生功能肽段。
该研究建立的TISCalling框架具有多重科学价值:技术层面创建了首个不依赖Ribo-seq的植物TIS预测体系,通过特征权重分析首次揭示"G"含量在植物翻译起始中的正向调控作用;应用层面开发的Web工具支持可视化分析,已成功用于鉴定病毒致病相关ORF。局限性在于CDS-nonAUG模型性能有待提升(AUROC>0.57),未来可通过提高Ribo-seq深度优化。这项研究为全面解析植物和病毒基因组翻译调控网络提供了重要方法论基础,相关工具已开源共享(https://github.com/yenmr/TISCalling)。
生物通微信公众号
知名企业招聘