
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于机器学习的高性能计算资源使用预测:一种可靠协议的探索与实践
【字体: 大 中 小 】 时间:2025年08月10日 来源:Future Generation Computer Systems 6.2
编辑推荐:
为解决高性能计算(HPC)系统中资源分配效率低下的问题,研究人员开发了一套基于机器学习(ML)的资源使用预测协议,通过决策树集成模型(如Extra Trees)对RAxML生物信息学应用的CPU时间、内存和能耗等指标进行预测,在真实超算环境中实现了R2>0.9的预测精度,为HPC系统的智能化资源管理提供了方法论支撑。
在当今计算密集型科研领域,高性能计算(HPC)系统如同数字时代的"动力引擎",但其资源管理却面临巨大挑战——用户常像"盲人摸象"般猜测应用所需的CPU、内存和能耗,导致要么资源闲置浪费,要么任务因不足而中断。这种低效状态在生物信息学领域尤为突出,例如构建进化树的RAxML(Randomized Axelerated Maximum Likelihood)工具,其资源需求会随基因组数据规模呈指数级增长。
针对这一痛点,国家科学计算实验室(National Laboratory of Scientific Computing)的研究团队开展了一项创新研究。他们开发了一套从数据采集到模型评估的完整协议,通过机器学习来预测HPC应用的资源消耗模式。这项发表在《Future Generation Computer Systems》的工作,首次系统性地将决策树集成模型应用于超算资源预测的全流程优化。
研究采用三大关键技术:(1) 在SDumont超算系统上采集RAxML运行的11维资源指标;(2) 设计三层嵌套评估框架(随机采样→k折交叉验证→超参数优化);(3) 对比测试决策树(DT)、随机森林(RF)、极端随机树(ET)和梯度提升树(GBT)四种算法。特别引入TPOT工具进行自动化超参数搜索,通过遗传算法优化模型配置。
【生成数据集】
团队执行了6,198次RAxML实验,涵盖21种登革热病毒基因组(9-195个序列规模),系统记录不同节点数(1/5/10)、线程数(2-24)和bootstrap值(10-2000)组合下的资源消耗。创新性地采用SLURM作业管理器的sacct命令采集指标,并过滤了1.62%的异常能耗数据。
【评估协议设计】
提出的三层评估架构犹如"俄罗斯套娃":外层随机选取各参数组合的单一执行记录;中层进行3/10折交叉验证;内层用TPOT优化模型。为避免数据泄露,确保训练/测试集来自不同执行批次,这种设计显著提升了评估的可靠性。
【实验结果】
极端随机树(ET)在内存预测(AveVMSize/MaxRSS)和3折验证中表现最优,平均R2达0.95
梯度提升树(GBT)对耗时(Elapsed)和能耗(ConsumedEnergy)预测最精准,在10折验证中R2超0.93
时序测试显示,训练数据达初始4倍量后,模型性能进入"平台期"(R2>0.95)
单决策树(DT)在所有场景中表现最差,证实集成学习的必要性
【结论与展望】
这项研究不仅验证了机器学习预测HPC资源使用的可行性,更构建了标准化评估框架。ET和GBT模型对不同类型的资源指标各具优势:ET擅长内存预测,因其随机分割策略能更好捕捉内存使用模式;GBT则因序列化纠错机制,在时序和能耗预测中表现突出。
该协议的创新性体现在三方面:(1) 系统性解决从数据采集到模型评估的全链条问题;(2) 首次在资源预测中引入时间序列验证;(3) 发现不同资源指标需要差异化建模策略。未来可扩展至更多生物信息学工具(如BLAST),并探索在线学习机制以适应超算硬件更新带来的数据分布变化。这项成果为构建"自感知"的智能超算系统迈出了关键一步,对实现绿色计算具有重要意义。
生物通微信公众号
知名企业招聘