
-
生物通官微
陪你抓住生命科技
跳动的脉搏
具有不确定性感知能力的大型语言模型对响应长度的判断
《Science China-Information Sciences》:Uncertainty-aware large language model response length perception
【字体: 大 中 小 】 时间:2025年11月06日 来源:Science China-Information Sciences 7.6
编辑推荐:
大型语言模型(LLMs)的计算需求阻碍高效部署,需通过响应长度预测优化批量处理。本文提出不确定性感知回归框架,测试四类不确定性量化方法,发现证据驱动深度学习(EDL)效果最佳,使推理时间较随机分批和现有方法分别降低38.14%和20.50%。
大型语言模型(LLMs)的最新进展彻底改变了人工智能领域,然而它们对计算资源的高需求给高效部署带来了重大挑战。其中一个主要问题是如何高效处理多样化的查询响应,这促使人们需要预测响应长度并优化批量处理流程。在本文中,我们深入分析了LLM响应长度预测任务所面临的挑战,并提出了一种新的框架,将该问题视为一个具有不确定性意识的回归问题。我们对四种不确定性量化方法进行了基准测试,包括频率主义和贝叶斯方法,发现基于证据的学习(EDL)是解决这一任务最有效和最高效的方法。此外,我们的案例研究表明,与随机批量处理和现有最先进方法相比,我们的方法平均可将推理时间分别减少38.14%和20.50%,这展示了具有不确定性意识的响应长度预测在优化LLM推理方面的潜力。
大型语言模型(LLMs)的最新进展彻底改变了人工智能领域,然而它们对计算资源的高需求给高效部署带来了重大挑战。其中一个主要问题是如何高效处理多样化的查询响应,这促使人们需要预测响应长度并优化批量处理流程。在本文中,我们深入分析了LLM响应长度预测任务所面临的挑战,并提出了一种新的框架,将该问题视为一个具有不确定性意识的回归问题。我们对四种不确定性量化方法进行了基准测试,包括频率主义和贝叶斯方法,发现基于证据的学习(EDL)是解决这一任务最有效和最高效的方法。此外,我们的案例研究表明,与随机批量处理和现有最先进方法相比,我们的方法平均可将推理时间分别减少38.14%和20.50%,这展示了具有不确定性意识的响应长度预测在优化LLM推理方面的潜力。
生物通微信公众号
知名企业招聘