具有不确定性感知能力的大型语言模型对响应长度的判断

《Science China-Information Sciences》:Uncertainty-aware large language model response length perception

【字体: 时间:2025年11月06日 来源:Science China-Information Sciences 7.6

编辑推荐:

  大型语言模型(LLMs)的计算需求阻碍高效部署,需通过响应长度预测优化批量处理。本文提出不确定性感知回归框架,测试四类不确定性量化方法,发现证据驱动深度学习(EDL)效果最佳,使推理时间较随机分批和现有方法分别降低38.14%和20.50%。

  

摘要

大型语言模型(LLMs)的最新进展彻底改变了人工智能领域,然而它们对计算资源的高需求给高效部署带来了重大挑战。其中一个主要问题是如何高效处理多样化的查询响应,这促使人们需要预测响应长度并优化批量处理流程。在本文中,我们深入分析了LLM响应长度预测任务所面临的挑战,并提出了一种新的框架,将该问题视为一个具有不确定性意识的回归问题。我们对四种不确定性量化方法进行了基准测试,包括频率主义和贝叶斯方法,发现基于证据的学习(EDL)是解决这一任务最有效和最高效的方法。此外,我们的案例研究表明,与随机批量处理和现有最先进方法相比,我们的方法平均可将推理时间分别减少38.14%和20.50%,这展示了具有不确定性意识的响应长度预测在优化LLM推理方面的潜力。

大型语言模型(LLMs)的最新进展彻底改变了人工智能领域,然而它们对计算资源的高需求给高效部署带来了重大挑战。其中一个主要问题是如何高效处理多样化的查询响应,这促使人们需要预测响应长度并优化批量处理流程。在本文中,我们深入分析了LLM响应长度预测任务所面临的挑战,并提出了一种新的框架,将该问题视为一个具有不确定性意识的回归问题。我们对四种不确定性量化方法进行了基准测试,包括频率主义和贝叶斯方法,发现基于证据的学习(EDL)是解决这一任务最有效和最高效的方法。此外,我们的案例研究表明,与随机批量处理和现有最先进方法相比,我们的方法平均可将推理时间分别减少38.14%和20.50%,这展示了具有不确定性意识的响应长度预测在优化LLM推理方面的潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号