基于结构编码的课程式上下文学习(EnCur)在代码时间复杂度预测中的应用研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月02日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　本文创新性地提出EnCur框架，将课程学习(Curriculum Learning)理念融入大语言模型(LLM)的上下文学习(ICL)过程，通过ANTLR语法解析器提取代码结构特征，采用渐进式难度编排的示范样本，显著提升了GPT系列模型在代码时间复杂度预测任务中的表现（准确率提升3.0%，F1值提升5.2%）。该方法避免了传统微调(Fine-tuning)的过拟合问题，为算法复杂度分析提供了新范式。

亮点

• 课程式上下文学习：我们设计了类似人类学习过程的渐进式教学策略，从简单的时间复杂度案例（如O(1)）逐步过渡到复杂案例（如O(n³)），使LLMs像学生一样积累分析经验。

• ANTLR驱动的结构编码：通过语法解析器将代码转换为抽象语法树，保留循环/递归等关键结构特征，就像给模型配备了"代码X光机"，能直接观察程序骨架。

• 自我迭代反馈：模型通过SELF-REFINE机制不断修正预测，好比算法工程师反复调试代码，最终输出稳定可靠的时间复杂度标签。

方法

EnCur采用两阶段处理流程：首先用ANTLR将代码"解剖"为结构模板（如识别嵌套循环层级），随后构建包含5个难度等级的"学习课程"。如图2所示，模型先解决O(n)级别的"练习题"，通过验证后才获准挑战O(2ⁿ)等复杂案例，这种"闯关式"设计使准确率提升显著。

实验结果

在CodeComplex数据集上，EnCur使GPT-4o的F1值达到87.3%，特别是在指数复杂度O(2ⁿ)识别中表现突出。有趣的是，模型展现出类似人类的"顿悟"现象——当课程进行到第3阶段后，对递归结构的判断准确率突然提升40%。

结论

这项研究证实，结构化编码与渐进式学习的结合能让LLMs像专业程序员那样"理解"算法本质。未来可将该框架拓展至空间复杂度预测，为智能编程辅助系统开辟新路径。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号