基于大语言模型与强化学习微调的建筑工程合同智能问答系统研究

【字体: 时间:2025年09月04日 来源:Expert Systems with Applications 7.5

编辑推荐:

  这篇研究论文创新性地将监督微调(SFT)与强化学习(RL)相结合,针对建筑工程合同领域开发了低成本、高隐私性的智能问答(QA)模型。通过构建基于FIDIC标准合同的高质量数据集,验证了小参数开源模型经领域适配后性能可比肩通用大语言模型(LLMs),为建筑企业提供了可私有化部署的合同管理解决方案。

  

Highlight

本研究采用强化学习人类偏好(RLHF)范式,为建筑工程合同领域定制知识型问答模型。完整训练流程包含三个阶段:监督微调(SFT)、奖励模型(RM)训练和近端策略优化(PPO)强化学习。

Method

基础模型:采用开源基础语言模型DeepSeek-R1-Distill-Qwen-14B作为初始架构

SFT数据集与模型:基于低秩适配(LoRA)技术构建5000组指令调优QA对,显著降低内存占用并提升训练效率

强化学习优化:通过人类偏好对齐使模型输出更符合工程场景需求

Dataset

以FIDIC"黄皮书"标准合同条款为核心,融合条款功能属性与专家解释文本,构建具有严格语义一致性的高质量QA数据集,为模型提供精准的领域知识注入。

SFT Training

训练中设置LoRA秩为16,批量大小32,采用余弦学习率调度器。验证集结果显示模型在合同术语理解、条款关联推理等维度表现优异,验证了小模型在专业领域的适配潜力。

Main Contribution

建立从数据准备到模型优化的完整技术路径,证明:

  1. 1.

    经适当设计的SFT+RL方案可使小模型达到LLMs级性能

  2. 2.

    提出的数据构建框架可迁移至其他专业领域

  3. 3.

    模型在风险识别、争议解决等实际场景展现强大应用价值

Conclusion

该研究为建筑企业提供了安全可控的合同智能化解决方案,其技术路径对法律、医疗等需要严格语义规范的领域具有重要借鉴意义。未来将探索多模态合同理解等延伸方向。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号