基于大语言模型与强化学习微调的建筑工程合同智能问答系统研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月04日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　这篇研究论文创新性地将监督微调(SFT)与强化学习(RL)相结合，针对建筑工程合同领域开发了低成本、高隐私性的智能问答(QA)模型。通过构建基于FIDIC标准合同的高质量数据集，验证了小参数开源模型经领域适配后性能可比肩通用大语言模型(LLMs)，为建筑企业提供了可私有化部署的合同管理解决方案。

Highlight

本研究采用强化学习人类偏好(RLHF)范式，为建筑工程合同领域定制知识型问答模型。完整训练流程包含三个阶段：监督微调(SFT)、奖励模型(RM)训练和近端策略优化(PPO)强化学习。

Method

• 基础模型：采用开源基础语言模型DeepSeek-R1-Distill-Qwen-14B作为初始架构

• SFT数据集与模型：基于低秩适配(LoRA)技术构建5000组指令调优QA对，显著降低内存占用并提升训练效率

• 强化学习优化：通过人类偏好对齐使模型输出更符合工程场景需求

Dataset

以FIDIC"黄皮书"标准合同条款为核心，融合条款功能属性与专家解释文本，构建具有严格语义一致性的高质量QA数据集，为模型提供精准的领域知识注入。

SFT Training

训练中设置LoRA秩为16，批量大小32，采用余弦学习率调度器。验证集结果显示模型在合同术语理解、条款关联推理等维度表现优异，验证了小模型在专业领域的适配潜力。

Main Contribution

建立从数据准备到模型优化的完整技术路径，证明：

1.
经适当设计的SFT+RL方案可使小模型达到LLMs级性能
2.
提出的数据构建框架可迁移至其他专业领域
3.
模型在风险识别、争议解决等实际场景展现强大应用价值

Conclusion

该研究为建筑企业提供了安全可控的合同智能化解决方案，其技术路径对法律、医疗等需要严格语义规范的领域具有重要借鉴意义。未来将探索多模态合同理解等延伸方向。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号