
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于大语言模型与强化学习微调的建筑工程合同智能问答系统研究
【字体: 大 中 小 】 时间:2025年09月04日 来源:Expert Systems with Applications 7.5
编辑推荐:
这篇研究论文创新性地将监督微调(SFT)与强化学习(RL)相结合,针对建筑工程合同领域开发了低成本、高隐私性的智能问答(QA)模型。通过构建基于FIDIC标准合同的高质量数据集,验证了小参数开源模型经领域适配后性能可比肩通用大语言模型(LLMs),为建筑企业提供了可私有化部署的合同管理解决方案。
Highlight
本研究采用强化学习人类偏好(RLHF)范式,为建筑工程合同领域定制知识型问答模型。完整训练流程包含三个阶段:监督微调(SFT)、奖励模型(RM)训练和近端策略优化(PPO)强化学习。
Method
• 基础模型:采用开源基础语言模型DeepSeek-R1-Distill-Qwen-14B作为初始架构
• SFT数据集与模型:基于低秩适配(LoRA)技术构建5000组指令调优QA对,显著降低内存占用并提升训练效率
• 强化学习优化:通过人类偏好对齐使模型输出更符合工程场景需求
Dataset
以FIDIC"黄皮书"标准合同条款为核心,融合条款功能属性与专家解释文本,构建具有严格语义一致性的高质量QA数据集,为模型提供精准的领域知识注入。
SFT Training
训练中设置LoRA秩为16,批量大小32,采用余弦学习率调度器。验证集结果显示模型在合同术语理解、条款关联推理等维度表现优异,验证了小模型在专业领域的适配潜力。
Main Contribution
建立从数据准备到模型优化的完整技术路径,证明:
经适当设计的SFT+RL方案可使小模型达到LLMs级性能
提出的数据构建框架可迁移至其他专业领域
模型在风险识别、争议解决等实际场景展现强大应用价值
Conclusion
该研究为建筑企业提供了安全可控的合同智能化解决方案,其技术路径对法律、医疗等需要严格语义规范的领域具有重要借鉴意义。未来将探索多模态合同理解等延伸方向。
生物通微信公众号
知名企业招聘