编辑推荐:
在工业领域,数据处理和检索面临挑战,大型语言模型(LLMs)应用受限。研究人员开展基于检索增强生成(RAG)的交互式工业知识管理(IIKM)系统研究。结果显示该系统在技术服务和内部监管文档处理上表现良好,对提升工业服务质量意义重大。
在当今工业蓬勃发展的时代,工业数据处理与检索成为了 Industry 5.0 推进过程中不可或缺的环节。随着企业对智能化服务需求的不断攀升,传统的工业文档管理系统和服务模式逐渐暴露出诸多问题。一方面,工业领域存在大量非记录型数据库,其管理难度大,关系型数据库的评估方式难以适用,需要基于序列或句子进行数据处理。另一方面,工业数据涉及隐私,客户查询权限受限,服务中心响应效率和质量难以保证。在这样的背景下,大型语言模型(LLMs)虽在自然语言处理(NLP)领域掀起革命,但因其对领域特定术语和上下文理解的不足,在工业应用中遭遇瓶颈。为解决这些问题,研究人员开启了基于检索增强生成(RAG)的交互式工业知识管理(IIKM)系统的研究之旅。此次研究成果发表于《Computer Standards 》,为工业智能化服务带来了新的曙光。
研究人员运用了多种关键技术方法。在数据检索方面,采用 TF-IDF、BM25 算法以及嵌入技术计算文本相似度,从大量文档中筛选出相关信息。利用 BAAI ranker 对检索结果进行重排序,进一步提高相关性。在生成回答阶段,借助 GPT-3.5 Turbo 这一强大的大语言模型,根据检索和重排后的信息生成高质量回复。同时,使用多种评估指标,如平均倒数排名(MRR)、召回率(Recall)和平均精度均值(mAP)来衡量系统性能。
实验设置与系统配置
研究人员搭建了专门的实验环境,系统采用 Ubuntu 20.04.6 LTS 64 位操作系统,配备 Intel (R) Core (TM) i7-8700 K CPU @ 3.70 GHz 处理器、Kingston 16G*4, DDR4-3200 内存以及 Gigabyte AORUS RTX2080Ti 11G 显卡。使用 llama-index、langchain 等多种软件库。实验数据集包含服务中心的产品相关资料和组织法规文件。通过设置不同的超参数,如将 chunk size 设为 512,overlap size 设为 50,探索系统的最佳性能。
输入查询与评估
研究人员收集了来自樱花公司实际场景中的用户查询,涉及热水器维护等技术问题,由 5 位专业技术维护人员在 7 个场景下提出。最终收集到 34 个有效问题,用于评估 IIKM 系统在实际应用中的表现。
IIKM 系统检索排名评估
通过计算 MRR、Recall 和 mAP 三个指标评估系统性能。Recall 代表从文档集合中检索到的相关实例比例,MRR 用于衡量查询产生正确响应的概率,mAP 则专门用于分析文档检索性能。结果显示,在服务中心数据集上,系统的 MRR 达到 88%,Recall 为 85%,mAP 为 75%;在组织法规文档数据集上,表现更为出色,Recall 达到 91.62%,MRR 为 97.97%,mAP 为 91.12%。这表明 IIKM 系统在检索相关文档和生成准确回复方面具有较高的能力。
人工评估
研究人员还通过人工评分的方式对系统在组织法规文档数据集上的响应生成和文档检索进行评估。14 名用户在 3 周内对 197 个文档进行评分,评分标准采用 5 分制 Likert 量表。结果显示,系统生成的回答在相关性方面表现良好,完全相关的得分占比达 75.63%(149/197),检索阶段也能高效找到高度相关的文件,得分高达 98.98%(195/197)。
综合来看,IIKM 系统的研究成果意义重大。它为工业领域提供了一种高效的交互式知识管理解决方案,能够显著提升服务质量和效率,减轻人工负担。通过实验验证,该系统在不同类型文档处理上都展现出良好的性能,有效解决了工业客户在产品维护、法规查询等方面的问题。在讨论部分,研究人员也指出了系统部署过程中的挑战,如硬件升级和人员培训等,但同时也表明 IIKM 系统在克服这些挑战方面具有一定的优势。未来,研究人员计划为系统添加多语言支持功能,并进一步优化 LLM 提示工程能力,以满足更广泛的工业应用需求,推动工业智能化服务迈向新的高度。