编辑推荐:
为解决意图提取数据集稀缺问题,研究人员创建 BINS 数据集,其可助力 IBN 系统发展。
在科技飞速发展的当下,物联网(IoT)、云计算、大数据等新兴技术如雨后春笋般涌现,这让未来网络面临着前所未有的复杂和多样的需求与挑战。就好比在繁华都市中,道路需要承载不同类型、数量众多的车辆,还要保证交通流畅。网络管理系统也面临类似困境,为了实现像自动驾驶汽车那样的自动化和智能化,达成闭环自治(closed-loop autonomy),就必须依赖大量数据的支持。然而,在意图提取方面,公开可用的数据集却十分稀缺,这就如同巧妇难为无米之炊,严重阻碍了网络管理系统的发展。
在意图驱动的网络管理过程中,用户或管理员通常会用自然语言表达对网络性能、服务质量和资源分配的要求。这些要求就像网络的 “指令”,但要让网络 “听懂” 并执行,就需要精确识别意图并转化为机器能理解的数据。可是,现有的网络和业务数据集大多只能描述单一特征,难以适应快速变化的网络场景,导致意图识别系统缺乏足够的训练数据。而且,从相关机构获取研究数据困难重重,公共网络数据集也因网络场景和模式的快速变化而变得不可靠或过时。
为了解决这些问题,贵州大学大数据与信息工程学院、集美大学航海学院以及澳大利亚 CSIRO Data61 的研究人员共同开展研究,创建了商业意图与网络切片相关数据集(Business Intent and Network Slicing Correlation Dataset,BINS) 。该研究成果发表在《Scientific Data》上,为网络研究领域带来了新的曙光。
研究人员在构建 BINS 数据集时,运用了多种关键技术方法。数据收集上,多渠道获取数据,包括中国电信四川分公司的真实网络运营数据、专业网络工程师手动构建和模拟生成的数据,以及从学术论文、工业标准和相关网站解析得到的数据。数据处理时,针对不同来源数据采取不同预处理措施,去除噪声、冗余等干扰因素。标注环节,对数据进行实体、关系和切片类型标注,并采用 BIO 标注方案,使数据更适合自然语言处理任务。还利用 DataProfiler 工具分析数据质量,通过基于 BERT 的命名实体识别(NER)等方法验证数据集对训练意图识别模型的有效性。
下面来看具体的研究结果。
- 数据收集与处理:BINS 数据集的数据来源广泛。中国电信四川分公司的真实网络运营数据,记录了各种业务场景下的网络需求和性能指标,经过处理转化为网络意图表达式。网络工程师手动构建的数据更加详细,包含特定网络参数;邀请志愿者模拟用户网络请求,借助语音助手系统收集数据,并参考特定模型规范意图表达。从学术论文、工业标准和相关网站解析得到的数据,经过严格处理后也纳入数据集。经过一系列处理和标注,最终数据集包含超过 100,000 个意图实体和超过 40,000 个独特三元组。
- 技术验证:研究人员使用 DataProfiler 工具对数据进行质量检测,结果显示数据集在数据相关性、重复性和完整性方面表现出色,数据相关性达 100%,数据非重复率为 98%,数据完整性为 98%。在验证数据集对训练意图识别模型的有效性时,采用基于 BERT 的命名实体识别方法,对比 BERT-CRF、BERT-BiLSTM-CRF 和微调的 DeBERTa-v3-large MLM 等模型。实验结果表明,这些模型在不同数据集上都取得了较高的精度、召回率和 F1 分数,证明了 BINS 数据集的有效性和适用性。
研究结论表明,BINS 数据集为意图识别任务提供了高质量的数据支持,可用于训练和优化意图识别系统,提高网络管理系统的自动化和智能化水平。在网络配置、故障排除和性能提升等方面,该系统能精准理解用户意图并转化为相应策略。此外,BINS 数据集还可拓展到信息检索和应用交互等领域,帮助搜索引擎更好理解用户查询意图,提升应用交互的智能化程度和用户满意度。
BINS 数据集的出现意义重大。它为意图识别和网络管理研究提供了宝贵的数据资源,推动了意图驱动网络(IBN)系统的发展,为未来全自主网络的应用奠定了坚实基础。在新兴网络场景中,如智能环境、物联网、车联网、医疗保健和 6G 网络等,其将发挥关键作用,提升网络配置效率、降低成本,为各领域的智能化发展注入新的活力。
娑撳娴囩€瑰宓庢导锔炬暩鐎涙劒鍔熼妴濠団偓姘崇箖缂佸棜鍎禒锝堥樋閹活厾銇氶弬鎵畱閼筋垳澧块棃鍓佸仯閵嗗甯扮槐銏狀洤娴f洟鈧俺绻冩禒锝堥樋閸掑棙鐎芥穱鍐箻閹劎娈戦懡顖滃⒖閸欐垹骞囬惍鏃傗敀
10x Genomics閺傛澘鎼isium HD 瀵偓閸氼垰宕熺紒鍡氬劒閸掑棜椴搁悳鍥╂畱閸忋劏娴嗚ぐ鏇犵矋缁屾椽妫块崚鍡樼€介敍锟�
濞嗐垼绻嬫稉瀣祰Twist閵嗗﹣绗夐弬顓炲綁閸栨牜娈慍RISPR缁涙盯鈧鐗哥仦鈧妴瀣暩鐎涙劒鍔�
閸楁洜绮忛懗鐐寸ゴ鎼村繐鍙嗛梻銊ャ亣鐠佹彃鐖� - 濞e崬鍙嗘禍鍡毿掓禒搴n儑娑撯偓娑擃亜宕熺紒鍡氬劒鐎圭偤鐛欑拋鎹愵吀閸掔増鏆熼幑顔垮窛閹貉傜瑢閸欘垵顫嬮崠鏍掗弸锟�
娑撳娴囬妴濠勭矎閼崇偛鍞撮摂瀣鐠愩劋绨版担婊冨瀻閺嬫劖鏌熷▔鏇犳暩鐎涙劒鍔熼妴锟�