GADE+:一种基于图的锚点增强框架,用于定向文档检测

《IEEE Transactions on Knowledge and Data Engineering》:GADE+: A Graph-Based Anchor-Enhanced Framework for Targeted Document Detection

【字体: 时间:2025年12月11日 来源:IEEE Transactions on Knowledge and Data Engineering 10.4

编辑推荐:

  针对目标实体文档检测中存在的名字歧义问题,本文提出GADE+框架,通过虚拟锚点构建文档交互 bipartite 图,结合图神经网络和锚点引导正则化,有效提升检测准确率。

  

摘要:

提及目标实体的文档是各种应用的重要前提,例如市场情报分析、知识库扩充、事实核查以及增强型信息生成。获取这些文档的一个简单方法是通过查询目标实体的名称来利用搜索引擎。然而,返回文档中出现的目标实体名称并不一定真正指代该目标实体,因为名称可能存在歧义,它可能指的是另一个与目标实体同名的实体。因此,在本文中,我们探讨了一个新的任务——目标文档检测,旨在从给定的候选文档中检测出那些真正提及目标实体的文档。每个候选文档中都包含目标实体的模糊名称。我们提出了GADE+这一基于图的、增强型锚点的框架,通过结合局部相关性信息(通过局部相关性模型)和全局跨文档交互(通过基于锚点的全局交互模型)来解决目标文档检测任务。在我们的会议论文中介绍的GADE框架依赖于完整图来建模全局跨文档交互,这导致了许多无用的交互和有限的可扩展性。为了解决上述问题,我们首先引入了表示虚拟候选文档的虚拟锚点,并在候选文档和虚拟锚点之间构建了一个文档交互二分图。然后我们在图上应用图神经网络,通过基于锚点的消息传递机制来建模全局跨文档交互。为了进一步学习虚拟锚点和候选文档的更具区分性的表示,我们设计了一种基于锚点的正则化方法,以明确提高虚拟锚点之间的类别可分性和候选文档内部的紧凑性。我们为这项任务构建了四个标注数据集...

引言

命名实体是现实世界中的对象,如乔治·华盛顿、巴黎和苹果公司,它们通过专有名词来识别。在知识驱动的应用中,用户通常会将注意力集中在某些特定的实体上,在本文中,我们使用“目标实体”一词来表示特定的感兴趣的实体。一般来说,目标实体具有两个明确的属性:

**歧义性**:目标实体的名称往往具有歧义性,并具有多种含义,这意味着不同的实体可能共享相同的名称。例如,仅根据名称“乔治·华盛顿”,我们无法直接判断它是指棒球外场手“乔治·华盛顿”还是美国总统“乔治·华盛顿”。

**特殊性**:目标实体不受特定领域的限制,可能不存在于知识库(KBs)中,如Freebase [1]、DBpedia [2]和YAGO [3]。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号