本文共 1514 字,大约阅读时间需要 5 分钟。
由于实体具有歧义性(一词多义、一义多词),所以实体识别的结果很难直接存放到知识图谱中。
一方面,同一实体在文本总会有不同的指称,(如篮球值神、老流氓、乔帮主、飞人都是美国著名篮球运动员迈克尔·乔丹的别名),这是指称的多样性(Name Variation)。 另一方,相同的实体指称在不同的上下文中可以指不同的实体,这是指称的歧义性。 因此必须对实体识别的结果进行消歧才能得到无歧义的实体信息。使用六元组。
实体指称项表示实体消歧任务的基本单位:一个实体指称项是一个在具体上下文中出现的待消歧实体名。 命名实体消歧函数是命名实体消歧任务的核心部分,直接影响系统的性能。按照目标实体是否给定:
(1)否:基于聚类的实体消歧系统 (2)是:基于实体链接的实体消歧系统按照实体消歧任务的领域不同:
(1)结构化文本实体消歧系统 主要依赖字符串比较和实体关系信息完成消歧。 (2)非结构化文本实体消歧系统 主要用指称项上下文和背景知识完成消歧。1. WePS评测 人名消歧任务 + 机构名消歧2. TAC KBP评测 该任务假设目标知识库是不完备的。
实体链接,一般是将实体指称项链接到知识库中特定的实体。
实体链接,指的是讲一个命名实体的文本指称项(Textual Mention)链接到知识库中相应实体的过程,通常称为Entity Linking ,与 Entity Grounding, Entity Resolution, Record Linkage 和 Entity Disambiguation意义相近。
知识库中可能不包含待消歧指称项的对应实体,这时,将实体指称项链接到空实体NIL。
一般地,实体链接的输入包括两个部分:
(1)目标实体知识库 (2)待消歧实体指称项及其上下文信息实体链接任务的两个步骤:
(1)连接候选过滤(Blocking) (2)实体链接(Linking)大部分工作都是基于实体指称项字典:通过在词典中记录一个指称项所有可能指向的目标实体来进行候选链接过滤。
传统的实体链接方法使用Wikipedia 等知识资源来构建指称项词典,包括Wikipedia Entity Name, Wikipedia Redirection Page , Wikipedia Disambiguation Page , Wikipedia Anchor Dictionary以及Wikipedia第一段里面的粗体字(也包括一个别名信息)。
为了匹配模糊的或者拼错的指称项,一些基于构词法的模糊匹配方法也在TAC评测中使用,如:Metaphone Algorithm和Soft TFIDF算法。
实体链接,既是研究重点,又是难点。1. 向量空间模型2. 主题一致模型3. 协同实体链接4. 基于神经网络的实体消歧方法
现实世界中有大量的结构化文本,,如实体知识库,网页中的列表数据或者网络百页面中的Infobox数据。其中还有一部分结构化数据只有实体或者很少的结构化信息。结构化文本的实体消歧方法主要是利用实体的类别信息、实体的流行度和列表平中的其他信息进行消歧。
转载地址:http://tdugf.baihongyu.com/