论文部分内容阅读
随着web2.0的普及,越来越多的普通互联网用户作为互联网文本的创建者参与进来。随着互联网的迅速膨胀,产生了丰富的文本数据。通过自然语言处理技术对互联网中的文本进行分析可以发现有价值的信息。然而互联网文本数据产生自普通的互联网用户,质量良莠不齐。由于自然语言的多样性和歧义性,不同的用户对同一实体往往具有多种表达,相同的实体字符串在不同的上下文中可能表示不同的实体。为了使计算机能够正确地对自然语言文本进行分析,对文本中的名实体进行消歧显得尤为重要。本文采用基于图方法的名实体消歧来解决这一问题,本文的研究内容如下:首先是对知识库的预处理,本文采用的图方法需要利用知识库中的实体关系对候选实体进行拓展,知识库中实体三元组的质量将直接影响到最终的消歧效果。预处理阶段十分重要。预处理分为从三元组表示形式和数据集筛选两个角度进行考虑。在三元组表示形式方面,主要对三元组的实体表示进行缩减,并对异常编码的处理。在数据集角度上,针对不同的数据集的特点进行分析,对数据集中三元组进行过滤。通过预处理,从而去除对消歧无用的信息,减少噪声数据,为后续的消歧任务做准备。实体消歧的主要步骤是生成候选实体和名实体消歧。首先我们要对文本中的实体指称生成候选。我们从基于字符串相似度的方法和基于知识库的方法两个角度对实体指称生成候选,字符串相似度方法主要从候选实体的拓充和筛选两个方面进行介绍,基于知识库的方法主要有基于规则的方法和基于先验概率的方法。通过对不同候选生成方法的效果进行对比。最终对几种方法进行组合,产生了不错的效果。本文采用的方法在保证了目标实体的召回率的同时,有效地减少了候选实体的数目,可以减少消歧阶段的计算复杂度和噪声实体。候选实体生成之后接下来要做的就是名实体消歧。首先利用知识库中的实体关系对候选实体进行拓展,使候选实体之间形成互相连通的实体网络图。在此网络图上采用链接分析算法,为候选实体评分从而实现消歧。对实体拓展的策略涉及拓展采用的实体关系,拓展的实体路径长度、上下文粒度的选择以及对实体指称进行消歧是采用同时决策还是依次进行决策。本文通过实验对以上策略进行对比,并选择最佳的策略。最终和基线系统进行对比,取得了不错的消歧效果。