基于图方法的命名实体消歧研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xiaohai_wl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着web2.0的普及,越来越多的普通互联网用户作为互联网文本的创建者参与进来。随着互联网的迅速膨胀,产生了丰富的文本数据。通过自然语言处理技术对互联网中的文本进行分析可以发现有价值的信息。然而互联网文本数据产生自普通的互联网用户,质量良莠不齐。由于自然语言的多样性和歧义性,不同的用户对同一实体往往具有多种表达,相同的实体字符串在不同的上下文中可能表示不同的实体。为了使计算机能够正确地对自然语言文本进行分析,对文本中的名实体进行消歧显得尤为重要。本文采用基于图方法的名实体消歧来解决这一问题,本文的研究内容如下:首先是对知识库的预处理,本文采用的图方法需要利用知识库中的实体关系对候选实体进行拓展,知识库中实体三元组的质量将直接影响到最终的消歧效果。预处理阶段十分重要。预处理分为从三元组表示形式和数据集筛选两个角度进行考虑。在三元组表示形式方面,主要对三元组的实体表示进行缩减,并对异常编码的处理。在数据集角度上,针对不同的数据集的特点进行分析,对数据集中三元组进行过滤。通过预处理,从而去除对消歧无用的信息,减少噪声数据,为后续的消歧任务做准备。实体消歧的主要步骤是生成候选实体和名实体消歧。首先我们要对文本中的实体指称生成候选。我们从基于字符串相似度的方法和基于知识库的方法两个角度对实体指称生成候选,字符串相似度方法主要从候选实体的拓充和筛选两个方面进行介绍,基于知识库的方法主要有基于规则的方法和基于先验概率的方法。通过对不同候选生成方法的效果进行对比。最终对几种方法进行组合,产生了不错的效果。本文采用的方法在保证了目标实体的召回率的同时,有效地减少了候选实体的数目,可以减少消歧阶段的计算复杂度和噪声实体。候选实体生成之后接下来要做的就是名实体消歧。首先利用知识库中的实体关系对候选实体进行拓展,使候选实体之间形成互相连通的实体网络图。在此网络图上采用链接分析算法,为候选实体评分从而实现消歧。对实体拓展的策略涉及拓展采用的实体关系,拓展的实体路径长度、上下文粒度的选择以及对实体指称进行消歧是采用同时决策还是依次进行决策。本文通过实验对以上策略进行对比,并选择最佳的策略。最终和基线系统进行对比,取得了不错的消歧效果。
其他文献
Web是一个复杂超文本所组成的巨大信息源,而且以很快的速度在不断的扩大,Web在发展过程中存在着大量的社区,这些社区是Web组织中非常重要的信息,社区可以为用户提供有价值的
近年来,多核并行程序得到了广泛的应用。在程序调试过程中,由于多核并行程序执行不确定性,会导致难以重现程序中的错误,给多核程序调试带来很大的困难,严重阻碍了多核并行程
在电子商务时代的今天,企业与客户之间的交互方式发生了显著的变化,谁也不能保证客户会对你从一而终,企业要想保留住客户,就必须更多的了解客户的需求。CRM就是企业为了保持
随着分布式系统技术的不断发展,面向服务的企业应用集成技术与方法研究日益受到重视。如何将企业内部的遗留系统平滑的封装为标准Web服务并对外发布,成为研究的关键问题。作
随着互联网的飞速发展,社会的信息化程度不断提高,计算机网络已经深入到社会的各个方面,带来了巨大的经济效益和社会效益,然而也带来不可忽视的安全风险。防火墙是一种安全有
心脏的计算模型不但为解释实验数据提供了强有力的支持,而且它突破了实验方法的限制,能够帮助研究人员更加深入地探索心脏的工作机制。目前,心脏建模领域蓬勃发展:该领域吸引
对于高等工科院校来讲,实验教学起着相当重要的作用。近年来各大高校纷纷扩招,学生人数急剧增加,实验室的设备和规模都难以满足需要,学生很少有亲自动手的机会,这对调动学生积极性
TCP/IP协议的广泛应用,尤其是Internet技术的发展和普及,嵌入式设备的上网已是必然趋势。由于家庭网络中的各个设备来自不同的厂家,各自采用不同的软硬件技术,使用不同的规范
P2P网络由于其无服务中心而具有良好的可用性、扩展性和容错性,已经成为网络应用的热门技术。互联网中P2P技术的成功应用为移动通信服务提供了有益的借鉴。将P2P应用到手机网
近年来我国高等院校的学生就业问题不断突现,原因不仅包括经济改革、高等院校扩招、教育资源紧缺、就业模式不健全等,还包括高等教育模式不适应社会要求、学生就业期望值偏高、