基于两步聚类和查询扩展的人名消歧方法的研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:yhmlivefor53
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人名具有很强的歧义,现实生活中同一个姓名可能被多个实体人物所使用。尤其在信息量快速增长的互联网中,人名歧义性问题已经成为一个迫切需要解决的问题。人名消歧研究的是将相同的人名按照现实世界中不同的人进行分类的方法,是近几年自然语言处理技术的一个研究热点。  本文在探讨和分析人名消歧的主要任务和研究重点的基础上,着重进行了以下几个方面的工作:  第一,本文针对人名消歧的重要前驱步骤——网页预处理进行研究和实验,采用以人名关键词为中心的网页预处理,抽取出与人名实体相关的文本作为初始语料。  第二,本文提出一种基于两步聚类的人名消歧方法。该方法先抽取网页文本中与人名关键词实体相关的依存特征,然后抽取命名实体等辅助特征。在聚类时先用依存特征将可信度高的文档聚类,再用辅助特征将剩余文档加到已有的文档聚类结果中。实验证明本文提出的人名消歧方法比基准方法有更好的消歧效果。  第三,本文提出基于查询扩展的人名消歧方法。主要借助丰富的互联网资源,从丰富实体特征和增加语料规模两方面来提高人名消歧的效果。实验证明该方法能显著提高人名消歧的效果,F值由76%增加到81%。
其他文献
随着城市化进程的不断加快,我国逐渐从一个农业大国转变成以城市人口为主体的现代化国家。伴随着城市化进程,近年来各种各样的公众性场所如电影院、体育馆和大型展览馆等也越
近几年来,人与计算机的交互活动越来越成为人们日常生活的一个重要组成部分,特别是研究符合人际交流习惯的新颖人机交互(Human Computer Interaction, HCI)异常活跃,人们希望能够
目前在国内市场上占主导地位的是国外的ERP系统,但是由于中国特有的国情,这些系统在应用上狭隘性很大。对于国内企业而言,企业信息化管理需求非常迫切,但是由于自身的特点很
在生产和作业场地中出现的事故很多都与工作人员违章违规行为有关。在大多数生产作业场地中,不正确佩戴安全帽是最常见的违规行为。因此采用具备实时性、准确性和预见性现代
无线传感器网络(Wireless Sensor Network, WSN)低功耗、低成本、自组织与分布式等特点使其成为了信息获取的重要技术,然而资源受限使得对无线传感器网络的研究面临着巨大的
近来,信息泄漏成为了网络社会中非常严峻的问题。调查显示,近50%的信息泄漏问题是由纸媒体(印刷文本)泄漏所导致的。信息安全问题日益突出,信息安全在互联网环境下面临了很多新的
随着互联网的不断发展,用户及其发表的评论成爆炸式增长。这些评论包含大量的信息,企业需要用户对其产品或服务的评价来改善质量并提高产品和服务销量;政府也需要了解大多数群众
宾馆服务业与国际市场接轨己成为大势所趋,面对激烈的市场竞争和纷繁复杂的业务需求,就必须提高整体竞争能力,变革宾馆的管理模式,提高管理水平。目前国内宾馆的信息化管理的
随着计算机硬件技术的不断发展、用户对传统PC使用方式的不断改进,桌面虚拟化技术逐渐被人们所认知。用户访问自己的虚拟PC,可以如同操作传统PC一样简单方便,轻松的使用各种
视觉注意机制是以认知学、神经心理学等相关研究领域的成果为基础,运用数学方法建立感知模型,力图实现对生物视觉系统的模拟。本文的主要工作是针对视频序列中跟踪算法会受背景