本体在名实体信息抽取中的应用研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:braveheart
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着Internet的飞速发展,Web上出现了海量的信息资源,如何从这些浩如烟海的信息资源中寻找并获取有价值的信息和知识模式,已经成为信息处理领域的一个亟待解决的问题。本体作为对领域知识的共同理解,能有效地解决现在信息抽取所面对的主要挑战。对于一个领域的特殊应用来说,本体是一个非常有价值的资源,尤其在需要领域知识的情况下。本文首先简述了基于本体的信息抽取技术研究现状,分析了信息抽取系统体系结构,介绍了本体的基本知识,在此基础上,提出了一种基于本体的名实体信息抽取方法。在本方法中,将名实体信息抽取技术和本体结合起来,抽取自由文本、半结构文本中的名实体信息。本文具体的研究内容包括以下三个方面:1.通用本体HowNet与最大熵相结合的名实体信息抽取。在最大熵模型的基础上,利用通用本体HowNet,抽取自由文本中的人名、地名、机构名等名实体信息。本文有两种策略使用HowNet:第一种将HowNet中概念的首义原作为特征加入到最大熵模型,用于提高最大熵模型的泛化性能。第二种利用HowNet提供的概念相似度接口,在不重新训练最大熵模型的情况下,利用概念相似度计算未抽取词语与模型中概念的相似度,以提高抽取效果。2.构建电子产品领域本体。首先介绍了领域本体的基本设计,领域本体有四层,包括有包含关系,概念与实例的关系,属性关系等三种关系。然后收集领域术语,进行文档解析和模式提取,寻找概念间的关系,建立产品树,最后利用最小描述距离算法切分产品树,自动构建领域本体。3.基于领域本体的名实体信息抽取。本文使用了领域本体与改进的正向最大匹配算法,让其能够适应四层的本体库,本文采用的语料是百度知道的网络公共资源,抽取结果与手工抽取的结果对比,取得的实验效果从侧面验证了电子产品领域本体的效果,达到了相应的要求。
其他文献
近年来,随着微博的快速发展,微博数据成倍增长,如何利用这些海量的数据,挖掘有用的信息,成为了研究热点。其中,微博情感分类是一个比较热门的研究方向,它在分析与预测时事走
随着计算机处理能力的提高以及统计机器学习等理论的发展,浅层语义分析逐渐被研究人员所重视。语义角色标注是浅层语义分析的一种实现方式,其具有问题定义清晰,便于人工标注
现今是一个信息爆炸的时代,互联网的应用正迅速渗透到人们日常生活的方方面面。但是与此同时,源于网络的各种攻击破坏行为,对我们生产生活、政治经济产生的危害也日益突显出来。
随着网络通信与计算机技术的飞速发展,WEB服务的种类也逐渐多样化。传统的WEB技术由于互动性和实时性的缺陷,已经无法满足现实的需要。在传统的WEB服务中,所有的用户请求都交给
编队节点在高速运动状态下,有可能由于受到通信条件的制约或节点意外失效,从而失去与原指挥系统的联络关系。在这种条件下,为了保证节点之间通信畅通,必须在各编队节点间采用
学位
自然语言处理是人工智能和语言学领域的分支学科。在这个领域中探讨如何处理及运用自然语言实现特定的应用。本文提出了一种实现自然语言处理应用的方法,称为面向应用的受限
随着信息技术的发展,越来越多的图像和视频出现在人们的生活中和互联网上。如何有效的管理和组织这些多媒体数据成为一个亟待解决的问题。对多媒体内容进行分析与理解,进而对
随着吸烟人群的增加及环境污染的严重化,慢性阻塞性肺病(Chronic Obstructive Pulmonary Disease, COPD)的发病率越来越高,其早期诊断与治疗方法的研究受到越来越高的重视。
计算机是人类最伟大的科学技术发明之一,其应用已非常普遍,也使得计算机软件的应用也越来也广泛。软件作为信息的载体,包含了许多应用中的私密数据和重大的商业价值。为此,软件安