基于本体的命名实体检索的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:hghkjhnnggh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的迅速发展,搜索引擎已经成为用户获取网络信息的主要途径。然而,传统的搜索引擎的返回结果比较单调,通常返回与查询相关的网页列表,而忽略了网页中所蕴涵的丰富命名实体信息。因而,命名实体检索已经成为信息检索领域的一项重要的检索任务,它的目标不是检索出与查询匹配的文档,而是检索出匹配查询的命名实体。目前对命名实体检索的研究,缺乏对用户查询的语义能力理解,本文将本体和其他信息检索技术融入到命名实体检索中,实现了对用户查询的语义理解。本文首先分析了现有的命名实体检索相关技术及其理论,提出了一个通用的命名实体检索模型。其次,通过分析英文维基百科文章的特点及其分类层次结果图,自动构建英文伪本体,解决了目前本体构建中存在的问题。本文采用传统向量空间模型的思想,通过建立命名实体和文档之间的关系,提出了命名实体向量的生产算法,使得命名实体向量和查询向量共存在于同一向量空间中。此外,本文充分考虑了文档、命名实体、类型三种因素对实体向量生成质量的影响,提出了几种改进的算法,并将本体语义扩展算法融入到模型。通过专家搜索任务的实验结果表明,我们提出的通用名实体检索系统能适应不同的环境。基于本体扩展的方法有效的解决了用户查询的模糊性,结合了几种改进算法使得系统的MAP显著提高。
其他文献
无线传感器网络是信息感知和采集的一场革命,在各个领域有着广泛的应用前景,将给人类的生活和生产带来极大的影响。虽然目前已有一些无线传感器网络应用的实例,但由于技术等
随着计算机和网络通信技术的快速发展,Internet已经成为人们生活中不可缺少的一部分。然而,不断扩大的网络规模和复杂的网络结构造成作为域间路由标准的BGP协议面临严重的性
基于P2P的分布式存储技术与传统的集中式存储技术相比,具有容量大,可扩展性好,负载均衡,成本低等优势,完全适应了信息社会的发展趋势,能够满足人们日益增长的存储需求。然而P
对文档进行语义哈希是一种比较常见的加速相似性查找的方法。所谓语义哈希就是将文档进行哈希编码,并且使得在语义上相似的文档能够被映射到相近的哈希编码,即具有较短的海明距
随着计算机、网络技术的飞速发展,以及计算机图形学理论的日渐完善,三维模型已经逐渐成为继声音、图像和视频之后的第四种多媒体数据类型。其数量更是呈现爆炸性的增长,由于
随着计算机技术的飞速发展,数字媒体产业的兴起,视频处理技术逐渐成为数字图像处理和数字媒体领域的研究热点。视频分割技术在视频处理技术中占有很重要的地位,是其它一些视
作为二十一世纪教育改革和发展的主旋律之一,教育信息化早已成为一个热门话题。随着高等教育扩招使各高校的在校学生人数成倍增长。如何能够充分利用紧缺的教学资源,提高其使
分类体系作为知识图谱的骨干组成部分,对整个知识图谱的易用性和连通性具有起到决定性的作用。随着知识图谱应用的日益广泛,国内外都不断涌现出优秀的知识图谱项目。如何为知
随着人类基因组计划的顺利完成,不断积累的巨量生物学数据和快速发展的信息学技术,给后基因组时代的生物信息学研究带来了新的挑战。近年来,随着微阵列技术的快速发展,DNA微
三维人体重建是计算机图形学和3D视觉领域一个非常重要的研究课题,同时也是工程领域一个富有挑战性的研究方向。本文提出了一种基于多视图的鲁棒人体三维重建方法。该方法通