基于百科的中文知识搜索系统的设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ZZ2077
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,使用搜索引擎进行信息查找已经成为人们日常生活的一部分。人们只需要输入查询关键词,搜索引擎就可以将互联网上最匹配的网页链接返回给用户。但是搜索引擎并不能直接返回答案,用户还需要从返回的链接中寻找所需要的信息。早在人工智能技术刚开始的时候,人们就开始思考如何让计算机用自然语言来回答人的问题,这种技术被称为自动问答系统。由于当初的技术和资源受限,相关研究一直限制在特殊领域。随着Web2.0技术的发展,越来越多的人向互联网上分享信息,其中最具代表性的就是Wikipedia这类在线百科全书。现在Wikipedia上已经聚集了海量的知识数据,这些数据的出现为实现更加智能的通用领域自动问答系统提供了可能。本文将在此方面进行尝试,设计并实现一个基于百科的通用的知识搜索系统,用户可以使用自然语言问答的方式进行查询,系统直接返回百科网站上具有的答案。主要研究内容包括以下几个方面:第一、设计了三层体系结构的知识搜索系统方案,使用本体库作为百科网站和知识搜索中间层。一个更加智能的知识搜索系统需要一个便于机器理解的知识表现形式,本文研究了如何使用了本体库这种知识表现方法作为知识搜索系统的数据存储方式。第二、设计了基于多个百科网站的本体库构建方法。基于单个百科网站的本体库构建已经出现了一些优秀的成果和基本的构建方法,但基于多个百科网站构建本体库却少有人问津。本文首先对若干个百科网站分别构建本体库,然后将这些本体库合并为一个。第三、对基于本体库的知识搜索方法进行了研究,并提出一种基于本体对象的多层倒排索引的知识检索方法。多层倒排索引充分考虑了本体库知识表示的层次性,按照本体库中知识的类别将将整个索引分成两层,通过这种层次关系,使检索过程更加直接。第四、设计并实现了完整的知识搜索系统。整个系统分成百科网站收集子系统、本体库构建子系统、索引子系统、检索子系统以及用户接口子系统。
其他文献
音频检索技术发展的时间还不长,目前关于音频检索技术的研究主要集中在检索的算法上。音频样例检索是音频检索的主要方法之一。在基于样例的音频检索中,音频样例的选择对检索
在SOA环境下,服务组合用以将多个服务构件组织到一起满足大粒度需求,被看作是服务计算领域的一个重要的热点理论问题。国内外研究者从不同角度设计并开发了大量的服务组合算
植物病虫害是农作物减产的主要原因,给农业生产带来了极大的损失。随着基因工程技术的发展,人们已经能够将多种抗病虫害的基因转入目的植物中。发掘植物自身的抗性基因,培育
图像融合是信息融合中以图像为研究对象的分支,图像融合就是把多个不同模式的图像传感器获得的同一场景的多幅图像,或同一传感器在不同时刻或不同方式下获得的多幅图像合成一
社交是人类生活的本质需求之一。SNS(Social Networking Services,即社会性网络服务)平台是以分布式计算理论为基础,通过P2P(Peer-to-Peer,对等)技术构建的下一代基于个人的
天然气是目前主要的民用能源,其输送的可靠性直接影响着广大人民的切身利益。压缩机组作为天然气输送系统动力环节,其运行的可靠程度以及操作人员技术水平直接影响着整个系统的
网络基础设施的建设和视频编码技术的发展,催生了一系列的视频应用,包括视频电话、网络视频点播、高清电视广播等等。为了使视频编码的码流更好地适应各种网络环境和用户终端
信息时代的来临,使网络来到我们每个人的身边。而病毒、蠕虫、木马等恶意代码,也随着网络经济的蓬勃而迅猛发展。网络安全和人身安全对网民而言一样重要。恶意代码检测系统使
随着服务系统在现代服务业中的广泛应用,服务质量问题引起了人们越来越多地关注,服务质量监控与评价方法成了服务学研究的一个重点内容。服务质量功能展开(SQFD)是覆盖服务系
网络环境下说话人识别是指在互联网音频信息中查找出目标说话人的一种技术,在安全、刑侦等领域具有重要的实际应用价值。本文以搭建工程化的网络环境下说话人识别系统为目的,