基于领域本体的关系索引及其建模方法的分析和算法实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:yanghaibin123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎至少有三个因素值得重视:数据库,用户查询和搜索结果排序.传统搜索引擎的用户查询一般都是基于关键字查询设计的,因此,搜索结果的排序不可避免的被打上词频统计的烙印.现有搜索引擎的一个普遍缺点和难以突破的关键技术点就是搜索结果的准确率太低.对于一个简单的用户查询请求搜索引擎往往会返回成千上万的结果网页,然而真正令用户满意的却不多.同时,传统搜索引擎返回的大量页面中即使存在令用户满意的结果网页,也仍然要求用户自己在如此众多的网页中再次"搜索".究其根源,可能是传统的搜索引擎只是将重点放在对网页的内容进行简单的词频统计或词频分布距离的测定上,而没有很好的对网页内容进行语义级别的分析.本体(Ontology)是一种基于知识的表示形式,它将领域内的各个概念、关系、实例等建立了语义上的联系.因此引入本体的检索系统会具有更高的准确率从理论上来说是可能的.该文所研究和实现的系统严格来讲并不是真正意义上的搜索引擎,而更像是一个信息检索系统.它将重点放在信息的组织和检索上.系统部分的设计和搜索引擎比较类似,但是核心部分有着本质的不同,这主要表现在本体的使用上,在结合了本体技术后,传统的关键字索引被升级为关系索引.而带有语义信息的关系索引可以极大的提高信息检索的准确率.另外,基于本体的支持,系统中标准三元组的引入使得信息的组织和表示不再像传统搜索引擎那样的线性空间,而更加趋近于一种基于语义联系的网状组织结构.正是这种基于本体的网状的信息组织结构为信息检索的语义化提供了必要的保证.索引表中加入关系选项,使得用户输入的查询请求尽可能的接近真实的语义信息,从而帮助系统进行语义级别的搜索,最终达到更高的网页返回准确率.
其他文献
随着信息科技的飞速发展,网络已经融入了人们的生产和生活,它对社会经济发展、信息文化的传播、交流和对政府政策管理等方面已经产生了深远的影响.目前Internet里的海量信息
SoC已经成为当今超大规模集成电路的发展趋势,它从整个系统的功能和性能出发,用软硬件结合的设计和验证方法,在一个芯片上实现复杂的功能.随着SoC的功能越来越复杂,验证在SoC
移动计算设备的供电系统均采用电池供电,电池电量和供电能力对移动计算系统性能和运行时间都有决定性作用.电池供电量与电池体积大小的发展在一段时间内是相对固定的.因此,如
在人脸识别过程中,人脸检测是人脸识别的前提和基础,人脸检测的结果对人脸识别的精度有直接的影响。人脸检测的主要工作是从静态图像或是视频序列中找出是否存在人脸,确定人
近年来,IP组播技术以其能够大大节省网络带宽和发送者资源而得到广泛应用,在视频传输、股市行情发布、新闻放送、软件更新、多方网络会议、网络游戏等应用领域,组播通信为其提供
该文首先介绍了遥感相关的一些概念,以及该文所用遥感图像来源及其特点.根据遥感图像自身的特点,我们选择了提取遥感图像中的图像轮廓和纹理特征进行多源遥感数据库的检索.在
网络安全依赖于两种技术。一是传统意义上的存取控制和授权,如存取控制表技术、口令验证技术等;二是利用密码技术实现对信息的加密、身份鉴别等。前者从理论和技术上是完全可以
当前,基于P2P路由算法构建面向Internet的大规模分布式存储系统正在成为一个研究热点.燕星2.0系统是由北京大学网络实验室研究开发的P2P分布式存储系统,它面向Internet提供文
互联网时代的数据正在呈指数级的增加,如何在海量数据中找到有价值的信息正是数据挖掘领域的一个日益严峻的问题。聚类算法是数据挖掘中被广泛应用的算法。它能把数据分门别类
随着信息技术的飞速发展,特别是互联网的迅速普及和3C(计算机、通讯、消费电子)合一的加速,迎来了后PC时代,嵌入式接入设备正在成为后PC时代的一大主流产品.面对嵌入式系统工