基于信息类别的元搜索引擎研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:luzb2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet自诞生以来不断成长,尤其是最近几年更是得到长足发展,功能不断扩展,信息容量呈爆炸性趋势增长,然而在信息极大丰富的同时,用户也面临着信息过载和资源迷向的问题。Internet网络环境下的信息检索于是成了一个新的研究热点。1994年前后,Lycos,Yahoo!等大批搜索引擎相继涌现,发展到现在,搜索引擎己成为上网用户最经常使用的网络服务之一。 独立搜索引擎相对容易实现,在早期设立较多,分布在不同领域、不同地方为用户提供服务,在当前的应用仍然是最广。但是它覆盖面狭窄,检索效率低,随着web的迅速发展,越来越显得力不从心。为了改变这种状况,它们中的一些改变原来的综合信息收集,转为集中收集某一领域的信息,为专业检索用户提供精确的检索结果。这种方式对清晰查询、专业查询尤其有效。但是,这种专业搜索引擎是以牺牲大的覆盖面为代价而取得某范围内的高精度的。 根据专家评测,目前主要搜索引擎返回的相关结果比率不足45%,用户要想获得一个比较全面、准确的结果,就必须反复调用多个搜索引擎。元搜索引擎是通过集成多个独立搜索引擎的方法来扩大检索覆盖面,避免重复查询的。而且,由于它的选择余地大了许多,因此,也可为提高检索精度打下良好基础。 在传统元搜索引擎中,每次查询项提交给元搜索引擎时,元搜索引擎会选择同样的成员搜索引擎,查询项预处理算法和查询结果融合算法。这种处理方法仅考虑到用户的查询项,而没有考虑到用户所需信息的类别。这篇论文介绍了一种基于信息类别的元搜索引擎,对于用户提交的相同查询关键词,如果用户选择不同信息类别,系统会选择不同的成员搜索引擎,不同的查询项处理算法和不同的查询结果排序算法。 本论文首先介绍元搜索引擎技术的理论基础,然后重点研究了元搜索引擎结构原理和实现元搜索引擎过程中的关键技术,包括成员搜索引擎选择技术、结果合成技术和论文相似性检索的算法。重点研究了各种己有的技术实现的常用算法,并且在分析比较的基础上提出本课题采用的算法。最后通过实验验证了算法的高效性。
其他文献
随着Internet的发展,基于组播的应用越来越重要了。传统网络上的组播应用遇到了许多的困难,比如ACK、NACK内爆问题,且拥塞问题也没有得到很好的解决。主动网络由于具有良好的
宽带无线通信网络近几年来得到了高速的发展,人们在享受宽带无线网络带来的上网便利的同时,对宽带无线网络的服务质量(QoS)也提出了新的要求。目前的宽带无线接入技术由于其
本论文题目来源于西安电子科技大学海光数码有限公司的实际项目——针对海光公司所生产的医用胶片扫描仪而设计与开发的海光医用胶片数字化工作站。近年来PACS(图像归档与通
随着Internet在全球的推广和普及,加之中国政府方兴未艾的网络电视(IPTV)计划,网络流媒体业务得到迅速发展。在市场竞争日趋激烈的今天,如何为用户提供更好的服务,如何缩短产
在自然语言处理中,关于任何一门语言的语法分析问题都是一个难题和研究热点。目前,针对一些西方语言的语法分析取得了很大成就,并且,人们总结出了一种适用范围比较广的方法:
随着对等计算(P2P)技术和理论的发展,基于它的分布式应用也已渗透到很多领域。基于分布式哈希表(DHT)的结构化P2P网络是目前的研究热点,但是,基于DHT的应用并没有流行起来,原
随着基于NGN网络的软交换技术的发展,越来越多的企业融合现有的数据网和电信网组成未来新一代的通信网络。为了满足当前对多种语音、文件和图像进行传输的需求,PSTN网络同NGN
进行眼睛视力矫正的技术主要有准分子激光手术和人工晶体植入手术,人工晶体植入手术按照植入的位置可以分为前房型人工晶体(anterior chamber intraocular lens, AC-IOL)植入
访问控制机制的主要目的在于阻止信息和数字资源的非法访问。从二十世纪六十年代到二十世纪九十年代,有三个主要的访问控制模型用于保护数字资源和信息免于未经授权用户的威胁
随着Linux操作系统在嵌入式平台的广泛应用,一方面Linux被移植到越来越多的平台,另一方面Linux上的应用越来越丰富。SH7751R开发板是Renesas公司开发的32位高性能处理器平台,