元搜索器中结果融合子系统的设计和实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:meimeilaile
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet上大量的文档资源具有隐藏性,无法通过链接结构直接抓取,对它们的发现和利用是通过搜索引擎提供的界面来实现的.随着互联网的迅猛发展,如何能对互联网上的这些隐藏的资源进行充分有效的发现和共享成为迫切的需要.STARTS、SDLIP、SDARTS等协议应运而生.这些协议提出了元搜索和元搜索器的概念.即在客户与各个资源实体之间架构一个搜索中间件来实现对不同资源实体中文档的有效检索和利用.该文主要论述了基于SDARTS的元搜索器的实现,以及对其进行的完善,使之成为一个真正意义上实用的元搜索器.工作包括对资源的文摘提取、检索中自动的资源选择、对无得分文档的在线评分、对不同资源结果的融合等工作,其中最主要的工作就是结果融合子系统,其中主要的创新是在线评分算法和结果融合算法.Internet上绝大部分资源(搜索引擎)所返回的查询结果,都只有排序而没有具体的结果得分分布.所以,要实现对不同资源所返回的检索结果的融合,首先对于那些没有结果得分的资源,就需要评估其返回结果的得分分布情况.如何有效的评估资源的检索结果的得分分布呢?该文采用了指数模型的方法,对资源的检索结果进行建模.并利用检索出的结果总数信息、检索结果各个条目的元数据信息,来估算指数模型的参数,最终形成得分分布模型,实现对资源检索结果的得分评估.我们把该文的得分评估算法与其他评估算法进行了比较,而该文的评估算法效果更好.在完成评估得分分布的算法之后,还需要对不同资源的结果得分进行统一,并以这个统一的标准对不同资源的结果进行统一的排序,最终把这个排序以统一的界面反馈给用户.如何统一不同资源的得分呢?该文利用检索结果中各个条目的元数据信息作为标准,同时使用线性回归的算法,把各个资源的得分映射到一个统一的得分.这样既考虑了原资源的结果排序和得分分布,又考虑了不同资源之间得分的映射关系,且实现非常简洁,效果比其他方法要好.目前,元搜索器系统能够有效的运转,就结果评分和结果融合,都达到了预期的效果.且该文所使用的算法,都是比较实用、易于实现的且有效的.
其他文献
本论文对求解函数总体极小的方法-谷峰法进行了验证与测算,分别描述了一元函数,二元函数及n元(n>2)函数应用谷峰法的算法思想和详细实现,并在计算机上进行了编程实现,做了大
随着地理信息系统应用范围的扩展和应用需求的深化,对于空间应用的组成和实现方式提出了新的要求,对于数据的共享能力和数据间的互操作性提出了新的要求,而传统的应用系统间
在现代微处理器的设计、测试、验证过程中,编译器扮演着重要的角色,它是软件和硬件之间的桥梁,如何最大限度的使用处理器的结构特点以改善处理器的性能是编译器和体系结构设
该文将ABC方法引入到Web Services业务系统开发中,通过将业务流程作为Web Services业务系统体系结构的一个重要的制品,来指导整个业务系统的开发,并将其贯穿于整个开发过程.A
随着视频点播等网络多媒体技术的快速发展,现有的TCP拥塞控制机制已无法有效地解决网络拥塞问题.为了改善这种状况,可以通过改进现有的拥塞控制算法来获得较好的性能.该文先
整数因式分解是一个很古老的数学问题,该问题是指:给出一个正整数,将其分解成一些素数相乘的形式。整数因式分解算法有很多,相比之下,对大整数进行因式分解,数域筛法是目前渐进意义
近年来,随着计算机和网络通信等技术的高速发展,各种多媒体数据和信息的种类和数量与日俱增.如何有效的管理各种多媒体数据,并且能够有效地从这个巨大的多媒体信息库中找到需
随着网络应用日益广泛,网络安全已成为现今人们关心和研究的热点问题.设计安全措施来防范未经授权访问系统的资源和数据,是当前网络安全领域的一个十分重要而迫切的问题.目前
随着因特网、Web技术的快速发展,用户对服务可用性和服务质量的要求越来越高.如何提高基于Web的分布式文件存储系统的可用性是我们面临的一个新问题.在分布式文件存储系统中,
Map/Reduce型海量数据处理平台(以下简称“Map/Reduce平台”)是海量数据处理领域的最新技术进展。Map/Reduce平台具有简化的并行编程模型、以数据本地化处理为导向的计算模式以