论文部分内容阅读
Internet自诞生以来不断成长,尤其是最近几年更是得到长足发展,功能不断扩展,信息容量呈爆炸性趋势增长,然而在信息极大丰富的同时,用户也面临着信息过载和资源迷向的问题。Internet网络环境下的信息检索于是成了一个新的研究热点。1994年前后,Lycos,Yahoo!等大批搜索引擎相继涌现,发展到现在,搜索引擎己成为上网用户最经常使用的网络服务之一。 独立搜索引擎相对容易实现,在早期设立较多,分布在不同领域、不同地方为用户提供服务,在当前的应用仍然是最广。但是它覆盖面狭窄,检索效率低,随着web的迅速发展,越来越显得力不从心。为了改变这种状况,它们中的一些改变原来的综合信息收集,转为集中收集某一领域的信息,为专业检索用户提供精确的检索结果。这种方式对清晰查询、专业查询尤其有效。但是,这种专业搜索引擎是以牺牲大的覆盖面为代价而取得某范围内的高精度的。 根据专家评测,目前主要搜索引擎返回的相关结果比率不足45%,用户要想获得一个比较全面、准确的结果,就必须反复调用多个搜索引擎。元搜索引擎是通过集成多个独立搜索引擎的方法来扩大检索覆盖面,避免重复查询的。而且,由于它的选择余地大了许多,因此,也可为提高检索精度打下良好基础。 在传统元搜索引擎中,每次查询项提交给元搜索引擎时,元搜索引擎会选择同样的成员搜索引擎,查询项预处理算法和查询结果融合算法。这种处理方法仅考虑到用户的查询项,而没有考虑到用户所需信息的类别。这篇论文介绍了一种基于信息类别的元搜索引擎,对于用户提交的相同查询关键词,如果用户选择不同信息类别,系统会选择不同的成员搜索引擎,不同的查询项处理算法和不同的查询结果排序算法。 本论文首先介绍元搜索引擎技术的理论基础,然后重点研究了元搜索引擎结构原理和实现元搜索引擎过程中的关键技术,包括成员搜索引擎选择技术、结果合成技术和论文相似性检索的算法。重点研究了各种己有的技术实现的常用算法,并且在分析比较的基础上提出本课题采用的算法。最后通过实验验证了算法的高效性。