论文部分内容阅读
互联网的飞速发展,导致网络数据不断膨胀,网络中积聚了海量的有用信息,如何从这些信息中获取用户兴趣信息成为时代的挑战。搜索引擎(search engine)技术诞生为用户发现兴趣信息提供了一条快捷的途径,在万维网中取得了广泛而成功的应用,并且逐步成为广大用户从网络中获取信息的首要方法。搜索引擎可分为元搜索引擎(如InfoSpace)、目录式搜索引擎(如雅虎、MSN)和全文搜索引擎(如Google、百度)等三类,其中全文搜索以其强大的功能和便捷灵活的特点迅速吸引公司、学者和用户极大关注,但是目前搜索引擎因为查全率和查准率的低下,其性能还有待进一步的提升。全文搜索引擎技术包括检索资源的组织标识、关键词匹配和结果排序等技术。由于网络信息量巨大,与用户查询项相关的网页也不计其数,若让用户通过阅读所有相关网页来筛选出最感兴趣部分,从精力上和时间上来说都是不切实际的。因此,面对海量的相关页面,如何快速地查询到目标内容已经成为信息检索领域的重要挑战。网页排序作为搜索引擎技术的重要步骤,对高质量的目标信息的返回起着关键的作用。在过去的几年中,搜索引擎排序有了很大的提高,目前的搜索引擎排名算法大多以网页的链接结构为基础,如非常受欢迎的HITS算法和PageRank算法。许多国内外研究者对这两种算法进行了研究和改进,并提出了一些更优的综合排序模型,但是还有许多需要进一步推进的工作。本文研究了国内外搜索引擎排序算法的发展历史和背景,深入分析了目前流行的各种排序算法的优缺点及排序效果,并对一些新提出的改进算法进行了探讨和总结。针对这些算法的不足,本文重点讨论了一种改进的搜索引擎排序算法,旨在提高用户搜索相关资料的效率和对数据的管理质量。该算法首先根据关键词的语义确定主题信息,然后利用用户的活动记录分析其行为和偏好,同时计算各相关网页的访问记录。若被访问越频繁,则代表该网页的重要程度越高,说明它更具有包含用户寻找的信息的可能。最后结合这三个方面的信息,返回更符合用户目标的内容。通过识别每个查询类型的特点,为Web搜索查询分离出信息型的、导航型的以及事务型的特征,将这些特征应用于现实的分类之中,自动分类排序Web搜索引擎检索结果。