论文部分内容阅读
随着计算机技术和网络技术的发展,互联网已经发展成为一个巨大的信息空间。如何在这样一个包含丰富数据的信息海洋中准确查找自己所需要的信息成为越来越多学者研究的内容。搜索引擎的出现为用户提供了一种有效、方便的从互联网上检索信息的方法,但伴随着信息媒体的层出不穷和当前用户需求的日益复杂,一个搜索引擎适合所有用户的搜索模型已不能满足当前的需要,个性化搜索引擎在这样的背景下应运而生。聚类是数据挖掘技术的一个重要分支,聚类算法所具有的特性对个性化搜索引擎的发展有着特殊的意义,本文分析了不同聚类算法的聚类过程和聚类数据的特性,重点研究了能识别不规则形状簇的密度聚类算法和聚类过程简单、高效的层次聚类算法,在分析个性化搜索引擎技术特点的基础上,设计了基于密度和层次的混合聚类算法HCPS(Hybrid Clustering in Personalized Search)。网页排序算法的研究在优化搜索结果方面发挥着重要作用,有助于提高个性化搜索引擎的准确率,本文设计了基于PageRank的个性化排序算法PRPS (Personalized Ranking in Personalized Search)。HCPS算法是在层次聚类的框架下,定义了簇间距离、簇的合并规则和算法迭代所需满足的条件,引入离群度作为数据隶属一个类簇的标准,HCPS算法在聚类的过程中考虑了个性化搜索引擎中用户兴趣这一关键因素,使聚类结果经排序后输出的数据更接近用户搜索意图。PRPS算法通过分析PageRank算法的迭代过程,结合用户兴趣模型和HCPS算法聚类结果,根据各自的影响程度分配不同的系数,重新计算PRank值来代替原来的Page-Rank值,是一种基于PageRank的改进算法。PRPS算法根据用户对网页兴趣的大小及网页的重要程度对搜索结果进行排序,解决了PageRank主题漂移问题,使排序后的数据按照网页的重要程度和与用户搜索的相似度大小排序。本文设计并实现了一个基于密度和层次聚类的个性化搜索引擎实验系统,通过对实验数据结果的分析,HCPS和PRPS算法在搜索的准确性上取得了较好的效果。