论文部分内容阅读
Web搜索引擎是Intemet信息检索的主要工具,用户通过输入查询词来获取Web搜索结果,在Internet资源中检索得到自己所需的信息。然而,Internet上与用户查询词相关的信息十分丰富,搜索引擎返回的搜索结果数量通常比较庞大,用户要从数量庞大的Web搜索结果中获取自己需要的信息,常常显得很困难。改善搜索引擎检索质量的一种有效途径是应用聚类技术将Web搜索结果中相似的Web文档聚集成为类簇集,即Web搜索结果聚类。对Web搜索结果进行聚类,可以为用户提供易于浏览的Web搜索结果主题导航,帮助用户快速定位符合自己查询需要的主题类别,从而提高用户使用搜索引擎的检索效率。本文以形式概念分析理论为基础,应用概念格对Web搜索结果聚类方法进行研究,提出了一种基于形式概念分析的Web搜索结果聚类方法ClusterFCA。ClusterFCA聚类方法采用自顶向下逐层构建部分概念格的算法来构建Web搜索结果聚类层次,而不是构建概念格的全部层次来实现Web搜索结果聚类。这样不仅可以发挥形势概念分析用于聚类Web搜索结果的优势,还降低了形式概念分析聚类Web搜索结果的时间耗费,避免了概念格层次过于复杂对聚类结果可浏览性造成较大影响。为了测试ClusterFCA方法的聚类效果,本文采用C++程序设计语言,将ClusterFCA方法进行了实验。通过类标签的可读性、类内容的相关性、类内容覆盖率和类重叠度等指标,来综合评价Web搜索结果聚类算法的质量。实验结果表明,应用ClusterFCA方法,截取概念格的第一层、第二层得到的Web搜索结果聚类层次可以获得较好的聚类效果。然而,对于不同用户提交的同一个查询词,应用一般的web搜索结果聚类技术,具有不同兴趣的用户得到的聚类结果是相同的,而用户的分类喜好根据用户兴趣的不同通常具有个体差异。一般的Web搜索结果聚类方法仅仅针对Web搜索结果网页内容进行分析处理,并未结合用户兴趣对Web搜索结果实现个性化的聚类。本文在ClusterFCA方法的基础上,结合web搜索结果网页内容分析和用户个人兴趣分析,提出了一种基于形式概念分析的个性化Web搜索结果聚类方法PCFCA。它动态地对Web搜索结果进行个性化聚类,为具有不同兴趣的用户提供个性化的概念聚类层次。实验结果表明,应用PCFCA方法,截取概念格的第二层、第三层得到的w_eb搜索结果聚类层次可以获得良好的个性化聚类效果,但在类内容覆盖率方面有所欠缺。