论文部分内容阅读
搜索引擎是目前最常用的互联网搜索工具,但目前搜索引擎还远远没有达到能令用户非常满意。目前的搜索引擎的一个明显的问题是,返回结果的呈现方式是一个线性列表,这就迫使用户在很长的线性列表中寻找自己感兴趣的信息,使得用户查询效率不高。
如果能够将搜索结果组织为层次结构的类别,就能够很大程度上帮助用户快速定位信息,提高用户浏览的效率。与传统的搜索结果聚类方法不同,本文提出了一种以类别可描述性为重点的聚类算法,将搜索结果以层次结构的类别形式呈现。我们将此算法称为HIDC,因为这个算法具有三个重要的特点:Hierarchical (层次的), Interactive (交互的), Descriptive (具有好的描述性的),C表示Clustering (聚类方法)。这一方法的主要思想是首先找到具有好的描述性的类别标签,然后将类别标签组织成一棵有层次的标签树。在标签树的基础上,将相关的文档分配到各个标签下,最后确定每个类的实际内容,完成类别树的构建。本文将详述如何使用隐含语义分析的方法来发现类别标签以及将标签组织为层次型标签树。除此之外,我们使用经典的向量空间模型来实现文档的分配。
作为论文的一部分,我们还在Carrot2框架中实现了算法,并将我们的实验结果与其他著名的搜索聚类系统结果,包括LINGO、SnakeT和Vivisimo,进行了比较。我们使用Yahoo!的搜索结果作为统一的数据源,从各个系统生成的标签质量和文档质量方面进行了比较和分析。实验证明,我们的算法是可行而有效的。