论文部分内容阅读
随着互联网技术的飞速发展,文本文档、Web页面在互联网中快速扩充,如何帮助人们更快捷、有效地获取信息,已成为目前搜索引擎领域重要的研究课题之一。鉴于此,聚类搜索引擎应运而生。聚类搜索引擎将文本聚类技术应用到搜索引擎中,对搜索结果进行有效的聚类,帮助用户快速准确地定位感兴趣内容,从而提高搜索引擎检索精度。近年来,聚类搜索引擎在国外发展迅速,许多技术已经应用成熟。相比之下国内这方面的研究还比较少,但也有部分中文搜索引擎将聚类技术引入其中,以提高中文信息检索的精度和效率。我们将其称为中文聚类搜索引擎。
本文的主要工作是对聚类搜索引擎的体系结构进行了深入研究,并对现有的中文聚类搜索引擎进行改进,以提高检索的效率和精度。具体的研究工作简要概括为以下几个方面:
一、对聚类搜索引擎系统及其核心模块进行了简要的设计,并在此基础上对每个模块中的关键技术做了一个详细的介绍。
二、目前聚类特征选取方法大多是基于统计学的,其中最主要的缺点是忽略了词与词之间的语义关系,鉴于此,本文提出了结合语义的特征选择方法。该方法首先对特征项进行词性选择与分类,然后计算词语之间相似度,最后进行同义词合并加权。经过这些步骤使得特征选取从词的层面上升到主题语义的层面,不仅大大降低了特征空间的维度,而且提高了聚类的速度和精度。
三、K-means方法在应用中容易受到孤立点的干扰,为了克服这个缺点,本文提出了一种基于平均密度过滤孤立点的方法。该方法简单实用,且能够较好的识别文本集合中的孤立点,为下一步的聚类的稳定性奠定了良好的基础。
四、针对传统K-means算法中聚类参数K的不确定性以及初始聚类中心选取的盲目性,本文改进了基于“最大最小”原则选取初始聚类中心的方法,使得聚类参数K的确定过程自动化,提高了文本聚类质量。