论文部分内容阅读
随着网络技术和搜索引擎技术的飞速发展和日趋成熟,人们逐渐频繁使用因特网来获取需要的资源,尽管现有的搜索引擎采取各种方法来提高检索结果的精度,但其中的相关文档和不相关文档鱼目混杂,给用户查找信息带来了负担。
将搜索引擎检索返回的结果进行聚类操作,将其分成若干个类,同一类内的文档相关度尽可能的大,不同类之间的文档相关度尽可能的小,这种方法将大大缩小用户需要浏览返回结果的网页数量,从而缩短了用户查询所需要的时间。
本文就文本特征提取、特征加权和文本聚类算法进行了深入的研究,采用TF-IDF算法作为特征提取和加权的算法,STC聚类算法作为聚类算法,主要研究内容如下:
1)作者对文本聚类预处理的关键技术做了深入的研究,在此基础上设计和实现了包含搜索结果获取、网页去噪、分词、去停止词、标记词性等功能的预处理模块;
2)TF-IDF是向量空间模型中最常用的权重加权算法,但是,词对文档的重要度还与词在文档中的位置以及词性等因素有关。本文在传统的TF-IDF基础上加入了位置权重和词性权重对其进行修正,并进行实验对比,实验证明改进后的TF-IDF有效地提高了聚类算法的宏平均和微平均,从而使系统的性能有了很大的提高;
3)本文对STC算法做了深入的研究和分析,通过对比实验证明它比目前流行的Lingo算法和K-means算法更适合作为搜索引擎检索返回结果的聚类,STC算法提取出的标签更能反映类别信息,易于理解,聚类的时间复杂度也可以让用户接受。