论文部分内容阅读
本文首先对Web挖掘流程以及Web挖掘分类及各自的研究现状及发展进行一个概括地介绍;然后结合汉语自身的相关特点较为详细地分析了中文文本自动聚类中所涉及到的关键问题及其技术,并且应用S.T.Dumais提出的潜在语义分析LSA来重新构造向量空间模型。基于余弦相似性和距离相似性提出了一种新的相似性度量方法,这种度量方法是对余弦相似性和距离相似性的折中。基于MartinEste等提出的基于密度的聚类算法DBSCAN,提出了处理簇的边界对象的DBSCAN算法,该算法解决了DBSCAN算法在处理簇的边界对象时的不足,在不改变时间和空间复杂度的情况下使聚类结果更加有效。最后结合上述算法,本文设计出了一种中文文本自动聚类系统。实验测试数据表明,这种聚类方法聚类效果比较理想。