论文部分内容阅读
文本聚类是文本挖掘的一项重要技术,可广泛应用于文本挖掘与信息检索等方面,在大规模文本集的组织与浏览、文本集层次归类的自动生成等方面都具有重要的应用价值。但是,传统的文本聚类算法忽略了文本中单词之间的语义相关性,存在聚类结果不稳定等问题。论文主要钳对以上问题对文本聚类进行研究。论文先论述了文本挖掘的相关知识,分析了文本聚类的必要性及国内外研究现状,并介绍了传统的文本聚类算法,并对其进行比较和分析。重点对文本表示方法及DBSCAN算法做了深入研究,对相关算法进行改进,并在此基础上设计一个文本聚类系统。本文主要工作如下:(1)介绍常用文本聚类算法,并从伸缩性、多维性、处理高维数据的能力等方面对常用文本聚类算法进行分析和比较。(2)提出一种基于语义列表的文本聚类算法,该算法利用语义相似度计算文本的相似度,获得文本的语义相关性,采用语义列表中的同义词近义词指针降低单词的冗余度,降低了文本数据的维度,最后采用基于划分聚类算法对文本聚类。实验表明此算法提高了聚类结果的正确性。(3)对聚类算法DBSCAN进行改进,提出一种阈值优化的文本密度聚类算法。该算法首先使用k近邻距离对对象进行排序,并通过分位数区分密度不同的各序列,找到与其对应的优化,根据优化阈值使用密度聚类方法对对象进行聚类。改进后的聚类算法克服了阈值选取对聚类结果的影响,提高了聚类精确度和时间效率。文章采用树形结构存储聚簇,增加了聚簇的可读性。实验结果证明了该算法的有效性。(4)在理论研究的基础上,将本文提出的文本聚类算法应用于文本数据集中,设计一种文本聚类系统,该系统提供了预处理模块、语义列表模块、聚类算法模块、结果评估模块,分析系统各个模块的主要功能及其应用,结果表明该系统具有良好的可扩展性、灵活性。