论文部分内容阅读
文本聚类是通过聚类算法将同类的文本划分到同一簇的过程,该过程涉及到文本预处理和文本聚类算法执行两个方面。文本聚类方法目前已经被广泛的应用于舆情分析、搜索引擎、电子图书等服务。文本聚类过程属于典型的无监督学习方法,在聚类之前无需知道每个类别的描述信息。这也是文本聚类的难点,众多研究者都对其进行研究,并取的了丰富的研究成果。在文本进行聚类之前需对文本进行预处理,需要通过使用数学的方法表示文本,一般通过向量空间模型对文本进行表示。通过该模型表示的文本都是由文本本身的特征词与其权重构成的向量。但通过传统方法计算的特征词权重在表示文本时有一定的局限性,不能通过特征词权重充分体现文本间的差异性。而且在传统模型中不会考虑特征词出现的先后顺序,更不会考虑特征词在不同位置出现代表的意义是否相同。还有文本聚类算法的选择对聚类效果影响也很大,多数聚类算法不能很好的结合文本的编码方案。本文主要对文本聚类方法的改进和应用做了如下研究:1、首先分析了传统特征词权重计算方法对通过特征词权重表示文本的局限性,并且通过权重因子对特征词权重计算方法做出了改进。该方法强调了特征词权重在文本集合中的重要性,而不是单纯的想通过特征词权重表示文本,增强了同类文本之间的相似度。并在对文本进行编码时修改了传统的VSM编码方案,使文本向量由四条特征向量组成,并对特征向量加上位置权重信息。最后考虑到文本编码方案的修改对文本间相似度计算的影响,重构了文本相似度计算公式。2、其次根据改进的文本预处理和编码方案,通过遗传控制因子(GCF)对遗传K-均值文本聚类算法进行改进。使用GCF对遗传算子操作进行控制,使得算子中的优质个体一定被引入下一代,从而克服了遗传K-均值算法算子操作的低效性。使其应用到本文改进的文本编码方案中能更好的改进聚类效果并且提高聚类精度。最后对改进的文本聚类方法进行实验分析,证明了改进的方法在文本聚类精度上有明显提高。3、最后将结合权重因子和特征向量改进的文本聚类算法应用到舆情热点发现中,对具体应用做了详细分析和流程安排。实验结果表明,改进方法对舆情热点的趋势和预警研究很有帮助。