论文部分内容阅读
随着互联网的发展,数据呈现爆炸式的增长,大量的文档不断涌现,而聚类分析可以从这些文档中获取大量的有用信息。因此如何高效地对文档进行聚类并应用于文本挖掘和信息检索的不同方面,成为当前急需解决的问题。文档聚类是通过相应的文档聚类算法将文档集合以簇的形式表示,使得相似性大的文档在一个簇中,相似性小的在不同簇中。文档聚类是数据挖掘以及自然语言处理领域的重要课题。在大多数文档聚类方法中,频繁被使用的是基于词包模型的文档表示技术,但是使用词包模型表示文档并没有考虑词项间潜在的关联,因此这些方法在聚类效果上并不令人满意。同时,一些文档聚类方法尽管考虑了词项间的耦合关联,但是涉及的关联并不全面。本文正是针对这些重要的耦合关联来展开更为全面的相关研究。本文以词项间的耦合关联为研究目标,主要提出了如下三种有效的聚类分析方法:(1)本文提出了一种基于WordNet和耦合关联分析的文档聚类,依据WordNet词典计算简单文档相似度,进行语义耦合,并将词项间同时出现的频率信息进行显示耦合和隐式耦合。把这三种关联耦合量化,进行聚类分析。(2)本文在原先CRM(Coupled term-term Relation Model)方法下,针对计算显示耦合并不直接的问题,提出了一种基于JS(Jensen-Shannon)散度的耦合关联文档聚类方法。该方法利用JS散度直接计算词项间的显示耦合,辅以隐式耦合来进行文档聚类。(3)本文针对前两种聚类方法中存在的以复杂计算提高聚类效果以及权重准确度不高的问题,提出一种基于自信息和位置词频的简化耦合关联文档聚类算法。该方法改变原先TF-IDF权重计算的方式,利用自信息以及位置耦合进行权重的计算,简化隐式耦合的复杂计算,提高了文档的聚类效率。本文对提出的三种方法都进行了实验验证。本文的三种方法都分别结合了K-means和DBSCAN两种聚类方法,并且使用两种数据集,表明这三种方法具有通用性。使用了WordNet、JS散度、自信息和位置,使得进行聚类前,文档处理和计算较为充分准确。本文提出的三种方法都与已有的耦合关联方法进行了对比,使用了Purity、RI、F1和NMI四种聚类评估指标。实验结果证明了本文提出的方法可以取得更好的聚类效果。