论文部分内容阅读
文本聚类在文本挖掘和信息检索系统中发挥着重要的作用。这种技术可以改善检索性能、提供导航/浏览机制、发现相似文本等。因此,文本聚类已成为一种处理和研究文本的重要技术。
文本聚类的首要问题是如何将文本内容这种半结构或无结构化的数据表示成为结构化数据。目前多数文本聚类算法都是以向量空间模型(VSM)为基础的。这种文本表示方法非常简单,但却引发了高维稀疏的问题。而且,基于向量空间模型的聚类算法都没有很好地解决文本数据所特有的两个自然语言问题:近义词和多义词。所有这些问题都极大干扰了文本聚类算法的效率和准确性,使文本聚类的性能下降。虽然人们提出通过向量空间权重调整和降维技术来解决上述问题,但是这些方法都有自身的缺点。向量空间权重调整法实际上并没有解决以上问题,它只能非常有限地提高文本聚类的性能。降维法虽然解决了高维稀疏问题,但是降维的代价一般都非常大。为了避免上述问题的产生,本人做了以下工作:
第一:提出了一种优化初始聚类中心的K—平均聚类算法。该算法从传统K—平均算法对初始聚类中心的敏感性分析出发,结合一种改进的遗传算法和网络中心数学模型对初始聚类中心进行优化,有效的解决了算法对初始聚类中心的敏感性问题。
第二:在向量空间模型中,由于文档集所对应的是一个高阶的稀疏矩阵,因此计算量巨大;同时由于词间多义性和同义性的存在,因而会使不相关的文档被聚类在一起,而相关的文档不能聚类在一起。因此本文提出了一种基于词关联语义的双向文本聚类迭代算法来解决这一问题,该算法先以句子为单位建立词之间的关联矩阵,考虑了词条本身所蕴含的含义以及词与词之间的关系,然后分别对词及文挡进行聚类,通过词的聚类来调整文档的聚类,反过来也通过文档聚类来调整词的聚类,经过如此反复迭代来调整聚类结果。经实验证明调整之后的聚类簇内聚性更强,类间区分度更大,聚类结果更为准确,能有效的消除同义词带来的问题。