论文部分内容阅读
随着Internet的普及和网络技术的不断完善,Internet已经成为了全球最庞大最丰富的信息资源库。然而用户查询信息时常常被信息淹没,迷失在信息的海洋中,这大大降低了检索的效率。文本聚类技术是解决海量文本信息的分类管理及可视化的一条有效的方法。文本聚类因为不需要类别的信息,能自动实现对文本的分组,近年来已经在信息检索领域获得了普遍的应用。其中用到的经典的聚类方法包括C均值聚类和模糊C均值聚类,由于这两种方法只能对少许典型分布的样本奏效,并且都没有对样本的特征进行优化,而是直接使用样本的特征进行聚类。因此聚类方法的效果很大程度上取决于样本的分布,如果在其中一类样本散布较大,另外一类样本散布较小的情况下,这些方法将会失效。核聚类算法的主要思想是通过一个非线性映射,将输入空间中的样本映射到高维特征空间中,并选择合适的Mercer核函数取代非线性映射的内积,在特征空间中进行聚类。由于利用核函数,可以用低维空间中的输入向量直接计算出高维空间中特征向量的内积,从而并没有使计算量随着向量的维数升高而增加许多。本文在了解核方法的基本原理上,结合熵理论研究了基于核函数模糊聚类的子空间样本选择算法和初始聚类中心优化的加权最大熵核聚类算法(WKMEFCM),并将其应用到中文文本聚类中。实验结果证实,对于分布混乱以及高度相关难以划分的文本数据,由于Mercer核函数的引入,使原来没有显现的文本特征得以凸显,从而使聚类效果更好。最后,本文基于开源的Carrot2构建了一个中文Web文本聚类搜索系统,实现了对搜索结果的聚类。针对中文文本的特点,在特征项的权重计算上,既考虑了传统的词频和文档频数,也结合了词的词性和词在文本中的位置信息,因此提高了权重的可信度。进一步将本文研究的WKMEFCM算法应用到该系统中,对系统的评估表明,其提高了信息检索的效率。