论文部分内容阅读
随着信息处理技术的快速发展,文本聚类作为一种高智能的文本信息处理方式越来越引起人们的注意。特征提取是文本聚类中的关键一环,只有选择出好的特征才能较好地反映文本的类别属性,提高聚类效果。本文在参考前人工作的基础上针对中文文本聚类的特征提取进行了系统的研究,并对词频特征提取方法进行了改进,同时发现了中文文本特征在词性方面的一些规律,具体工作如下:
首先,在分析各种特征选择算法的基础上,本文对特征选择的词频方法进行了改进,既保证了文本向量的有效非零表示,又使得特征选择算法减少了对停用词表的依赖,减少了特征空间的维数,提高了聚类准确度。
其次,本文对中文文本特征在词性上的潜在性质进行了深入的研究,发现了中文名词特征的显著重要性,分析了产生这种情况的原因,并通过试验验证了这一结果。
中文名词特征的显著重要性可以应用在特征提取阶段,进行特征提取时优先甚至只选择名词特征;或者可以在聚类操作时,如运用k-means算法进行聚类操作时,增加名词特征的权重,提高聚类效果。
最后本文将上述结论在一数据集上利用k-means算法进行了实际聚类操作的应用,验证了结论的正确性。