论文部分内容阅读
随着互联网的发展,以电子形式的信息量飞速增长,为了有效地利用和管理海量信息,信息检索逐渐成为备受关注的领域。由于大多数的电子信息是以半结构化的文本形式存在,文本分类(Text Categorization)在信息检索中就显得尤为重要,并有着广泛的应用前景和研究价值。
本文主要在向量空间模型(VSM)框架下进行相关的研究,对该框架下的文本分类关键技术进行分析和阐述,重点探讨文本分类中的两大关键技术:特征选择和特征加权,在此基础上提出了基于变精度粗糙集理论的文本分类算法(CDD—VPRSW),并通过实验验证了该算法的有效性。
本文主要工作如下:
首先,分析特征选择的必要性并对目前比较常见的特征选择算法进行分析和比较。根据词在不同类间的分布差异情况,构造出基于类别区分程度因子的量度公式,并在此基础上提出基于类别差异的特征选择算法(CDD)。
其次,分析TF—IDF方法的缺点。通过对变精度粗糙集相关性质的研究,提出了基于变精度粗糙集特征词重要度的概念,并对TF—IDF进行改进,构造出新的特征词权重计算公式(VPRSW)。
最后,利用目前分类效果较好的K近邻算法和SVM算法在两个比较权威的语料集上进行实验,实验结采证明了CDD—VPRSW对分类效果有所提高。