论文部分内容阅读
从大量繁杂的文本信息中获取有用的信息是信息处理的一大任务,而文本分类是实现这个任务的最重要的方法之一。向量空间模型是进行大规模文本处理常用的表示模型,而类中心分类法是向量空间模型中一种非常有效的分类方法,计算文档向量和每个类别中心向量的相似度,其中相似度最大值所对应的类别,就是文档的所属类别。向量空间模型有两个固有的缺陷:高维的向量和扭曲的空间。在各类文本挖掘和检索技术中,一般利用欧式距离来计算文本向量之间的相似程度。文本特征空间是个非常复杂的空间结构,而各个坐标之间也并不是平等的,概念之间的语义有不同程度联系。而经典的欧氏距离应用的前提条件是每个坐标对于计算欧氏距离起着相同的作用,按照经典的欧氏距离进行计算会导致空间形状的扭曲和变形。本文针对传统向量空间中特征项不独立导致的计算误差原因进行研究,发现在坐标系独立的笛卡儿直角坐标系中和坐标系不独立的笛卡儿斜角坐标系或者说仿射坐标系中两向量内积计算上存在差异,这必然导致用向量内积来计算的两向量的相似度在传统的向量空间中存在误差。针对传统向量空间由于特征项不独立导致的计算误差,本文对传统向量空间中的类中心分类法引入仿射空间概念。但直接在以特征项为维的向量空间内引入基于仿射空间的相似度计算的改进又无疑大大增加了计算的时间的复杂度,对此本文引入可以降低计算维数的正交分解模型,将由于特征项不独立导致的计算误差研究转化为改进类别不独立导致的计算误差的研究。正交分解和仿射空间中线形变换存在着对应关系,由此本文提出了基于正交分解的类中心分类法以及基于仿射空间和正交分解的类中心分类法。为了验证本文提出的基于正交分解的类中心分类法和基于仿射空间和正交分解的类中心分类法有效性和可行性,为验证基于仿射空间的改进是否能有效降低由于类别不独立导致的计算误差,本文对基于正交分解的类中心分类用于中文文本分类的效果和基于仿射空间和正交分解的类中心分类法进行了对比实验。实验结果表明无论从整体混淆矩阵、总体查全率、查对率、以及各个类的查全率、查对率方面,基于仿射空间和正交分解的类中心分类法都要优于基于正交分解的类中心分类。同时本文提出的三个类中心分类法的改进算法的分类效果都要优于传统的类中心分类法从而验证了本文对传统类中心分类法的改进,是有效的可行的。