论文部分内容阅读
随着信息技术与互联网的迅速发展,信息容量迅速增长,大量的数据资源存储在各类信息载体中。在这些庞大的信息资源中,蕴含着大量有价值的知识。面对浩瀚的数据海洋,人们难以获取有用的信息,这导致庞大的数字化信息和人们获取所需信息能力之间的矛盾日益突出。如何从大量纷杂的信息中获得所需的知识,是一个非常困难而又富有前景的研究问题。文本分类是对文本集进行有序组织,把内容相似、相关的文本组织在一起,可以将信息归类,能较好地解决信息杂乱现象,方便准确地定位所需信息和对信息分流,因此文本分类就成为文本信息检索、文本信息数据挖掘的重要基础与前提。
国内外许多学者对文本分类技术进行了研究,获得了大量的研究成果,给出了许多文本分类模型,如布尔模型、向量空间模型、概率模型等。本文在前人研究的基础上,对基于向量空间模型的文本分类技术进行了研究与分析。基于向量空间模型的文本分类包括文本预处理、特征选择、特征权重计算、分类器构造、分类算法等多个模块。
文本预处理是文本分类的第一阶段,主要是对文本进行结构处理和分词处理:接着,特征选择采用一定的算法(如信息增益算法),对文本特征进行提取,保留重要词,舍弃次要词;特征项权重计算用来确定特征权值,后者被用来构造分类器,直接关系到文本分类效果。分类器构造分为训练与测试两个阶段,训练阶段被用来构造分类器;测试阶段利用测试集已有的类标号信息对分类器进行评价,获取分类准确性的评判:分类算法被用来对文本进行分类。
本文在仔细分析前人工作的基础上,主要展开了下列研究:
(1)概述了文本分类的过程和相关技术,包括文本预处理、中文分词、向量空间模型、特征项选择、特征项权重计算等。
(2)给出了一个文本分类模型,并对模型的各模块进行了论述,特别描述了文本特征选择及特征项权重计算。
(3)改进了TF-IDF特征项权重算法,改进的特征项权重算法综合考虑了特征词在类间和类内的分布情况以及特征词在文本中的位置信息,给出了使用改进的特征项权重算法构造文本分类器的步骤。
(4)将改进的特征项权重算法用于开源的文本分类系统,并用开源文本集实验,分析比较改进算法的效果。