论文部分内容阅读
中文文本分类是指计算机按照某种分类规则构建判别公式和分类算法,将待分类的中文文本分到预先定义好的类别之中。从计算机技术的角度来说,文本自动分类是一个归纳知识并进行应用的过程。20世纪90年代以来,机器学习方法,如支持向量机、K近邻、朴素贝叶斯等,被广泛应用于文本分类。目前,中文文本分类研究已取得了很多研究成果,但还存在一些不足之处,例如,中文分词中单一使用正向最大匹配算法或逆向最大匹配算法,对歧义词的切分不够准确;特征选择中传统TFIDF权值算法对特征项权重计算不够合理,精度偏低,需进一步优化。本文在已有研究工作的基础上,对中文文本自动分类进行了深入研究,提出了一种基于双向匹配存同消歧的中文分词算法和改进TFIDF权重算法。针对目前预处理中文分词切分歧义问题,结合中文文本的特点,本文提出一种基于双向匹配存同消歧的中文分词算法。该算法对同一字串进行扫描时,先用逆向最大匹配法进行切词,再用正向最大匹配法进行切词,把两次切分结果相比较,相同的切分词段为正确切分字段,进行词语保留;不同的切分词段为歧义字段,进行歧义消解处理。通过对比实验,验证了该算法应用在中文分词中比正向与逆向最大匹配分词算法在分准率、分全率上有3%左右的提高,进而证明了该算法在中文分词中的有效性。特征选择阶段,传统的TFIDF权值算法存在如下不足:一方面没有考虑特征项在类别之间分布情况,导致在类别之间分布均匀,对类别区分度不大的特征项赋予了很高的权值;另一方面,没有考虑特征项在每个类别内部文本中的分布情况,导致在一个类别内部只集中在某几个文本的特征项赋予了很高的权值。针对这些问题,引入信息熵计算特征项分布的不确定性,本文提出改进的TFIDF算法,并通过对比实验,验证了该算法在计算特征项权重方面比传统的TFIDF方法更具有合理性、准确性,从而可以进一步提高中文文本分类的精度和效率。基于上述研究,本文将双向匹配存同消歧分词算法和改进的TFIDF方法集成于LIBSVM算法,实现了一个中文文本分类原型系统。在复旦大学李荣陆博士提供的公共语料集上,通过使用混淆矩阵、性能评价指标、对比效果图等对本文实现的中文文本分类原型系统进行了对比实验,结果表明在中文文本分类查准率、查全率、F1测试值上有5%左右的提高。从而进一步证明,本文提出基于双向匹配存同消歧的中文分词算法和改进TFIDF权重算法可有效提高中文文本分类的性能。本文在中文分词算法和特征项权重计算方法方面的研究结果还可应用于数字图书馆、信息过滤以及文本数据库管理等,具有一定的应用价值。