论文部分内容阅读
随着信息技术的发展,人们已经从信息缺乏的时代过渡到信息极为丰富的数字化的时代。如何从海量信息中迅速有效地获得所需信息也就成为一项很重要的研究课题。为此目的,文本自动分类被研究者提出并进行了应用研究。研究文本自动分类具有重要意义,它可以大大的缩短资料的整理时间,为信息检索提供方便,有利于现实文档的存档管理。
所谓文本自动分类,是指在给定的分类体系下,由计算机根据文本内容来判别文本类别。根据分类知识的获取方法不同,可将文本分类系统划分为基于知识工程和基于机器学习两种类型。由于机器学习的方法具有开发周期短、灵活性高等优点,它成为人们构造文本分类器时采用的一种主要方法。本文在构造分类器时同样采用了机器学习的方法。国外对文档分类技术的研究已经开展了多年,并在邮件分类、电子会议、信息过滤等方面得到了较为广泛的应用, 在国内,文档自动分类技术的研究起步较晚,且由于中文与英文之间存在较大的差异,不能照搬国外的研究成果,因此有必要研究并开发出实用化的中文文本自动分类系统。
本文对中文文本分类的汉语分词、特征选择、文本表示、分类算法、等关键技术进行了深入的学习和研究。在此基础上设计了一个基于KNN算法的中文文本自动分类系统。系统中,本文使用正向和反向最大匹配法相结合的方法来进行分词,经未登录词识别后,采用词频统计的方法来进行歧义处理;在特征选择过程中通过计算特征项的文档频率和信息增益这两个指标的算术平均来对特征项进行缩减;利用向量空间模型来表示文本,对于向量中特征项的权重,本文使用一种改进了的TFIDF方法来计算,改进后的TFIDF方法,考虑了特征项在文档中出现的位置、特征项的长度等信息,用它来计算权重就更为合理;分类算法是分类器设计的核心,它直接影响到分类器的性能,由于KNN算法具有较好的查全率和查准率,我们使用KNN算法来构造分类器,并对传统的KNN分类器作了改进,提出并设计了一个两级分类器,第一级分类器使用较少的特征项来表示文本,第二级则用较多的特征项来表示文本,这样对于内容较少类别特征比较明显的文档,通过第一级分类器就能得到判别结果,如果第一级判别不理想,再用第二级分类器进行判别。实验证明,使用两级分类器加快了平均响应时间,同时查全率和查准率等分类器性能指标均比较理想。