论文部分内容阅读
随着网络应用的飞速发展和大规模数据仓库技术的广泛应用,人们越来越容易获得来自各个方面的大量信息。与此同时却也面对着“数据丰富,但信息贫乏”的挑战。因此人们迫切需要可以从海量的数据信息中发现有用的规律和有价值的知识的方法和工具。数据挖掘和知识发现技术的产生正是顺应了这个需求,并正以强大的生命力蓬勃发展,成为数据库研究的一个新领域。文本分类作为处理和组织大量文本数据的关键技术,是数据挖掘研究的一个重点和热点。文本分类技术可以在很大程度上解决信息混乱问题,从而协助人们高效管理和有效利用大量文本信息。为了得到更好的文本分类性能,本文对文本分类中的关键技术进行了分析总结,这些包括:文本表示模型、文本预处理、特征选择和分类方法等。其中特别对特征选择和贝叶斯文本分类算法作了深入的研究。在这些研究的基础上本文将改进了的特征选择方法与改进了的贝叶斯文本分类方法有效结合起来,实现了一个文本分类系统。最后我们做了两组实验来评定系统的性能。本文主要研究内容如下:
⑴对文本分类过程中的关键技术进行了研究,包括文本表示模型、文本预处理、特征选择、分类算法等。特别对几种常用的文本分类方法进行了研究。
⑵分析和讨论了贝叶斯分类方法的原理,特点以及性能,并根据文本分类的需要,重点研究了朴素贝叶斯文本分类的改进算法。
⑶由于文本数据是一种常见的高维数据,因此对其进行有效的降维是提升贝叶斯文本分类性能的一个重要方法。特征选择是降维的一个重要途径,因此本文着重研究和分析了几个不同的特征选择方法。由于用于两类别分类的优势率特征选择方法有很好的分类效果,因此我们对优势率特征选择方法进行了改进的研究工作,使这个方法可以更好地支持多类别的分类。
⑷将文中改进的朴素贝叶斯的文本分类方法和改进了的特征选择方法结合起来实现了训练算法、特征选择算法和分类算法。
⑸用java语言实现了一个文本分类系统原型,并就这个原型进行了文本分类实验,实验数据显示基于这个设计思路建立的文本分类系统有着不错的性能指标。