论文部分内容阅读
当今,随着信息技术不断向前发展,在机器学习这门计算机学科中,有关模式识别的理论知识已经日趋成熟,同时应用到了许多领域,其中一个重要的研究方向是基于统计的自然语言处理。由于互联网的兴起,基于自然语言表述的电子文本信息越来越多,在这么多的电子文本信息中,基于自然语言的信息处理的一个最大目标是怎样有效地获取和管理这些信息。对于提出的这些问题需要对自然语言进行研究和其相关应用,文本分类在这里显得特别重要,它是作为信息检索等问题的基础。文本分类主要分为两个阶段,分别采用了自然语言处理、机器学习、模式识别、文本挖掘技术来实现。因此,文本分类在理论研究上的价值体现在对这些技术的推动。文本分类能够有效的提高网上信息检索的效果,不仅是改进信息获取模式的重要方面,也是内容安全的基础部分。因此分类性能的好坏已经成为关注的焦点,研究文本分类任务的理论和工程应用,将具有重要意义。在现有的研究成果上,本论文对文本分类及其相关技术做了一些研究。首先介绍了文本分类技术的研究现状及该课题研究意义;接着介绍了文本分类的过程和在这个过程中所用到的相关技术,主要对中文分词方法、特征选择方法和文本分类算法做了研究;然后介绍文本分类设计的整个过程,在预处理的过程中为了对三字长交集型歧义字段消除歧义及对停用词的处理,对最大匹配分词法进行了改进,同时在基于KL散度的特征选取法基础上并且结合了特征项的TFIDF权值,这样选取出的特征项能比较准确的表达文本内容,为分类打好基础,最后对贝叶斯算法、简单向量距离分类法和KNN(K最近邻居)算法进行了比较,找出其分类效果最佳并结合时间复杂度选出一种实用性比较好的算法。