论文部分内容阅读
随着数据库技术和网络的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。这些信息大都是文本数据,想从其中迅速有效地获得所需信息是非常困难的事情。这些海量的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。为此,中文文本自动分类被研究者提出并进行了应用研究,研究中文文本分类具有重要的理论意义和实际应用价值:自动分类在速度和效率上要大大优于人工分类,它能节省大量的人力、物力和资金;自动文本分类可以提高中文信息搜索的查全率和查准率,而且可以建立自动的分类信息资源,为用户提供帮助。现今,文本分类技术已经逐渐与电子政务、搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量,方便了人们的工作和生活。本文围绕文本分类技术展开了讨论,首先介绍了选题的研究的背景和意义,概述了国内外文本分类技术的研究现状,而后对文本分类的技术进行了详细的阐述,介绍了文本分类的一般过程。本文对文本表示、文本分词、特征选择、特征降维、分类算法和分类评估标准等文本分类领域所用到的技术进行了介绍并提出了一定的思考和见解。(1)介绍了现有语料库的问题和本系统的语料库的建立和维护,分析了文本的基本结构特点及文本中对分类过程有贡献的信息成分,对中文分词的常用方法和本文所用到的中科院计算所的ICTCLAS分词系统的框架结构和各部分作了描述。采用改进的CHI方法作为本文特征选择方法,并对此作了阐述。(2)在现有的文本向量特征权重的表示方法基础上,提出了一种改进的TF-IDF方法,使得特征词在不同长度的文档中的重要程度不同,从而体现了特征的区分能力并对该方法的正确性加以证明。(3)介绍了朴素贝叶斯分类方法,并给出了朴素贝叶斯分类算法。介绍了神经网络的基本特点,给出了一种改进的BP神经网络方法进行文本分类的思想,该方法使用VC维来确定隐层神经元个数,从而改进了BP隐层神经元只能由经验给出的问题。与传统单隐层的BP网络相比,本文使用含有2个隐藏层的BP神经网络,从而降低了网络误差。同时对该方法进行了算法描述和算法分析。(4)在以上研究的基础上,运用Visual C#2005和MS Access2000开发工具进行了部分实现工作,构建了一个中文文本分类系统CTCS (Chinese Text Classification System).文本分类作为数据挖掘的一项技术,随着数据库技术的发展,越来越得到研究者的重视,并进行应用研究。目前,文本分类技术已经逐渐与电子政务、搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量,方便了人们的工作和生活。本文首先对数据挖掘和文本挖掘作了概述,其中包括数据挖掘和文本挖掘的现状和文本分类的研究现状。在文本与处理阶段,总结了中文文本分词的主要特点和方法,包括主要的分词的常用方法,未登录词识别,并给出了中文分词目前的成果以及现有分词方法的局限等内容。其次,对文本的特征表示和特征选择的方法作了研究,包括中文文本表示的常用方法和特征选择的常用方法,对文档频率,互信息,信息增效益,卡方方法,文本证据权,交叉熵和优势率等方法作了介绍和比较。而后对主成分分析,潜在语义索引,非负矩阵分解,词汇聚类等特征提取和降维的方法作了介绍并指出了各个方法的优点和缺点。再次,研究了中文文本分类的常用的分类方法。包括贝叶斯分类方法,KNN分类方法,决策树分类方法,粗糙集分类方法,SVM分类方法以及遗传算法和神经网络分类方法等各种分类方法的特点和不足作了总结,并介绍了分类性能的评定方法。在文章的最后对文本分类的未来发展方向给出了一个展望。