论文部分内容阅读
随着信息技术的发展,我们步入了一个信息化的社会,信息量呈几何级数增加。人们对信息资源的依赖性越来越大,如何实现信息的自动分类,尤其是中文文本信息的有效分类是目前中文信息处理研究的一个重要分支领域。
文本分类是指对于带有类别的文本集合,根据每一个类别的文本子集合的共有特点,找出一个分类函数或分类模型,根据该模型可以把其它文本映射到已有类别中的一个,从而实现对文本的自动分类。它使得用户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查找更为容易。
本文研究了文本分类的背景和发展现状,阐述了其系统结构。在系统的构建过程中,重点针对中文分词技术,文本表示,特征选取算法和分类算法四部分进行了详细的分析和深入的研究,并在现有方法的基础上分别予以改进。在下面的四点中,分别简单介绍了本文针对以上四个关键部分所做的主要工作。
(1).在中文分词部分,针对基于字典的分词方法中词典的容量有限,随现代社会发展迅速,新词不断出现导致分词方法极大地受到了词典的约束这个问题,本文提出了一种渐进式扩充词典的分词方法,在这种方法中结合了基于字符串匹配和基于统计相结合的分词方法。可以用统计的方法识别出词典中没有的新词,并将其补充进词典中,不断地扩大词典的规模,从而极大地提高了分词的准确度。
(2).在文本表示这一部分,本文通过分析经典的TF-IDF公式存在的问题:该公式在计算特征词权重时,仅考虑了词频因素而忽略了特征词在文章中的位置、特征词的长度、特征词出现在类内类间的文本频数这三个因素对词条权重的影响,提出了一种新的特征词权重的计算方法,该方法将这三方面的因素考虑进来,在TF-IDF 公式的基础上又进行了进一步的改进。
(3).在DF方法中,本研究发现以整篇文章为单位来衡量词条的重要程度往往没有以段为单位更精确些。另外,词条所属类的文本总段数与整个训练文本集的文本总段数的比例对词条的代表性也有很大的影响。本文针对这两方面的特点对DF 公式进行了改进,简称为NDF。
(4).文本分类算法是一种有监督的学习算法,它需要一个分类好的,类别己标识的文本数据集来训练分类器。本文通过将聚类的无监督性和样本的先验知识结合起来进行文本的分类,构造了应用范围更加广泛的分类学习模型。利用未标识文档进行学习的半监督学习算法已成为分类算法研究的重点。