论文部分内容阅读
随着信息时代的到来和Internet的日益普及,电子文本迅速膨胀,如何在海量的文本中提取潜在的、有价值的知识和模型成为信息处理的一大目标。其中,文本分类作为信息处理的一个重要环节,已经成为信息技术领域的一个主要研究方向。文本分类技术的出现,使文档可以自动地按照类别组织和处理,符合人类组织和处理信息的方式,方便了人们准确地定位所需的信息。同时,作为信息过滤、信息检索、搜索引擎等领域的技术基础,文本分类技术有着广泛的应用前景。本文对文本分类中涉及的两个关键技术(文本特征描述和分类器构造方法)进行了研究,具体内容主要包括以下两个方面:1.提出了基于上下文关系的文本特征描述方法。文本特征描述是文本分类的基础,它的目标是用一定的可计算的特征来表示文本,在分类的时候用这些特征来区分文本。在向量空间模型(Vector Space Model,简记为VSM)中采用“词袋”法来处理文本,即文本被看成是由相互无关的词语构成的集合,不考虑词语之间的关系,但是这种处理方法不是很合理,因为文本的结构是完整的,孤立的对待单个词语将丢失文本的内容信息。在实际的语言环境中,词语有一定的上下文“作用域”,“作用域”中的词语对表达同一主题具有一定的共性,因此不能独立看待。本文提出了一种基于上下文关系的文本特征描述方法,包括特征选择方法CBFS及权重计算方法CBFW,该方法是在提取一个初始特征词语集合的基础上,通过用互信息(MI)来衡量词语在上下文中的依赖度,选取对主题贡献大的词语加入特征集合,同时调整不同贡献的特征词语的权重,从而更加合理地表示文本。2.提出了基于SVM主动学习的文本分类器训练算法。文本分类算法是有监督的学习算法,它需要一个已标识类别的文本数据集来训练分类器,然后用训练好的分类器对未标识类别的文本分类。基于传统机器学习算法训练的分类器,其分类精度随着训练文本的增多而提高,但在实际分类问题中,训练文本数目往往是有限的,而且这些随机取得的训练数据中包含大量冗余数据,这些数据不能提高分类器的精度,因此传统文本分类方法,在训练分类器时遇到了困难。针对这一问题,本文通过分析主动学习(Active Learning)和支持向量机(Support Vector Machine,简记为SVM)各自的优势,提出了一种基于SVM主动学习的文本分类器训练算法,该算法通过在训练过程中,主动选择那些对分类贡献较大的样本,从而形成了一个样本数量较小的训练集,减少了标注样本的工作量,同时又保证了分类精度。