论文部分内容阅读
文本分类是文本挖掘的重要分支,在当今的信息时代文本自动分类已成为一项具有较大实用价值的关键技术,是组织和管理数据的有力手段,已经被应用于抽取符号知识、新闻分发、排序电子邮件、学习用户兴趣以及信息过滤等许多方面。
首先,本文着重介绍了自动文本分类技术中常用的基于向量空间模型的特征选取方法和分类模型。基于对这些技术的分析,本文提出了一种基于正负权重的MI分类方法,该方法采用MI特征选取方法以局部特征选取方式进行特征选取,每一个类别得到不同的特征子集,并利用得到的特征互信息值构造特征的正、负权重并形成类别的正、负原型向量。这种方法训练效率高,实验结果也表明该方法也有比较好的分类性能。
另外,利用自动文本分类系统中已经实现了多种分类模型的特点,本文对多分类器的组合问题进行了研究,并实现了利用贝叶斯理论进行组合的多分类器,将之应用于自动文本分类。从实验结果来看,这种多分类器在一定程度上能提高分类的准确率和召回率。
最后,阐述了Ontology对文本分类的重要作用,介绍了Ontology在文本分类中的一些应用。面对当前针对某个特定领域的Ontology缺乏,而且领域Ontology必须依赖领域专家指导靠手动建立的现状,本文对Ontology的自动构建技术进行了研究,并且实现了一个Ontology自动构建系统——OntoAGS。本文对自动构建的完整过程进行了介绍。