论文部分内容阅读
Internet技术的迅速发展导致网站上的文档信息成指数级增长,因此如何自动处理这些海量文档信息成为目前重要的研究课题。信息分类是文档信息处理中的一个重要环节。信息分类主要是将从网上抽取到的文档信息自动有效地分成一定的类别,以便于信息的检索。本文主要研究文本信息分类和超文本信息分类的相关算法。 本文首先介绍了信息分类的发展概况和相关技术,对常用的分类算法性能进行分析和评价,为文本分类和超文本分类算法的研究提供理论基础。 对于文本分类,本文着重于研究半监督的分类算法。针对高分类精度需要大规模已标记训练集而已标记文档资源缺乏的问题,本文从两方面着手,做了一定的研究和改进工作。一是从扩大分类器训练集方面考虑,本文在分析传统的SVM算法和EM_NB算法及模型的特性的基础上,提出一种EM_SVM分类算法。实验结果表明,在相同的已标识数据集规模下,结合未标识数据的EM_SVM分类算法较传统SVM算法具有更好性能;在小规模数据集训练下,EM_SVM分类算法的分类精度高于EM_NB分类算法。另一方面,从改进传统的分类算法训练分类器的方式入手,本文提出一种新的协同训练分类算法,利用TFIDF分类器协同NB分类器进行增量训练已标记和未标记文档。实验结果表明,协同训练算法具有分类精度较高和平均分类错误率较低的特点。 对于超文本分类,本文着重于研究超文本信息规则的协调和综合。针对超文本信息的多样化和灵活性,单独使用某种超文本信息规则不能较全面的综合超文本信息且分类稳定性不高的问题,本文在分析已有的超文本分类规则和算法的基础上,综合利用超文本的各种多元化信息规则,提出一种基于多元信息加权协调的超文本分类算法。实验结果表明,相较于单独利用某种超文本结构信息进行分类的方法,基于多元信息加权协调超文本算法具有更好的分类性能。