论文部分内容阅读
随着信息技术的发展,特别是Internet的应用和普及,文本信息迅速膨胀,使得文本自动分类技术成为信息技术领域的一个重要研究方向。贝叶斯方法具有简单、直观、性能稳定的优点,但目前基于贝叶斯模型的文本分类还主要局限于朴素贝叶斯方法。朴素贝叶斯由于基于一个条件独立性假设,无法表达属性间的依赖关系而影响了分类性能,贝叶斯网络虽然能表示这种依赖,但由于学习的复杂性而无法应用于文本分类。TAN(Tree-Augmented Na(i|¨)ve Bayes)模型将贝叶斯网络表示依赖关系的能力与朴素贝叶斯的简易性相结合,体现了学习的效率与准确地描述属性之间相关性的一种适当折衷。目前基于TAN文本分类的研究还比较少,而且在已有的TAN文本分类模型中也存在着许多不足,为此,本文对基于TAN的文本分类模型进行研究。一方面,本文对当前的TAN文本分类模型BL-TAN进行了深入地分析,指出该模型中存在的三个问题:未考虑文本中未出现的特征;忽略了特征的词频信息;TAN模型构造中阈值选取的问题。针对第一个问题,本文结合朴素贝叶斯的多变量伯努利文本分类模型,提出了TAN文本分类的第一个改进模型BNL-TAN,实验中验证BNL-TAN比BL-TAN具有更好的分类性能;针对第二个问题,本文类比朴素贝叶斯的多项式模型,提出了TAN文本分类的第二个改进模型MUL-TAN,实验中验证MUL-TAN的分类性能显著优于BNL-TAN;针对第三个问题,本文借鉴传统贝叶斯网络学习中搜索+评估的思想,采用在“固定结构”上“顺序搜索”的学习策略,提出了完全抛弃阈值选取的TAN文本自动分类框架ATAN,实验中验证ATAN可以取得与手动选取最好阈值相当的分类性能。另一方面,本文对集成学习的框架和主要方法进行了深入研究,并针对TAN进行了TAN集成的三次尝试,提出了基于TAN集成的三种模型,这三种模型均以TAN为基分类器,结论生成方法则统一采用投票方法,不同点在于个体分类器的生成策略。AdaM1-TAN将TAN与AdaBoost.M1算法结合,通过不断调整训练集的权重分布学习得到个体分类器;EBag-TAN扩展了Bagging算法的思想,通过在TAN模型构造过程中无向加权树转成有向时随机选择根变量的方法,产生有差异的个体分类器;FRS-TAN利用基于特征集的集成方法,在特征空间中随机选择特征子集,并对其进行学习从而构造结构不同的个体分类器。实验中将三种集成分类模型分别用于文本分类,对比其性能,并对实验结果给出了相应分析。