基于TAN的文本分类方法研究

被引量 : 6次 | 上传用户:wodekechengsheji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,特别是Internet的应用和普及,文本信息迅速膨胀,使得文本自动分类技术成为信息技术领域的一个重要研究方向。贝叶斯方法具有简单、直观、性能稳定的优点,但目前基于贝叶斯模型的文本分类还主要局限于朴素贝叶斯方法。朴素贝叶斯由于基于一个条件独立性假设,无法表达属性间的依赖关系而影响了分类性能,贝叶斯网络虽然能表示这种依赖,但由于学习的复杂性而无法应用于文本分类。TAN(Tree-Augmented Na(i|¨)ve Bayes)模型将贝叶斯网络表示依赖关系的能力与朴素贝叶斯的简易性相结合,体现了学习的效率与准确地描述属性之间相关性的一种适当折衷。目前基于TAN文本分类的研究还比较少,而且在已有的TAN文本分类模型中也存在着许多不足,为此,本文对基于TAN的文本分类模型进行研究。一方面,本文对当前的TAN文本分类模型BL-TAN进行了深入地分析,指出该模型中存在的三个问题:未考虑文本中未出现的特征;忽略了特征的词频信息;TAN模型构造中阈值选取的问题。针对第一个问题,本文结合朴素贝叶斯的多变量伯努利文本分类模型,提出了TAN文本分类的第一个改进模型BNL-TAN,实验中验证BNL-TAN比BL-TAN具有更好的分类性能;针对第二个问题,本文类比朴素贝叶斯的多项式模型,提出了TAN文本分类的第二个改进模型MUL-TAN,实验中验证MUL-TAN的分类性能显著优于BNL-TAN;针对第三个问题,本文借鉴传统贝叶斯网络学习中搜索+评估的思想,采用在“固定结构”上“顺序搜索”的学习策略,提出了完全抛弃阈值选取的TAN文本自动分类框架ATAN,实验中验证ATAN可以取得与手动选取最好阈值相当的分类性能。另一方面,本文对集成学习的框架和主要方法进行了深入研究,并针对TAN进行了TAN集成的三次尝试,提出了基于TAN集成的三种模型,这三种模型均以TAN为基分类器,结论生成方法则统一采用投票方法,不同点在于个体分类器的生成策略。AdaM1-TAN将TAN与AdaBoost.M1算法结合,通过不断调整训练集的权重分布学习得到个体分类器;EBag-TAN扩展了Bagging算法的思想,通过在TAN模型构造过程中无向加权树转成有向时随机选择根变量的方法,产生有差异的个体分类器;FRS-TAN利用基于特征集的集成方法,在特征空间中随机选择特征子集,并对其进行学习从而构造结构不同的个体分类器。实验中将三种集成分类模型分别用于文本分类,对比其性能,并对实验结果给出了相应分析。
其他文献
我国拥有丰富地质储量的石油资源,但大部分主力油田经过一次、二次采油后均已进入高含水阶段,油田持续稳产的难度越来越大,为此开展了多项提高采收率新技术研究。聚合物驱油
生物都要经历出生、生长、成熟、繁殖、衰老直至最后死亡的生命历程,细胞也一样。“鲜花吐蕊,绿叶葱茏,抑或花瓣凋落,枯叶飘零,展示着个体的生命现象,折射出细胞的生命历程。”有关
利用作者收集的中国大学毕业生就业调查数据,我们分析了"官二代"学生与非"官二代"学生在劳动力市场上第一份工作的工资差异。研究发现"官二代"学生的起薪比非"官二代"学生的
蒽醌(AQ)是重要的有机染料中间体,种类繁多,应用广泛,在有机染料行业中占有举足轻重的地位。开发沸石分子筛固体酸催化剂代替传统的路易斯酸催化剂可以简化蒽醌合成工艺,实现
动物转基因的关键限制因素是制备效率和基因表达的精确调控。综述了近年发展的提高转基因效率的非定点整合转基因方法,如睾丸转基因法和卵巢转基因法;提高转基因精确性的定点
联合反演是地球物理勘探的重要解释手段,能够提高模型参数的反演精度。本文在研究重震联合反演理论及密度界面正反演理论的基础上,提出了适合于多个密度分界面的二维重力-地
进行公路地质灾害分区评价研究可以有助于提高公路工程防灾减灾水平,有效减小地质灾害对公路交通的影响。陕西省是我国地质灾害较为严重的省份之一,不仅灾害种类多、发生频率
现金投放是增加M0存量的手段,为加强人民银行的现金管理能力,维护经济金融稳定,本文对2000-2005年吉林省人民银行现金投放的影响因素进行实证分析。通过对相关货币理论研究的
聚合物驱油技术在大庆油田广泛应用,近些年来国内的一些专家对聚合物的粘弹性机理的研究,充分的证明了在提高原油采收率方面,聚合物不但能扩大波及体积,并且能起到一定的洗油
针对一台2.0 L柴油机搭建了试验台架,通过控制曲轴箱窜气直接排入大气或是引入进气系统,采用尾气粒径谱仪对两种情况相应的尾气微粒数量浓度进行测量,分析比较试验结果来研究