选择性贝叶斯分类算法研究

被引量 : 50次 | 上传用户:kevil2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是模式识别、机器学习以及数据挖掘中一项基本而又重要的任务。在众多的分类方法中,贝叶斯分类方法因建立在贝叶斯统计学和贝叶斯网络基础上,能够有效地处理不完整数据,并且具有模型可解释、精度高等优点,而被认为是最优分类模型之一。尤其是朴素贝叶斯分类器,虽然结构简单,但在很多情况下却具有相当高的分类精度,可以达到甚至超过其它成熟算法如C4.5的分类精度,而且对噪声数据具有很强的抗干扰能力。自从朴素贝叶斯分类器提出以后,就被应用到了众多领域中,其有效性已经为实践所证明。但是,随着应用领域的扩大,该种分类器的不足也更加明显。朴素贝叶斯分类器要以一个很强的条件独立性假设为前提,即假设在各个类中,每个属性变量(也称作特征)的概率分布独立于其它属性变量的概率分布。然而,实际中的数据一般难以满足这一假设前提。如果不满足这一前提条件,分类器的分类效果往往会明显下降。弥补这一不足的一种有效的方法是利用属性选择去除数据集中的冗余属性,使选择出的属性尽可能地满足条件独立性假设。然后,在选择出的属性子集上构建贝叶斯分类器,即选择性贝叶斯分类器。目前已有不少学者对选择性贝叶斯分类器进行过研究,并给出了一些有效的算法,但这些算法大都是用于完整数据和低维数据。虽然实际中不完整数据大量存在,并且这些数据大都包含着严重影响分类效果和效率的冗余属性和无关属性,然而,由于处理不完整数据的复杂性,目前用于不完整数据的选择性分类算法却很少见。因此,充分利用贝叶斯分类方法能够有效地处理不完整数据的优势,来构造用于不完整数据的选择性贝叶斯分类算法是一项重要的研究课题,这正是本文主要研究内容之一。另外,随着现代信息技术的不断发展,大量的高维数据不断涌现,而朴素贝叶斯简单高效,适于处理高维数据,同时又对属性选择很敏感,因此对用于高维数据的选择性贝叶斯分类算法的研究具有重要的意义,也是本文的另一项主要研究内容。本文的主要贡献如下:(1)通过分析以往在分类过程中对不完整数据的处理方法,给出了一种基于分布的不完整数据分类算法DBCI(Distribution-based Bayesian Classifiers forIncomplete data)。该算法在训练过程中将缺失值的频数合理地分配到其它观测值的频数中。因此,不完整数据集中所包含的信息可以得到充分利用。该算法与分类效果和效率都很突出的不完整数据分类器RBC(Robust Bayes Classifiers)相比,其分类效果与后者相当,而算法的效率明显高于后者。(2)虽然不完整数据集中也通常包含着大量影响分类效果和效率的冗余属性或无关属性,但是,目前用于不完整数据的选择性分类器却极为少见。针对这一问题,基于包装法(wrappers)给出了两个有效的选择性不完整数据分类器。首先,通过分析以往的不完整数据分类算法,构造了选择性不完整数据分类器SRBC(Selective Robust Bayes Classifiers)。与高效的RBC以及DBCI相比,SRBC不仅能获得显著更高的分类准确率,同时还能大幅度地降低冗余属性和无关属性的数目。然后,利用提出的更加高效的DBCl分类器构造了选择性分类器SDBC(Selective Distribution-based Bayesian Classifiers for incomplete data)。与SRBC相比,SDBC的分类准确率和效率都有明显提高。(3)为进一步提高上述SPBC和SDBC的效率,基于混合法构造了三个更加高效的选择性不完整数据分类器。首先,利用一个简化的增益率计算式和SRBC构造了分类器SRBCBG(Selective Robust Bayes Classifiers Based on Gain ratio)。与此同时,利用用于不完整数据的卡方统计量和SRBC构造了分类器CBSRBC(Chi-square-Based Selective Robust Bayes Classifiers)。与SRBC和SDBC相比,SRBCBG和CBSRBC具有更高的分类效率和更好的分类效果。然后,为了构造对大型不完整数据集具有更好的扩展性的选择性贝叶斯分类器,又利用推广的Relief算法和SDBC构造了比CBSRBC和SRBCBG更高效的分类器RBSD(Relief-F-algorithm-Based Selective DBCI)。(4)针对最为常见的高维数据——文本数据,给出了两个用于贝叶斯分类器的多类别文本数据属性评价函数,以构造基于过滤法的选择性贝叶斯分类器。在文本数据集上的分类结果显示,利用这两个属性评价函数构造的选择性贝叶斯分类器具有更好的分类效果。
其他文献
特洛伊战争的获胜使得古希腊社会的所有价值观念得以确立,引发了古希腊人对"力"与"身体"的觉醒。竞争精神催生了体育赛会的诞生,英雄崇拜激励个体追求卓越,战争创造了人类社
通过研究我国出口产品的商标翻译状况,发现其存在过度使用拼音、重名现象严重、缺乏显著性和文化语用失误等主要问题。在对比分析世界著名品牌的基础上,提出我国出口产品商标
从长远看,如果政府继续推进城市化、市场化与农业现代化政策,乡村社会发展应该会产生或维持以下趋势:
医疗设备的维护保养是医疗卫生部门设备管理的重要课题,搞好医疗设备的维护保养关系到医疗卫生工作的质量甚至人身安全,所以我们须必须加强对医疗设备维护保养。医用X线机的
<正> 一、什么是工具氮化钛镀层技术工具氮化钛镀层技术是用物理气相沉积法(简称PVD)或化学气相沉积法(简称CVD),在工具或模具表面上镀上一层2~5μm金黄色的氮化钛(TiN)硬膜层
期刊
目的 探讨重症胰腺炎患者术后感染病原菌和耐药性情况,为临床提供参考和支持。方法 选取2014年1月-2016年12月医院重症急性胰腺炎患者实施引流手术后发生胰腺感染的患者90例
本文首先对企业战略理论和市场营销理论进行文献综述,为市场分析、营销战略规划和营销策略的提出提供理论依据。然后,本论文借助功能饮料行业的具体数据,对我国功能饮料行业
本文以温福客运专线白马河大桥主桥为工程背景,通过建立该桥的有限元分析计算模型,对预应力混凝土连续刚构桥的施工过程进行模拟计算分析,得到每段梁块在各种工况下的应力、
<正>为体现教育的公平,重点班、提高班等相继被取缔,面对教学主体的个体差异,我们陷入了一个矛盾之中,不搞重点班、快慢班,岂不是与因材施教的科学规律相冲突吗?尤其是在民族