两阶段增强朴素贝叶斯分类器

来源 :云南财经大学 | 被引量 : 0次 | 上传用户:a327581460
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
朴素贝叶斯(naive Bayes,NB)是一种经典的机器学习方法,具有优异的分类精确度以及对噪声的稳健性。朴素贝叶斯经典算法基于两大理论,其一是贝叶斯定理,即后验概率依据先验概率和联合概率而得出;其二是特征条件独立的假设,即假设特征之间是相互独立的,联合概率的计算依据这一假设由特征的条件概率连乘而得。但是,由于其基于特征条件独立的强假设在实际应用中是不可能成立的,因此在一定程度上,限制了朴素贝叶斯模型的拓展应用。学者们为了削弱这一假设,提出了许多朴素贝叶斯的改进方法,大致可以分为三个方向:优化贝叶斯网络结构、对特征进行选择或者加权以及对样本进行选择或者加权。其次,特征的条件概率依据特征的概率分布不同,其计算方式也不同。由于朴素贝叶斯算法最初多被应用于文本分类,且文本数据中的特征属于定性特征,因此关于特征概率分布的假设大都是单一的;对于数据中的定量变量,学者们倾向于采用将其离散化的处理方式。那么,对于数据中不同类型的特征,这种将定量数据离散化的做法会导致数据完整性的破坏,以至于对条件概率的学习不够准确。而后,有学者认为在小样本的情况下,对条件概率的学习是不够准确的,于是为了增加估计信息的可靠性,提出微调的朴素贝叶斯方法。这种改进方法的提出是基于文本分类的应用,通过调整条件概率来实现分类器性能的提升。因此,并不适用于调整定量特征对应的条件概率,于是本文提出了基于高斯分布的条件概率所适用的微调方法。基于此,为了拓展朴素贝叶斯模型的应用同时提高其泛化性能,本文提出了针对经典NB的改进方法——两阶段增强朴素贝叶斯分类器(Two-stage Reinforcement naive Bayesian Classifier,TRNB)。两阶段增强朴素贝叶斯分类器是基于多种分布的模型,对于定性特征假设服从多项分布,对于定量特征假设服从高斯分布。模型的训练在两阶段训练的大框架下进行:第一阶段对特征进行加权,通过互信息对特征进行精确排序,依次向特征子集中添加未被选择的特征并预测训练集获得分类均方误差,选择具有最小均方误差的特征子集为最优特征子集并学习特征加权的分类器;第二阶段对条件概率进行调整,通过第一阶段学习到的特征加权分类器对整体训练集进行预测,获得初始的条件概率以及误分类的样本集,在误分类的样本集中每轮迭代调整一个最有效样本的条件概率,直至整体训练集的分类精确度不再提高便结束迭代。最终,获得最优的条件概率并学习两阶段增强朴素贝叶斯分类器。两阶段增强朴素贝叶斯分类器在第一阶段对特征进行包装式加权达到了削弱特征条件独立的强假设,而且在第二阶段通过调整条件概率使得学习到的估计信息更加可靠,最终达到有效提升分类器性能的效果。本论文的实验部分是在33个UCI基准数据集上通过对比分类精确度以及运行时间来验证两阶段增强朴素贝叶斯分类器的泛化效果。我们发现,两阶段增强朴素贝叶斯分类器的平均分类精确度明显优于标准朴素贝叶斯方法、基于最小化均方误差特征加权的朴素贝叶斯方法、基于特征子集选择的朴素贝叶斯方法、基于相关性特征加权的朴素贝叶斯方法和微调的朴素贝叶斯方法。同时,我们又在两阶段增强的框架下,提出基于相关性特征加权的TRNB模型、基于最小化均方误差特征加权的TRNB模型,即在第一阶段基于过滤式、嵌入式的两种特征加权方法,通过比较分类精确度以及运行时间发现,本文提出的这种在第一阶段基于包装式特征加权的两阶段增强朴素贝叶斯分类器,其平均精确度提高的最明显。在实验的第三部分,我们又继续探讨基于不同样本量大小的情况下,所有模型的分类表现,我们发现两阶段增强朴素贝叶斯分类器在样本量较大时(大于500个样本),其性能表现尤为优异。综合大量实验结果可以看出,两阶段增强朴素贝叶斯分类器的模型性能明显优于本论文中所有对比的算法模型。
其他文献
我国依托于互联网的快速发展,现正处于数字化时代,传统的行业运营模式已不能满足现代化的需求。从过去的线下交易到如今的线上交易,交易模式多样化为税收带来新机遇的同时也带来了新的挑战,涉税信息繁杂多样、涉税工作效率低下使得信息共享变得尤为重要。涉税信息共享可以提高税务信息的时效性与准确性,在税务部门、政府部门、金融机构、司法机构等部门间共享税务信息可以多维度地进行税源监控,从而改善纳税环境。但由于技术等
学位
随着互联网应用在各大领域的迅速发展,很多企业开始认识到信息化、数字化的重要性,已经从原来的“纸质化”转变成先进的数字化信息管理系统,以此来增强企业自身的竞争力与管理水平。H公司是云南省昆明市滇池治理的主要参与企业之一,主要负责滇池蓝藻水华防控及应急处置,湖面保洁管护,湖滨带生态水体修复等工作。2020年,H公司与第三方信息技术公司合作,启动了滇池蓝藻防控处置信息系统的开发。系统通过需求分析、设计、
学位
野生动物是人类赖以生存的生态系统的重要组成部分,想做好地球生态多样性保护工作就必须要保护好野生动物特别是珍稀野生动物。目前野保相机已经被广泛应用于生态学研究中,既可以捕捉到更加细致的镜头,也很少会打扰到野生动物,但对于生活在野外栖息地和自然保护区的珍稀野生动物,野保相机得到的图像仍然只有很少一部分能捕捉到一闪而过的珍稀野生动物。因此对珍稀野生动物图像分类面临着小样本、被识别主体不完整、背景复杂的问
学位
随着区块链技术的广泛应用,网络钓鱼这种传统的网络空间安全问题也出现在了新兴的区块链加密货币生态系统中。由于加密货币交易中的钓鱼欺诈相对于传统网络钓鱼具有自身的特点,许多现有的网络钓鱼检测算法并不适用。为了在加密货币交易场景下实现钓鱼用户的有效识别,本文分别讨论了以太坊网络钓鱼欺诈检测中的节点分类与图分类等两种模型,并在本文采集的以太坊交易数据集上进行了实验,结果表明这两种模型具有较好的性能,可以为
学位
随着旅游业和在线旅游平台的蓬勃发展,游客越来越倾向于在网络上发表自己的真实评价。这些评价蕴含大量有用的信息,可直观地反映房客的真实体验,后续游客选择住宿时会参考以往评价,而对于民宿经营者来说,民宿在线评论可为他们实时反馈房客意见,提供经营建议,促使其进一步完善。因此对民宿在线评论进行分析和文本挖掘,提取评论中的有效信息是十分有益的。本文以携程平台上的云南省热门旅游州市民宿在线评论为研究对象,采用文
学位
学位
类别不平衡问题一直是机器学习领域研究的难点和热点。在真实世界中,图像数据的非平衡问题广泛存在,例如在医疗领域的疾病诊断中,罕见病的医学影像是少数类,而健康的医学影像是多数类;在安防领域的目标检测中,危险品数量往往是少数类,其余物品数量是多数类。在这种情况下,传统的分类模型容易出现偏差,即将样本数较多的类别判断为正确结果的概率更高。然而,在这些问题中,正确识别少数类样本具有更重要的应用价值。近年来,
学位
疫情冲击、贫富差距悬殊、自然灾难、能源危机等全球性问题影响着人们的日常生活和经济社会的发展,克服人类面临的生存问题和推动经济社会的发展离不开国家或个人之间的高度团结合作。然而,经济学中关于在经济社会中从事经济活动的人的假设被抽象为“理性人”,即每一个人都是利己的,每一次行为决策都力图以最小的经济代价获得最大的经济利益。那么合作系统是如何演化而来的,合作系统又是如何维持其稳定的?演化博弈论正是解决合
学位
竞争是生物界的主旋律,有成千上万的生物在自然界里生活和互动,形成了一个非常复杂的生态系统。物竞天择,适者生存,物种的行为策略永远围绕着“生存”这一永恒主题,它们在生存过程中所产生的光怪陆离的行为充满了趣味性与拟人性,具有很深的探索意义。当前全球正在面临着生物多样性锐减的危机,大量的物种濒临灭绝,倘若生物多样性持续下降,人类的生存最终也将受到威胁。因此,研究这些生态系统复杂的行为对于理解大自然,保护
学位
支持向量机是一种有监督的机器学习方法,通过寻找最大间隔超平面,用于解决二分类问题。双子支持向量机是在支持向量机的思想基础上发展而来,其主要思想是,寻找一对非平行的超平面,使每一个超平面接近一类而远离另外一类,通过样本点到两个超平面距离的远近来判断类别。支持向量机和双子支持向量机目前还存在一些局限性。从模型预测结果来看,在解决大样本任务或处理高维度数据时,效果没有神经网络那么理想。从计算效率的角度看
学位