基于粒子群优化的加权朴素贝叶斯分类研究

来源 :云南财经大学 | 被引量 : 0次 | 上传用户:simetl1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是一个年轻且充满生机的研究领域。分类是数据挖掘研究的内容之一。朴素贝叶斯分类是应用比较广泛的分类方法,是贝叶斯分类法的一种,它可以与决策树和神经网络分类相媲美。而且在大型数据库应用方面,它也表现出高的准确率和速度。但是朴素贝叶斯需要满足一个假定,即每个属性值对给定类的影响独立于其他属性值。这种类条件独立性限制了朴素贝叶斯分类的准确率,因为有些时候有的属性之间存在着一定的关系,并不满足独立性假设。加权朴素贝叶斯分类是朴素贝叶斯分类的一种扩展,给每个属性赋予不同的权值,从而削弱类独立性假设,使其更加满足实际情况。加权朴素贝叶斯分类的一个关键问题是确定权值,因此,本文提出了基于粒子群优化的加权朴素贝叶斯(Weighted Naive Bayes based on Particle Swarm Optimization,WNB-PSO)分类算法,采用粒子群优化算法来自动搜索权值,并用实验来说明这种算法确实能够提高朴素贝叶斯分类的准确率。分类实际上是一个构造模型或者分类器的过程。该过程可以分成两步进行:学习和分类。首先把数据随机地分成训练数据和检验数据。训练数据用于学习阶段,通过粒子群优化算法来确定权重,而检验数据用于分类阶段,检验该算法分类的准确率。准确率在粒子群优化的适应度函数上和分类阶段的分类器性能评估上都会用到。在学习阶段(或者训练阶段),根据贝叶斯定理,在给定未知类属元组的情况下,计算每个类的后验概率,后验概率由贝叶斯公式给定,然后把该元组归属于最大概率值的那个类。加权朴素贝叶斯算法在后验概率的式子上添加了权值,使每个属性的概率获得不同的比重。对于权值的确定,本文利用粒子群优化算法在训练数据上搜索最优的权值。在搜索过程中,采用准确率来作为粒子群优化的适应度函数。初始时,设定好粒子群的规模、迭代次数,每个粒子的位置为一随机值,即权重是任意的。在每次迭代中,如果每个粒子的当前位置比历史最优位置的适应度更好,则更新该粒子的历史最优位置为当前位置,同时,对速度也要进行更新。当迭代次数或者阈值达到所设定的值时,权值也就找到了。在分类阶段,使用找到的权值构造分类器,用检验数据对分类器进行检验,统计正确分类的元组个数和不正确分类的元组个数,得到分类准确率,以准确率来评价该分类器,并和朴素贝叶斯分类器得到的准确率进行比较。整个实验使用的数据采用UCI数据集。文章的主要内容如下:1.回顾数据挖掘的发展历程,介绍数据挖掘的过程、挖掘数据的种类、数据预处理以及几种主要的分类算法。2.系统地研究贝叶斯分类,首先介绍相关概率论的一些知识,描述贝叶斯定理,然后介绍朴素贝叶斯分类算法、贝叶斯网络以及加权朴素贝叶斯分类。3.描述粒子群优化算法,阐述了基本粒子群算法及其改进版本,包括带惯性权重的算法和带收缩因子的算法,并进行了代数分析和解析分析。4.提出基于粒子群优化的加权朴素贝叶斯分类算法,并进行实验分析。本文的创造性成果有:1.建立了贝叶斯分类的一般过程,从数据收集到预测分类,每个步骤都有详细的描述。2.提出了基于粒子群优化的加权朴素贝叶斯分类算法。实验表明,采用粒子群优化的加权朴素贝叶斯分类比朴素贝叶斯分类的准确率确实有所提高,而且在大多数数据集上可以使用。
其他文献
作为最流行的移动操作系统,Android平台上有大量功能丰富的应用程序。Android应用程序已经覆盖了人们生活的各个方面,给人们的生活带来了极大的便利。但是Android的流行使它
云计算给信息技术行业带来了一场新的革命。支撑云计算的关键技术包括虚拟化技术、分布式文件系统、并行计算技术和非关系型数据库技术等。Hadoop是一个集各种云计算技术于一
文本分类是数据挖掘中一个重要的研究领域,KNN文本分类算法是一种基于实例的、非参数的文本分类方法,是向量空间模型(VSM)下最好的文本分类方法之一。其主要步骤有:文本分词,
长期以来,高压绝缘子污闪事故一直困扰着人们的日常生活,近几年,随着电网范围的扩大,电压等级的提高,高压绝缘子污闪事故造成的损失和影响就更加突出。针对这一现象,绝缘子泄漏电流在线监测是近年来电工领域新兴的研究重点,通过在线监测可以及时获得实际运行中设备的绝缘状态参数,以便及时发现绝缘缺陷,提前做好预防解决措施。在现有的绝缘子的泄漏电流监测系统中,通过传感器采集到的泄漏电流,通常是经过GPRS或无线传
服务自动组合作为面向服务的计算(Service Oriented Computing,SOC)和面向服务的体系架构(Service Oriented Architecture,SOA)中的关键技术,一直是服务科学发展中倍受关注的
中国移动IP承载网是中国移动新一代能够同时支持语音、视频、数据、企业互联等多种业务的核心承载平台。为全面掌控IP承载网运行状态,达到对IP网络分析与质量监测工作的“电信
无线传感器网络应用广泛,是当前的一个热点研究领域,在许多应用场合,实时性是衡量无线传感器网络的重要指标之一。在无线传感器网络中,实时路由协议的主要目的是在保证数据实时传
在科技飞速发展的今天,计算机逐步走进了千家万户。与此同时万维网与人类生产和生活的关系也越来越密切,通过网络能够使得很多工作变的越来越方便快捷。比如网上银行、网上购
GIDS(GigabitIDS)是指能处理千兆及更高流量的网络入侵检测系统。报文分类算法作为GIDS的核心组成部分直接决定了该系统的检测性能。已有的高速报文分类算法主要通过使用高性
网络编码是一种可使多播传输速率达到理论上界的网络传输技术。有别于传统网络存储-转发模型,网络编码使用存储-编码-转发模型,在源节点和中间节点对欲传输的信息进行编码,并