基于粒子群的关联规则挖掘算法研究

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:qdragon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则分析是数据挖掘中最主要的分支,其主要目的就是为了挖掘存在于事务数据库中隐藏的关系或者联系。随着大数据的普及,传统的关联规则挖掘算法暴露出的问题越来越明显,使得算法的挖掘效率也有所下降。粒子群优化算法作为一种群智能优化算法的代表,近年来被广泛应用于不同的领域,其中就包括关联规则分析方面。本文就是通过将粒子群优化算法与关联规则挖掘算法相结合,对关联规则挖掘算法提出改进思路。为了满足关联规则挖掘得到的规则信息能够随着时间的变化而变化,采用粒子群优化的灰色模型对动态关联规则定义中的支持度向量和置信度向量做出趋势预测,以便让决策者及时掌握事情的发展动态,为其做出决策提供参考依据。为了能够更好的对关联规则挖掘算法进行研究,在阅读了大量参考文献之后,对国内外现状做出分析,发现了该领域当前存在的一些问题,以此来提出本文所要研究的主要内容。首先对关联规则的基本概念及其原理、分类、经典的算法和改进的算法进行介绍,关联规则挖掘的目的和意义有了初步认识,然后对动态关联规则的定义和算法思想进行分析,了解到动态关联规则与关联规则的区别,最后对粒子群优化算法的原理、步骤以及对遗传算法的比较做出分析,以便于为粒子群优化算法和关联规则算法相结合提供依据。针对经典的Apriori算法在处理大型数据库时挖掘效率有所下降,提出了一种基于二阶粒子群的关联规则挖掘算法。该算法共分四个步骤,首先第一步按照每个分区都能放进内存的原则,采用Partition算法对整个数据库进行不重叠划分;其次采用Apriori算法对每个分区的数据集进行关联规则提取;然后采用二阶粒子群优化算法对挖掘得到的关联规则进行优化分析,提取出一些易被忽略的有价值的规则;最后全局合并各个分区的关联规则,并计算其实际的支持度和置信度。该算法不仅能够减少数据库的扫描次数,而且能够提取出因单个参考标准而被忽略的关联规则。通过在Matlab平台上实现该算法,在不同数据集上进行了对比实验,也对比了许多同类算法,实验表明该算法是可行并且是有效的。针对动态关联规则挖掘中规则变化趋势的分析,提出一种改进的粒子群优化的灰色模型,该算法在粒子群算法中引入二次搜索机制,提高了算法的收敛性能,同时将其应用到灰色模型中,优化灰色模型在不同时刻的背景值,提高灰色模型的预测精度。通过在Matlab平台上实现该算法,对比了不同算法的预测精度,实验结果表明,预测精度达到了等级好的标准,能够满足正常的预测需求。在对改进的算法进行了一系列的对比实验,已经能够证明所要实现算法的可行性和有效性,但仍然需要在实际应用方面做出实验,本文选取了流动人口普查数据进行关联规则分析,首先选取跨省流动属性作为依据,分析跨省流动人员的特征,比如年龄、民族、户口类型和受教育程度等,然后对跨省流动人员的流动原因进行了关联规则挖掘操作,得到流动原因的特征。通过两方面的分析为相关部门加强人员管理方面提供建设性的意见,同时从挖掘结果来看证明了改进算法的实际价值和意义,保证了算法研究的严谨性。
其他文献
随着物联网技术的深入发展,无线传感器网络(Wireless Sensor Network,WSN)和Internet的互联问题逐渐凸显,如何无缝地实现这两种网络的互联互通成为应用中的技术瓶颈。由于WSN
人脸识别作为生物特征识别的一个重要分支,近年来受到广大研究者的关注,取得了较快的发展。在一些实际应用中,每人只能获得一张图片作为训练样本,但大多数人脸识别方法在单个训练
半个世纪以来,随着研究的不断深入,已有多种模型用于基因调控网络的构建,包括布尔网络模型、贝叶斯网络模型、微分方程模型等,并取得了一些成果。20世纪90年代,基因芯片等高通量生
增强现实是将计算机生成的虚拟信息与真实世界的叠加,而全景视频是将拍摄到的视频拼接后可任意角度拖动观看的动态视频。在一些受到保护且不便让用户进入的场景(如文物古迹、
一直以来,自动语义分析是自然语言理解的主要目标之一,然而由于深层语义分析的复杂性,人们目前更关心浅层语义分析,一种简化的语义分析形式,它只分析与句子中谓词有关成分的
数据质量已被公认为是数据管理的首要问题之一。针对数据质量管理领域的数据记录不匹配及不一致问题,本文分别从记录匹配检测及不一致修复两个角度出发,提出了基于CON模型的
由于有着标准化、简洁、结构严谨和可高度扩展等优点,可扩展标记语言XML在飞速发展的互联网中逐渐成为网络数据表示和交换的标准格式。现今网络上出现了大量的XML文档,这些文档
序列数据库搜索是生物信息学中的重要应用,具有计算密集型和可并行性的特点。由于生物技术的发展,序列数据库以指数增加,使得搜索越来越耗时,传统的计算机已经难以满足计算需求。
随着人民生活水平的不断提高,城市化进程的不断加快,现代城市各类公共场所人口和资源不断集中,各种风险和非常规突发事件的威胁日益凸现。非常规突发事件引起的行人疏散过程
在不影响意思表达的情况下,为了语言的简洁明了通常会省略部分语言成分,这种现象称为缺省。缺省是一种常见的语言现象,在汉语中更加普遍。国内外对于中文缺省的研究起步比较早,但