频繁项双向挖掘算法的研究与实现

来源 :上海海事大学 | 被引量 : 2次 | 上传用户:cw5188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是帮助人们在海量数据中发现信息和知识的工具。近年来数据挖掘技术成了商业智能的核心技术,被广泛应用到了诸多领域,引起了学术界极大的关注,如何提高数据挖掘的效率成为学术界热门的研究课题。 在事务数据库中挖掘关联规则是数据挖掘领域中的一个非常重要的研究课题,目前,关联规则挖掘在商业等领域得到了成功应用,使它成为了数据挖掘中最成熟、最重要、最活跃的研究内容。关联规则侧重于确定数据中不同领域之间的联系,即寻找给定数据集中的有趣联系。通过描述数据库中数据项之间所存在的潜在关系的规则,找出满足给定支持度和置信度阀值的多个域之间的依赖关系。 R.Agrawal等人提出的Apriori算法是最著名的、最有影响的关联规则挖掘算法,它按项目集从小到大的顺序寻找频繁项集。其核心技术为其它各类布尔关联规则挖掘算法所广泛采用。Apriori算法已被广泛用于商业决策、银行贷款、金融保险等领域。 但在实践中,人们也发现该方法是在挖掘长频繁项(如100个项目)时,会遇到非常耗时的巨大计算问题。并相继提出了一些优化算法,如基于划分的方法、基于Hash的方法、基于采样的方法,目的在于减少候选集生成的规模和数量,提高算法的使用效率。 自顶向下挖掘算法(Top_Down),利用事务项目关联信息表、关键项目、项目约简、投影数据库等新概念和投影、约简等新方法,在候选集生成过程中及时修剪重复分支,使算法的实际效率大为提高,较好的解决了长频繁项的挖掘问题,通过计算机实验和算法分析,证明了这种方法的有效性和完备性。但在实验中,我们也发现,在支持度较大,频繁项长度较短时却是利用Apriori方法的有利时机。 本文提出了一种结合自顶向下和自底向上的双向挖掘算法,把Top_Down算法和Apriori算法结合起来使用。主挖掘方向是自顶向下挖掘策略,同时利用自底向上方法生成的非频集来及时修剪候选集,减少候选集生成的规模和数量,有效的提高了算法的实际效率,较好的解决了长、短频繁项的挖掘问题。
其他文献
卡通是一种以绘画等造型艺术为主要表现手段的艺术形式,现已成为当今人们最喜爱的媒介传播形式之一,广泛应用于电视动画片、动画电影以及游戏开发等领域中。 渲染技术可以
利用低压电力线路进行高速数据通信无需另外布线,安装和使用方便,成为宽带网络多元化的发展方向之一。但目前国内电力线宽带接入终端(基于Intellon51X1芯片)只提供MAC层管理接
MIPS的意思是Microprocessor without Interlocked Pipeline Stages,即无内部互锁流水级的微处理器,它是世界上很流行的一种RISC处理器。与CISC相比,RISC的设计周期更短,设计也更
本文主要讨论了三维几何网格模型的几何压缩算法的现状。并针对目前拓扑压缩算法大都仅适用于三角形网格的现状,提出一种新型的无损压缩算法以及其实现方法。该算法的特点如下
频繁项集挖掘是一类重要的数据挖掘问题,可以广泛应用在关联规则挖掘、相关性分析、入侵检测、序列模式、分类和聚类等多种数据挖掘任务中。本文对大量频繁项集挖掘算法进行
随着面向服务架构SOA(Service-oriented Architecture)的发展,Web服务组合已经应用到日常生活的各个领域。用户在使用Web服务组合时,需要提供一些个人隐私信息以完成必要的业务功
基于案例的推理(Case-Based Reasoning,CBR)以完全不同于基于规则的推理(Rule-Based Reasoning,RBR)的方式在人工智能的众多技术中独树一帜。CBR可以理解为使用先前的经验来解
随着我国第一个全国性下一代互联网CNGI核心网CERNET2正式开通,IPV6下的各项应用成为学术、商业界研究的热点。作为IPV4协议下保障网络安全的重要环节—防火墙,是否适合在IPV6
随着网络信息技术的发展、Internet应用的逐渐普及,WWW已经成为一个巨大的信息存储、发布空间。但由于其数据的无结构化、无索引、异构性的特点,使得人们很难充分利用其丰富
本项目研究钻具构件包括疲劳寿命、腐蚀寿命和磨损寿命的评估方法,并编制计算机程序对钻具全寿命过程进行计算分析和管理,解决了一直困惑钻具管理者的钻具使用历史数据查询、