缩小候选集的Top-k高效模式挖掘算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:maailin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘能够发现隐藏在数据中的有用信息,在数据分析领域扮演着重要角色,特别是在零售业,每天需要分析从各个分店产生的大量销售数据,用来帮助商家做出有利的销售决策,比如清单编制,产品布局和推广。为了使销售业务能够按计划顺利进行,对于各分店不断产生的销售数据,能够进行高效的分析是非常有必要的。作为数据挖掘的一项重要技术,频繁模式挖掘可以发现由项目构成的有用模式。在通常的挖掘算法中,如Apriori,FP-Tree,用户需设定一个阈值来从数据库中获取有用模式,但是现实中,用户很难给出一个适当的阈值。为了解决这个问题,Top-k频繁模式挖掘算法被提了出来。不同于设置阈值,用户只要设置希望得到的模式数量k,就可以得到价值排名靠前的k个模式。该算法利用向下闭合特性来缩小搜索空间,可以大大提高挖掘的处理效率。现实应用中比如超市零售数据分析中,商品利润和出现次数具有重要的意义。但是Top-k频繁模式挖掘算法不考虑上述特性。尽管可以借用效用值挖掘的概念加以解决,但它却不满足向下闭合特性。因此,无法利用向下闭合特性来提高效用模式挖掘的效率。近年来已经有人提出超估的方法,但是会产生大量的候选模式。在高效用模式挖掘算法中,减少候选模式的数量是个重要的课题。受此启发,本文提出了借助精确和预估算效用值提高阈值缩小候选集的Topk高效模式挖掘算法,本文的主要工作有:①提出了3种利用项目集的精确和预估有效值的策略来提高构建全局树时的效用阈值,缩小树的规模,节省了时间。②在构建UP-Tree之后,使用了一种新的策略再次提高阈值,使产生的候选模式更少。③与UP-Growth和TKU算法相比,本文的算法在识别最终的Top-k高效模式时,需要判断的候选模式和扫描数据库的次数更少。④对现实数据和合成数据的综合实验表明,本文算法具有较好的时间和空间性能。文章第一部分绪论介绍了研究背景,现状和内容;第二部分,简单介绍了数据挖掘的基本知识;第四部分,详细讲解了算法的过程;第五部分分析和展示了实验的结果。最后做了总结。
其他文献
随着计算机通信技术的发展,网络已经深入到人们日常生活之中。但是,人们在欣然享受其带来的欢乐和便捷的同时,也在为其带来的安全问题而担忧。目前出台的一些安全解决方案,都
最近几年,随着信息技术的发展,移动互联网时代的到来,智能手机已成为人们日常生活中不可或缺的一部分,给人们的生活方式带来了很大的改变,不仅使人们之间的沟通更加方便,同时
多计算机系统作为当今最流行的并行计算机,具有广泛的应用领域。Mesh网络拓扑是迄今为止并行计算机系统研究中最重要和最有吸引力的网络拓扑结构之一,随着计算机互联网络规模的
虚拟人在娱乐、虚拟现实等应用领域有着非常广泛的应用。而虚拟人的逼真变形也是一个非常重要的方面,既是一个热点,也是一个难点。在三维游戏等实时应用领域中,对人体变形的逼真
随着传统的数据库技术日趋成熟、计算机网络技术的飞速发展,集中式数据库开始向分布化方向发展。而传统意义上的分布式数据库由于全局数据模式很难设计、管理、扩充和修改等原
复述是自然语言中比较普遍的一个现象,它集中反映了语言的多样性。复述研究的对象主要是短语或者句子的同义现象。复述技术已经被成功的应用到信息检索、自动问答、信息抽取
重庆市政府采购电子交易平台,即重庆市政府采购协议供货平台自2012年开通以来,平台上的商品数量增长迅猛。大量的商品给采购单位带来诸多选择的同时也带来了困扰。如何采购一
目前软件开发过程中第三方组件被广泛使用来提高开发效率,但使用低质量的组件会造成灾难性后果,第三方组件测试的重要性更加凸显。大量第三方组件由于保密性的需要,源码不可
在企业信息化形势下,如何更好地对运输车辆信息进行管理,在很多的企业中已经成为企业面临的一个重要问题。为了更加高效地管理车辆,本文在充分调研车辆管理现状的基础上,提出
随着网络通信技术与多媒体技术的发展,嵌入式视频监控技术逐渐步入到一个全新的数字化网络阶段,广泛运用于电信、银行、交通、电力、智能楼宇等诸多领域。嵌入式视频监控技术