基于PAC模型的并行关联分析随机算法

来源 :云南财经大学 | 被引量 : 0次 | 上传用户:taobixianshi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临以及数据集容量的迅速增长,基于并行/分布式计算的频繁模式挖掘相比受内存和节点限制的传统技术在处理海量数据集时有较为明显的优势。正是处于当前的背景下,本研究论文提出一个有效的基于随机抽样的关联分析算法用来从大规模数据集内发现近似频繁项集。本算法的核心在于选择一个数据集的随机样本来挖掘近似频繁项集。标准的Apriori和FP-Growth算法往往需要多次扫描整个数据集来找到具体的频繁项集,对于极大数据集而言,这必然会付出相当高的存储和计算代价。为了更有效地进行大数据集挖掘,本文提出两个新的基于随机抽样的技术从事务型数据集样本中提取高质量的近似频繁项集,并且给予较高的概率保证该近似项集是数据集内真实频繁项集的超集。其中一个方法应用计算学习理论中的经验Rademacher复杂度,结合集中不等式,来推导出一个基于数据集样本经验Rademacher复杂度的近似上界,进而运用统计学习理论中的相关结论来找到项集绝对频率误差上确界的一个近似上界。另一个方法则直接利用经典的Bernstein不等式的变形来限定项集的绝对频率误差。然后将PAC学习框架应用于这两种频繁项集抽样方法的分析中,通过频繁项集的(?,δ)-近似来推导出各自的满足PAC样本完整性的近似样本边界,最后算法根据该边界值选取相应的数据集样本来挖掘近似频繁项集。自频繁项集发现问题被提出以来,后续有许多文献致力于研究基于抽样技术的频繁项集发现方法。同时随着单机串行计算瓶颈的出现,越来越多的研究工作开展基于并行/分布式计算平台的频繁项集发现任务。本研究论文的扩展实验既采用真实的retail数据集,也包括人造数据集T10I4D100K,分别从数据集样本挖掘实验中返回的近似频繁项集的召回率,准确率以及频率误差估计三方面来评估方法的正确性,同时从串行计算(基于单机)和并行计算(基于Hadoop伪分布式平台)两方面综合评估方法的运行时间,最后对提出的不同的理论方法的性能以及对样本空间的需求进行了对比。根据目前所了解的知识情况,本研究首次将经验Rademacher复杂度以及Bernstein不等式应用于基于抽样技术的频繁项集发现问题中,并利用统计学习中的相关结论推导出相对紧凑的理论样本边界,该边界相比现有的Riondato和Upfal提出的基于VC维的频繁项集发现理论样本边界更为紧凑,因而具有更优的执行效率。同时,我们研究方法建议的样本复杂度是近似误差倒数1/?和置信参数倒数1/δ的多项式函数,故而也是PAC可学习的。我们采用计算学习理论中一些经典的概念和技术来解决一个实际问题,这种研究思路或许也可以运用到数据挖掘的其他方面。
其他文献
COBOL语言出现于上世纪50年代末,应用于商业领域,是一种面向数据处理、文件输入输出的过程语言。随着计算机技术的迅速发展,各种高级语言如C、 C++、Java不断出现,使得COBOL
近年来,运动捕获技术的日益成熟和广泛使用产生了大量的三维运动数据,这些数据已被越来越广泛地应用在计算机动画、电影制作和3D游戏等领域。然而,三维人体运动数据有两个备
相机平台的移动或震动导致低分辨率图像序列之间的移动,即不受控制的微扫描。超分辨率方法正是利用此低于单像素(sub-pixel)的微运动来增强图像的分辨率。超分辨率问题是一个
归并比较评测方法是一种有效的比较两个搜索引擎结果质量优劣的评测方法。本文对在这类方法中考虑用户收益的方式进行了深入的研究,主要贡献包括以下三个方面:1)本文提出了基于
商务搜索广告是在线广告中最主要的一种表现形式,即搜索引擎根据用户的查询请求将广告投放在结果页面,然而用户提交的请求一般都比较简短,经常会出现错别字,而且用户的查询是
随着全球定位系统、无线通信技术以及移动设备等新兴技术的迅速发展与普及,基于位置的服务(LBS)得到了广泛的需求和应用,作为LBS一种重要的查询类型—位置相关Skyline查询引起
移动自组织网络(Mobile Ad Hoc Networks,MANET)是一种由多个具有对等关系的移动无线节点组成的自组织网络,该网络旨在不依赖于任何基础设施而提供无线网络服务。网络中的任意
地理信息系统(GIS)以数据的形式表达现实世界中的客观对象(如公路、土地利用、海拔等),如何从海量的数据中快速、方便地获取用户所需要的数据,成为学者们关注的焦点。空间索引提供
空间数据库是数据库的一个重要研究方向,它在地理信息系统、决策支持系统、交通网络系统及生物基因研究等诸多应用领域中都有着广泛的应用。近邻查询是空间数据库中一重要的查
通过考察相距很近的两个初始点的轨道在长期迭代过程中的发散情况所确定的李雅普诺夫指数可以用来衡量一个动力系统的动力学特性。1993年,威斯康星大学的J.C.SPROTT教授在论文