基于PAC模型的并行关联分析随机算法

来源 :云南财经大学 | 被引量 : 0次 | 上传用户：taobixianshi

【摘要】

：

随着大数据时代的来临以及数据集容量的迅速增长,基于并行/分布式计算的频繁模式挖掘相比受内存和节点限制的传统技术在处理海量数据集时有较为明显的优势。正是处于当前的背

【作者】

：

叶嘉

【机构】

：

云南财经大学

【出处】

：

云南财经大学

【发表日期】

：

2017年期

【关键词】

：

关联分析抽样计算学习 Map-Reduce

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大数据时代的来临以及数据集容量的迅速增长,基于并行/分布式计算的频繁模式挖掘相比受内存和节点限制的传统技术在处理海量数据集时有较为明显的优势。正是处于当前的背景下,本研究论文提出一个有效的基于随机抽样的关联分析算法用来从大规模数据集内发现近似频繁项集。本算法的核心在于选择一个数据集的随机样本来挖掘近似频繁项集。标准的Apriori和FP-Growth算法往往需要多次扫描整个数据集来找到具体的频繁项集,对于极大数据集而言,这必然会付出相当高的存储和计算代价。为了更有效地进行大数据集挖掘,本文提出两个新的基于随机抽样的技术从事务型数据集样本中提取高质量的近似频繁项集,并且给予较高的概率保证该近似项集是数据集内真实频繁项集的超集。其中一个方法应用计算学习理论中的经验Rademacher复杂度,结合集中不等式,来推导出一个基于数据集样本经验Rademacher复杂度的近似上界,进而运用统计学习理论中的相关结论来找到项集绝对频率误差上确界的一个近似上界。另一个方法则直接利用经典的Bernstein不等式的变形来限定项集的绝对频率误差。然后将PAC学习框架应用于这两种频繁项集抽样方法的分析中,通过频繁项集的(?,δ)-近似来推导出各自的满足PAC样本完整性的近似样本边界,最后算法根据该边界值选取相应的数据集样本来挖掘近似频繁项集。自频繁项集发现问题被提出以来,后续有许多文献致力于研究基于抽样技术的频繁项集发现方法。同时随着单机串行计算瓶颈的出现,越来越多的研究工作开展基于并行/分布式计算平台的频繁项集发现任务。本研究论文的扩展实验既采用真实的retail数据集,也包括人造数据集T10I4D100K,分别从数据集样本挖掘实验中返回的近似频繁项集的召回率,准确率以及频率误差估计三方面来评估方法的正确性,同时从串行计算(基于单机)和并行计算(基于Hadoop伪分布式平台)两方面综合评估方法的运行时间,最后对提出的不同的理论方法的性能以及对样本空间的需求进行了对比。根据目前所了解的知识情况,本研究首次将经验Rademacher复杂度以及Bernstein不等式应用于基于抽样技术的频繁项集发现问题中,并利用统计学习中的相关结论推导出相对紧凑的理论样本边界,该边界相比现有的Riondato和Upfal提出的基于VC维的频繁项集发现理论样本边界更为紧凑,因而具有更优的执行效率。同时,我们研究方法建议的样本复杂度是近似误差倒数1/?和置信参数倒数1/δ的多项式函数,故而也是PAC可学习的。我们采用计算学习理论中一些经典的概念和技术来解决一个实际问题,这种研究思路或许也可以运用到数据挖掘的其他方面。

其他文献

COBOL系统到Java环境自动化转换过程中的符号系统研究

COBOL语言出现于上世纪50年代末,应用于商业领域,是一种面向数据处理、文件输入输出的过程语言。随着计算机技术的迅速发展,各种高级语言如C、 C++、Java不断出现,使得COBOL

学位

COBOLJava自动化转换符号系统

基于稀疏表达的人体运动恢复研究

近年来,运动捕获技术的日益成熟和广泛使用产生了大量的三维运动数据,这些数据已被越来越广泛地应用在计算机动画、电影制作和3D游戏等领域。然而,三维人体运动数据有两个备

学位

运动捕获三维人体运动稀疏表达去噪少量关键标记点重建

基于卡尔曼滤波和微眼跳的超分辨图像重建

相机平台的移动或震动导致低分辨率图像序列之间的移动,即不受控制的微扫描。超分辨率方法正是利用此低于单像素(sub-pixel)的微运动来增强图像的分辨率。超分辨率问题是一个

学位

超分辨反馈离散卡尔曼滤波器微眼跳正则化

基于用户收益的归并比较评测方法研究

归并比较评测方法是一种有效的比较两个搜索引擎结果质量优劣的评测方法。本文对在这类方法中考虑用户收益的方式进行了深入的研究，主要贡献包括以下三个方面：1）本文提出了基于

学位

搜索引擎归并比较评测点击用户收益

基于网页查询结果的广告查询扩展研究

商务搜索广告是在线广告中最主要的一种表现形式,即搜索引擎根据用户的查询请求将广告投放在结果页面,然而用户提交的请求一般都比较简短,经常会出现错别字,而且用户的查询是

学位

信息检索计算广告学搜索广告查询扩展网页查询结果

数据广播环境下基于位置的Skyline查询算法研究

随着全球定位系统、无线通信技术以及移动设备等新兴技术的迅速发展与普及，基于位置的服务(LBS)得到了广泛的需求和应用，作为LBS一种重要的查询类型—位置相关Skyline查询引起

学位

数据广播位置相关Skyline数据共享用户偏好

移动Ad Hoc网络安全通信策略的研究

移动自组织网络(Mobile Ad Hoc Networks，MANET)是一种由多个具有对等关系的移动无线节点组成的自组织网络，该网络旨在不依赖于任何基础设施而提供无线网络服务。网络中的任意

学位

移动Ad Hoc网络安全通信专用指令处理器可信路由协议链路稳定性预测模型

基于P2P的空间矢量数据索引网络缓存机制的研究

地理信息系统（GIS）以数据的形式表达现实世界中的客观对象（如公路、土地利用、海拔等），如何从海量的数据中快速、方便地获取用户所需要的数据，成为学者们关注的焦点。空间索引提供

学位

空间矢量数据索引网络缓存机制P2P技术地理信息系统

基于路网的近邻查询算法研究

空间数据库是数据库的一个重要研究方向，它在地理信息系统、决策支持系统、交通网络系统及生物基因研究等诸多应用领域中都有着广泛的应用。近邻查询是空间数据库中一重要的查

学位

空间数据库K最近邻查询反向K最近邻查询路网

具有柏拉图体对称特性的球面对称动力系统的可视化研究

通过考察相距很近的两个初始点的轨道在长期迭代过程中的发散情况所确定的李雅普诺夫指数可以用来衡量一个动力系统的动力学特性。1993年，威斯康星大学的J.C.SPROTT教授在论文

学位

李雅普诺夫指数混沌吸引子充满Julia集柏拉图体对称特性球面对称动力系统可视化表达

基于PAC模型的并行关联分析随机算法

与本文相关的学术论文