基于Hadoop平台的Apriori算法改进研究

来源 :江苏科技大学 | 被引量 : 1次 | 上传用户:zzdlily_7000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技不断地进步与社会快速地发展,计算机技术已经渗透到社会各个领域中。但随着数据时代的到来,数据量呈爆炸式增长,作为经典的数据挖掘算法之一的Apriori算法已经不能满足我们当前的需求。它的速度慢、效果差以及单个计算机的计算性能不高等缺点在大数据环境下逐渐被放大,如何将Apriori算法适应到新的环境则成为当前Apriori算法热门的研究方向。本文通过对其进行算法改进并与时下流行的云计算平台相结合的办法来弥补它的缺点,从而使Apriori算法更好地适应数据时代的环境,为我们带来更高效的工作。本文的研究工作主要分为以下两个方面:第一方面,通过当前数据规模环境下分析传统Apriori算法速度慢、效果差的原因。针对传统Apriori算法对数据库扫描次数过于频繁、算法迭代过程中自连接次数过多的问题进行了改进:首先,优化算法数据库扫描机制,将原算法每迭代一次就对数据库进行扫描改进为可变多阶段扫描,降低扫描次数;其次,降低算法自连接对比次数,让(k-1)项候选集取消自连接过程,转变成(k-1)项候选集与频繁1项集连接生成新的k项候选集并与其进行比较。最后,通过相同数据集进行对比,得出改进后算法效率得到提高。第二方面,对Hadoop平台的核心组成部分原理进行分析,让它的大规模、低成本、高可靠性等优点与改进后的Apriori算法相结合,并分析两者结合的可行性与有效性。最后,通过实验进行分析得出使用该改进算法与Hadoop平台相结合的效率比传统Apriori算法的效率更高。
其他文献
经历了多年的发展,人工神经网络演化出多种独特的结构。卷积神经网络(CNN)由于在计算机视觉、语音识别和自然语言处理等领域的出色表现引起了研究人员的广泛关注。然而,随着CNN的功能越来越强大其网络模型也越来越庞大,训练耗时,对硬件要求苛刻等一系列问题制约着CNN的发展。因此,对CNN模型压缩的需求应声而出。针对上述问题,本文提出了一种基于逐步修剪策略的CNN模型压缩方法。与前人通过对权重修剪以减少C
人群踩踏事件是现代生活中非常危险的事故之一,给人类的生存安全带来了极大的威胁,有效的抑制踩踏事故的发生对于现代化城市建设来说是必不可少。目前,通过将人群密度估计(或者人群计数)技术与人群行为分析相结合可以有效的分析场景中的异常事件,对危险做出预警,这也是目前比较有效的预防踩踏事件的措施之一。但人群计数任务本身容易受到图像中的透视、拥挤、遮挡、密度等因素的干扰,造成图像中的人头在尺度、外貌上出现比较
探测粒子发射源的时空信息是高能核—核碰撞实验的重要研究内容,而π干涉学分析是人们获取高能碰撞系统时空结构的有效方法。多相输运模型(AMPT模型)是模拟相对论重离子对撞
人体行为识别是计算机视觉的热门研究方向之一。低成本的深度传感器的出现,如微软的Kinect,可以有效避免光照、环境等因素的影响,同时,它还可以获取图像中的深度信息和骨架信息,为人体行为识别研究提供了好的数据来源。因此,在人体行为识别的研究中,研究人员逐渐倾向使用三维骨架信息。词袋模型作为一种机器学习方法,被广泛用于基于骨架关节点的人体动作识别。目前,该方法的识别准确率仍需进一步提高。根据目前的研究
1965年前美国初等教育的发展可分为两个阶段,分别为独立后至南北战争时期初等教育的起步和南北战争后至1965年初等教育的发展。1965年至1995年,美国社会迅速发展,美国政府在之前初等教育发展的基础上,积极开展初等教育全面创新发展工作。1965年,联邦政府对初等教育进行首次大规模干预,通过制定法律推动初等教育的发展,颁布《初等和中等教育法》。其后,经过政府不断制定教育政策,使初等教育政策逐渐符合
提高人文社科本科教育质量的途径之一,是重视和加强人文社科专业本科生科研,了解其开展现状与效果,可为进一步改进人文社科专业本科生科研提供参考。对836位人文社科专业本科生的调查发现:本科生的科研参与意愿较强烈;科研参与率(包括正在参与)较高;参与率最高的科研类型是社会调研,最低的是教师的科研项目;很大一部分本科生最主要的参与动机源于内在的功利性追求,而非源于对科研的兴趣与热爱。不同背景的本科生科研存
高精度高表面完整性的纯铁曲面薄壁构件是精密物理实验中的重要零件,但纯铁材料属于黑色金属一类,传统的磨削、研磨和抛光等工艺存在加工效率低,表面污染,工艺稳定性较差等问
高功率微波功率合成技术是提高高功率微波器件脉冲能量和功率的一个重要的研究方向。相对论速调管具有高功率、高增益、高效率及相位稳定等优点,是功率合成的理想器件之一。相关应用的迫切需求推动了相对论速调管向着更高频率的方向发展。在高频段中,常规圆柱结构的相对论速调管难以实现高功率微波输出。为了突破功率限制,本文结合同轴谐振腔与多注漂移管结构特点,提出了Ka波段同轴多注相对论速调管放大器。本文采用理论分析与
近年来,含有未配对电子的有机自由基分子在分子电子学、自旋电子学和有机电子器件以及其他潜在的相关应用中具有较强的吸引力。其中,双自由基分子由于其开壳态和闭壳态之间特有的共振结构,如较低的能带间隙和较强的分子间自旋相互作用等,受到科研工作者广泛的关注,越来越多的研究者致力于探究双自由基化合物的合成方法和性质。双自由基化合物本身的不稳定性,限制了此类化合物的电子应用。一般来说,双自由基类化合物的基态电子
从图像/视频中读取文本对于图像识别/检索、地理位置、办公自动化和帮助盲人等丰富的现实应用具有重要价值,因为场景文本包含了解世界的非常有用的语义。近年来,在场景图像中阅读文本已经成为一个活跃的领域,场景文本阅读提供了一种自动快速获取自然场景中文本信息的方法,通常分为场景文本检测和场景文本识别两个子问题。得益于深度神经网络的强大表现力,场景文本检测与识别取得了显著的进展。本文主要基于深度学习的场景阅读