基于分布式平台的Apriori算法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:kantstop
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的到来使得数据挖掘技术及其应用的领域得到了拓展,涌现出各类数据挖掘算法,其中Apriori算法作为较为经典的关联规则挖掘算法受到了广泛的关注,出现了众多的改进Apriori算法,随着挖掘数据量的增加,如何通过分布式集群来扩展数据挖掘处理能力提高效率,具有非常现实的应用价值和意义。本论文在深入分析研究现有相关Apriori算法的基础上,针对算法在事务数据的存储表示、候选项集生成方式、剪枝效果、候选项集频度计算方法上都存在的不足,给出了Apriori改进算法(IABL),具体通过IList数据结构实现对事务数据的高效压缩,采用频繁项集与挖掘出的部分频繁项集进行连接生成候选项集的方式,有效减少候选项集的生成数量,再使用Apriori的性质完成候选项集进一步的剪枝,采取高效的位运算代替循环计数或者搜索计数的方式,提高相应的计算速度,改善频繁项集挖掘效率。将IABL算法按基于事务数据库水平划分和基于事务数据库垂直划分两种不同的任务分解策略分别应用于构建分布式系统的Hadoop框架上,以满足大数据挖掘的需要。其中基于事务数据库水平划分的策略先挖掘出局部频繁项集,再从局部频繁项集中挖掘出全局的频繁项集;而基于事务数据库垂直划分的策略则先挖掘出部分频繁项集,然后对部分频繁项集进行连接操作,构建候选项集,再从所构建的候选项集中挖掘出剩余的频繁项集,从而最终得到全部的频繁项集。最后,通过IABL算法以及采用两种不同任务分解策略的基于Hadoop的IABL算法实现和程序运行测试,在多个数据集上完成了算法的验证比较,算法运行结果显示了两种不同策略下基于Hadoop的IABL算法实现的不同特点以及IABL算法的可行性、有效性和高效性,达到了Apriori的算法改进和应用目标。
其他文献
数字化学习因其便捷,便于共享,学习形式新颖等特点,已经广泛应用于国内外教育领域的教学过程中。面向中学STEM学科,虚拟实验作为一项典型的数字化学习模式,有助于解决传统学习模式下学生实验能力薄弱的问题。目前,虚拟实验缺乏与学科知识的紧密结合,而结合了人工智能领域的相关研究成果的知识图谱,可以辅助教师与学生更好地通过虚拟实验完成学科知识的教学与学习,且在学生自主式实验学习过程中发挥着重要作用。本文的主
自1999年扩招以来,我国高等教育无论是在教学规模,还是在治学水平方面均发生了翻天覆地的变化[1]。当前,我国接受高等教育的学生数量已经位居世界前列。面对如此庞大的学生规模,实现校园统一的信息化、数字化管理已经成为我国高校管理发展的主要趋势。鉴于此,本课题研究的学生培养过程数据管理系统旨在为高校二级学院学生教学管理工作提供一个全面、合理、可靠的信息管理平台。该平台囊括了目前学生培养管理工作所需的所
随着智能设备的升级和网络技术的迅速发展,人们接触到的图像越来越丰富和多样化。如何让机器更好地理解图像的语义信息并为人们的生活提供便利已成为图像研究的热点之一,尤其近几年在深度学习和跨模态领域(计算机视觉和自然语言处理)的巨大突破,图像问答任务已成为人工智能的重要研究方向。根据不同任务情形,研究者们提出了很多解决方法,基本思想通常都是提取图像特征与文本特征融合再对答案进行预测,或是在像素级别使用注意
近年来,随着计算机视觉的快速发展,移动机器人的应用场景也越来越广泛,同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)是实现智能机器人自主导航的核心技术。考虑到人们大多数的活动都处于室内,传统的基于GPS与惯导的定位技术在室内场景存在信号容易丢失等弊端,因此本文主要研究基于RGB-D相机的室内定位算法。本文主要的研究工作有:(1)本文提出了一
近年来,大数据分析技术在医疗领域逐渐得到了广泛的应用。其中,聚类方法通过计算数据间的相似度得到类簇从而帮助我们发现样本间隐藏的联系。而将聚类技术应用于医疗领域能够挖掘医学数据中的潜在信息,为医学研究人员提供决策支持。本文对聚类技术在疾病危险因素上的提取算法模型做了研究,具体工作如下:本文构建了基于改进Canopy的K均值算法模型以提取危险因素。首先基于特征选择双标准策略对数据进行特征筛选,利用改进
计算机视觉是指用摄像设备和计算机模拟人类视觉对目标进行识别、跟踪、测量的机器视觉,通过对图像的识别分析对其中的图形进行进一步处理,使其成为更适于仪器分析和人眼观察的图像。计算机视觉能够在客观世界感知三维场景、识别和理解,能够实现视觉感知、图像识别、人脸识别、目标定位等。在现代社会中计算机视觉及相关的算法具有很总要的研究价值。卷积神经网络在局部感知、信息捕捉的优势,使其在计算机视觉的研究方面发挥了重
古籍是记录与承载中国历史文化资料的重要途径,其丰富的历史和文化内涵是优秀传统文化的重要部分。目前,学术界针对古籍的文化相关研究主要为古籍资料数字化保护方法,针对古籍的文化大众化传播的研究较少。网络技术的发展,革新了古籍的文化传承方式,为其传播带来了新的契机。本课题以南京古籍书店为例,结合传播学理论、系统化的用户需求研究工具与方法,得出了南京古籍书店的新媒体传播策略与交互体验策略,旨在通过融合新媒体
毫米波连续波雷达与脉冲体制雷达相比具有高距离分辨力、结构简单和高接收灵敏度等优点,但因为连续波雷达的体制,发射机对于接收机有泄露问题,所以如何提高收发通道之间隔离度是阻碍其广泛应用的难点。对于这一难题,各种对应的解决办法被提了出来。其中毫米波射频对消技术是值得深入研究的一个方向。本论文在这样的背景下,对毫米波对消系统进行了全面的研究。首先,本文介绍了连续波雷达的现状以及问题,并给出了现有的解决方案
随着仿生技术的不断进步,各式各样的仿生机器人陆续出现在科技前沿和人们的视野之中,而对海洋开发的不断需求和海上作战的需要,使得水下机器人也逐渐受到科学家们的重视。本文通过对水母的形态和运动机理等进行研究,设计出了一种仿生水母机器人,以机械臂作为驱动方式,实现水母的水下运动功能,并对其进行了仿真分析和控制算法的研究。根据仿生设计的特点,首先对水母生物体进行形态分析,选择伞状体作为主要的仿生元素,以四条
目标检测是计算机视觉领域的关键任务之一,本课题以无人车辆在野外环境下侦察到的图像为研究对象,检测和识别出每个野外目标对应的边界框和所属的具体类别,最终形成比较完备的目标检测系统。具体内容如下:(1)制定了野外目标数据集的采集方案,通过相机采集和网络爬虫收集筛选制作了本文使用的野外目标数据集。分析了野外目标的特性,通过无人车采集到的图片中的野外目标往往具有迷惑性、遮挡较严重、目标距离较远等特点。为了