频繁项集挖掘算法的研究与应用

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:nyxjm2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展及广泛应用,各行各业都积累了大量的数据,利用传统的数据处理技术并不能将数据中隐藏的知识得到充分的发现与利用,因此数据挖掘技术应运而生。关联规则挖掘作为数据挖掘领域的一个重要方法,它能够在海量数据中发现有价值的信息,从而辅助许多商业活动做出恰当的商业决策。关联规则挖掘分为频繁项集挖掘和关联规则生成这两个步骤。而频繁项集挖掘是决定关联规则挖掘效率的关键所在,因此提高频繁项集挖掘效率是关联规则挖掘的研究热点。为了提高频繁项集挖掘效率,本文对FP-Growth相关的算法进行了改进。提出了一种基于单向频繁模式树UFP-tree的频繁项集挖掘算法UFIM(Unidirectional Frequent Itemset Mining Algorithm)。该算法首先构造一种单向频繁模式树UFP-tree,然后在所构造的UFPtree上引入被约束子树,并对指向相同端点和指向不同端点的被约束子树分别采用非递归和递归的方法来挖掘频繁项集。非递归的方法是判断端点的支持度计数是否小于最小支持度计数,若小于最小支持度计数则这棵被约束子树无频繁项集,否则其频繁项集为除根节点外的节点的组合。实验结果表明,UFIM算法的运行速度高于同类算法。为了提高UFIM算法在大数据环境下的频繁项集挖掘效率,本文对UFIM算法在Spark平台的并行化方案进行了设计。该方案首先并行求得频繁1-项集,然后将被单项约束的子树所需要的数据分发到多个子节点,各子节点独立挖掘属于该部分的频繁项集,最后将各节点挖掘的局部频繁项集进行汇总得到全局频繁项集。实验结果表明:基于Spark平台的并行化UFIM算法具有较好的时效性,适用于大数据频繁项集挖掘。为了更好的检验基于Spark并行的UFIM算法的实用性,本文开发了一个简单的图书推荐系统。该系统通过对用户历史购买记录进行分析得到前后件都为图书标识的关联规则,根据用户浏览的图书标识推荐其可能购买的图书。应用结果表明,基于Spark并行的UFIM算法能够有效的应用到图书推荐系统中去,能够准确的进行商品推荐。
其他文献
未来社会的发展将使人们的生活变得越来越智能化,智能交通系统将逐渐融入人们的生活,它在方便人们的出行、提供更好交通服务等方面起到了重要的作用。卷积神经网络的出现让计算机视觉有了跨越式的发展,为智能交通系统的发展提供了必要条件,而车辆检测与分割是智能交通系统中关键的一步。传统的检测方法用尺度不变特征变换等方法提取特征之后分类的做法由于模型的泛化能力不强,存在检测精度不高的问题。全卷积神经网络(FCN,
在经济全球化浪潮中,国际劳动分工继续走向深化,生产性服务贸易的发展速度也在不断加快。在低碳经济背景下,作为生产的中间投入,生产性服务业内含有技术、信息和人力资本等高
风险决策作为不确定性决策的一种,由于其自身可能带来的负性结果,一直倍受各领域学者们的关注。伴随着绝对理性、有限理性、生态理性的逐渐演进,风险决策的研究按任务类型主要可分成动态和静态两类。吉凶迷信作为一种日常生活中常见非理性的现象会怎样影响风险决策,是一个值得广泛关注的问题。为此本研究设计了两个研究三个实验,来考察吉凶迷信对风险决策的影响。研究一探索大学生吉凶迷信的现状。采用内隐联想测验的范式,探究
人的不安全行为是导致事故发生的主要原因,有效的安全培训可以很好地提升工作人员的安全素质,增强安全意识,进而从根本上预防事故的发生。本文针对某航天企业运用VR技术和传统方法两种培训方式对吊装作业人员和厢式电梯体验人员进行安全培训的情形,在对培训内容和培训形式充分认识和理解的前提下,建立了安全培训效果评价指标体系。利用层次分析法确定了各指标的权重,并应用可拓优度评价模型对VR技术吊装作业安全培训和厢式
太阳光驱动的半导体光催化产氢技术,给当代社会急需寻找可替代新能源的现状带来曙光。对于可见光驱动的单相半导体,在光吸收和强氧化还原能力之间存在无法调和的矛盾,具体表
在低压配电系统中,当劣化和老化的配电线彼此接触不良时,就会经常产生不可预测的串联型电弧故障。目前,已经研究了许多方法来检测这种故障,以防止火灾事故的发生,但这些方法还不能在配电线路运行模式下将串联型电弧故障定位。因此,本文将对单相负载的配电线路的电流和电压信号进行特征分析,搭建与故障位置相关的方程,以此为基础找出故障发生的位置。本研究有利于配电线路的及时维修,将大大减少人工巡线的辛苦。首先研制了针
宝卷的现代传承分布有南北文化地理之别。北方宝卷主要分布于山西的永济、介休和甘肃河西等地;南方宝卷主要传承于江浙吴方言区,如苏州、宁波、绍兴、靖江等地。本文选题中甘肃河西的张掖和江苏南部的靖江分别代表了南北两个不同区域的宝卷风格。明清时期,宝卷流传到南北各地,作为“丝绸之路”上东西文化交汇中心的张掖,很自然地接纳了宝卷这种民间文化。靖江也因自身独特的地理位置,形成了别具一格的“讲经”活动。综合而言,
我国大多数湖泊正处于不同程度的富营养化状态且富营养化程度日益加剧,致使藻类迅速生长繁殖,再加上气候变暖,最终导致蓝藻水华频繁大面积暴发。蓝藻水华形成是水体中藻类生
随着社会发展与科学技术的发展,机器人的应用越来越广泛,不论是抗震救灾,军事应用,还是医疗辅助,日常生活,对移动机器人的需求越来越多。如何去控制机器人实现不同的步态,如何提高机器人在现实场景中的应用,已经成为一个热门的研究课题。本文以四足机器人和闭链杆式滚动机器人为研究对象,结合仿生学观察,研究基于中枢模式发生器(Central Pattern Generator,CPG)的移动机器人控制方法,并完
基于相位敏感光时域反射计(φ-OTDR)的分布式光纤传感系统,具有结构简单稳定、空间分辨率高、可实现多点同时监测等特点,广泛用于军事、核工业、石化、医疗等领域,成为分布式光纤传感领域的研究热点。本文针对φ-OTDR模式识别方法,设计实验采集数据,综合不同分类原理分类器的各自优点,提出基于专家系统的φ-OTDR模式识别方法,有效提高φ-OTDR系统的事件分类正确率。本文完成的主要研究工作如下:(1)