基于加权动态树的高权重容错频繁项集挖掘算法研究

来源 :青岛理工大学 | 被引量 : 0次 | 上传用户:chaircat
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁项集挖掘是数据挖掘研究当中的基本问题,而传统的频繁项集挖掘方法虽然顾及了项集的频繁性,但却对现实中不可避免的噪声影响有失考虑。在实际应用中,项集往往根据各自的意义或者价值具有不同的重要性,项集中也包含了不完全匹配的隐式频繁项集。传统频繁项集挖掘存在以下问题:(1)传统频繁项集挖掘不能挖掘隐式频繁项集导致输出频繁项集数量少,往往导致有潜在价值的项集未被发现;(2)传统的容错频繁项集挖掘没有考虑到项集的重要性问题,使得无法从利润方面体现数据价值;(3)现实生活中需要处理的数据过于庞大,使得用户对结果的处理十分耗时,传统频繁项集挖掘未能很好解决这一问题。关于上述问题,本文的重点工作和创新点主要包括:(1)通过综合研究数据挖掘、关联规则挖掘、加权频繁项集挖掘、容错频繁项集挖掘的国内外现状,系统剖析了近几年相关的算法,并总结了上述算法的优势和存在的问题;(2)提出了一种基于加权动态树的高权重容错频繁项集挖掘(High Weight Fault-Tolerant frequent itemsets mining algorithm based on Weighted Dynamic Tree,HWFT-WDT)算法。该算法用于挖掘高权重容错频繁项集,从而使得用户能够获取更加完整的项集和重要性数据;提出了加权动态树的数据结构,能够存储所有节点的权重,便于平均权重的计算;仅使用一个加权动态树的方法,避免了构造多个子树的高成本;提出了3个剪枝策略,有效地减少了在挖掘过程中的搜索空间。而实验结果显示,该算法在运行时间、存储空间及延展性方面皆优于目前较先进的FT-Pattern Growth算法及FT-Apriori算法;(3)随着大数据技术发展的日趋成熟,很多数据挖掘算法都利用分布式平台来提升算法自身的性能和效率。为了满足用户快速挖掘超大型数据集的需求,本文在Spark架构下进行HWFT-WDT算法的分布式并行化,提出了Spark架构下的基于加权动态树的高权重容错频繁项集挖掘(Parallel High Weight Fault-Tolerant frequent itemsets mining algorithm based on Weighted Dynamic Tree,PHWFT-WDT)算法。仿真实验表明该算法可以满足大数据环境下对挖掘高权重容错频繁项集挖掘的技术要求,并且大大改善了算法的性能,具备可行性和有效性。总之,本文结合了容错频繁项集挖掘和加权频繁项集挖掘的理论,建立了一种新的数据结构并且提出了HWFT-WDT算法,并将该算法在Spark架构上实现了分布式并行化。实验结果显示,与目前较先进的容错频繁项集挖掘算法相比,HWFTWDT算法无论是在稀疏数据集还是稠密数据集、小型数据集、大型数据集、超大型数据集上都具有良好的性能。
其他文献
湿度作为一个重要的环境参数,在农业仓储、环境监测、工业制造等多个领域需要被严格监测,人们对湿度传感器的灵敏度、滞后性、响应时间、长期稳定性、湿度量程等性能指标提出了更高的要求。在各类湿度传感材料中,二维过渡金属碳化物/氮化物(MXene)由于其独特的物理和化学性质得到许多学者的关注研究,但MXene在潮湿的空气或水中表现出的低稳定性及不够迅速的响应恢复时间,仍然限制了其在湿度传感器中的广泛应用。本
学位
基于扇出型晶圆级封装的超薄层叠封装和挠性电子互联等技术,可满足消费类电子产品对于轻薄化和小型化的需求,在未来智能电子系统领域具有重要应用前景,而聚合物材料表面金属化是超薄Po P封装、挠性电子互联等实现后续互联电路制备的关键技术之一,受到行业的广泛关注,其研究热点有金属化层的电气性能、镀层与基板的结合力等。论文基于实际需要,研究了SiO2填充型环氧树脂基板和PET基材两种材料表面化学镀铜沉积技术。
学位
锂硫(Li-S)电池因其较高的理论能量密度,被认为是极具前景的先进储能系统。然而,可溶性中间产物多硫化物的穿梭行为和绝缘性硫物种缓慢的反应动力学,导致硫利用率低和容量快速衰减。本文通过调控沸石咪唑酯骨架(ZIFs)衍生材料的组成和结构,制备了兼具高导电性和高催化/吸附活性的功能化多孔碳材料,其丰富的活性位点能捕获并促进多硫化物氧化转化,快速的电子传递可加快电化学反应动力学,抑制穿梭效应并提高硫利用
学位
实际工作的滚动轴承大都处于乏油润滑状态下,已有的大多数研究集中于接触区内部的润滑状态,但对接触区外部润滑剂流动分布回填和油池形态的研究较少。实际上,接触区外部油池形态对接触区内部润滑状态存在显著影响。接触几何特征、运动特征和外部供油方式是影响油池形态的重要参数,但目前对该方面的研究明显不足。因此,本文采用定量供油方式复现乏油润滑状态,在球-盘点接触光干涉润滑油膜测量装置,对近接触区油池形态及演化过
学位
行人检测是计算机视觉的一个重要研究分支,使用检测算法判断图像中是否存在行人目标,如果存在,标记出行人的准确位置。近年来,随着计算机硬件、深度学习以及卷积神经网络的快速发展,行人检测技术在智能安防、智能驾驶和智能机器人等多个领域得到广泛应用。现实生活中,进行行人检测时存在行人尺度姿态多样、行人被遮挡、光线不均匀、背景干扰等众多的影响因素。其中,行人尺度姿态多样和行人被遮挡是本论文的研究重点。一方面,
学位
碳基材料,由于其高孔隙率、高化学和物理稳定性、低成本以及可再生性,成为超级电容器中负极材料的最佳选择之一。因此寻找具有高比表面积和合适孔径,且有杂原子掺杂的碳基材料,是目前的研究热点。酞菁(Phthalocyanine,Pc)聚合物是一种工程热固性树脂,具有丰富的氮含量且具有独特的18电子共轭大环体系。本文选用酞菁聚合物作为碳源,添加不同纳米材料与无金属酞菁混合后高温裂解制备用于超级电容器的负极碳
学位
近年来我国经济快速发展,越来越多的企业在竞争激烈的市场中表现出不同程度的发展困难,产品价格、销售量、利润都出现下降的趋势,相反材料、人工、包装却出现上升趋势。企业的发展遇到瓶颈,小型企业在这方面的问题尤为突出,管理者认识到传统的成本管理已经不能真正地反映公司成本管理的需求,需要引入更加先进的成本管理理论,结合自身特点发展新型的成本管理。本文将以琪美公司为例结合价值链成本管理的相关理论分析企业目前成
期刊
2021年政府工作报告和十四五规划均提出要力争于2030年前实现碳达峰,2060年前实现碳中和。这对建立清洁低碳安全有效的能源系统提出了更高的技术要求,进一步明确了新能源产业发展在绿色发展中的战略性地位。随着“电动中国”发展战略的提出,具有高续航能力、高安全性的电子设备(如新能源汽车、便携式笔记本电脑、智能手机等)的研发直接关乎人民的美好生活。锂金属负极(LMA)因其具有较高的理论比容量(3860
学位
作为新兴光伏电池的代表,钙钛矿太阳能电池近年来发展迅猛,光电转换效率屡创新高,受到了学术界和工业界的广泛关注。然而,钙钛矿太阳能电池的低稳定性是其商业化的主要障碍。通常,钙钛矿太阳能电池由空穴传输层、钙钛矿层、电子传输层和电极组成。其中,空穴传输层直接与钙钛矿接触,其稳定性对于电池器件的稳定性具有重要影响。因此,开展空穴传输层稳定性研究对于推动钙钛矿太阳能电池的商业化进程至关重要。本论文针对钙钛矿
学位
目的 测定首荟通便胶囊(何首乌、芦荟、决明子等)中2,3,5,4′-四羟基二苯乙烯-2-O-β-D-葡萄糖苷、柚皮苷、新橙皮苷、芦荟苷A、芦荟苷B、芦荟大黄素、大黄酚的含量,并优化其提取工艺。方法 该药物50%甲醇提取液的HPLC分析采用Agilent ZORBAX XDB C18色谱柱(250 mm×4.6 mm, 5μm);流动相乙腈-0.1%磷酸,梯度洗脱;体积流量1.0 mL/min;柱温
期刊