【摘 要】
:
在当今大数据时代,从海量数据资源中挖掘出隐藏的、有价值的信息,为各行业管理者提供决策支持,具有十分重要的意义。关联规则的出现,为人们进行数据挖掘工作提供了新的方法。然而,关联规则的挖掘会消耗大量的时间和空间,影响挖掘效率。因此,如何减少算法的运行时间和空间占用,一直是关联规则研究的重点。为此,本文提出了一种基于频繁模式树(FP-tree)思想的项集表示方式,并基于此提出了一种改进的关联规则算法。同
论文部分内容阅读
在当今大数据时代,从海量数据资源中挖掘出隐藏的、有价值的信息,为各行业管理者提供决策支持,具有十分重要的意义。关联规则的出现,为人们进行数据挖掘工作提供了新的方法。然而,关联规则的挖掘会消耗大量的时间和空间,影响挖掘效率。因此,如何减少算法的运行时间和空间占用,一直是关联规则研究的重点。为此,本文提出了一种基于频繁模式树(FP-tree)思想的项集表示方式,并基于此提出了一种改进的关联规则算法。同时,为了有效处理大规模数据集,实现了该算法在Spark平台上的并行化。最后,利用改进的算法对某高校人才数据进行关联关系分析,发现影响教师人才类型的主要因素,辅助高校人才引进工作的开展。论文主要工作如下:(1)为了减少关联规则算法的运行时间和内存占用,提出一种基于前序完全构造链表(PF-List)的关联规则挖掘算法(PFLARM)。该算法通过比较PF-List中前序编号和完全构造顺序编号的大小,连接两个频繁(k-1)-项集的PF-List得到频繁k-项集,该过程降低了挖掘频繁项集的时间复杂度,减少了算法的运行时间。同时,在连接PFList的过程中,使用包含索引策略、提前停止交集策略和父子等价策略减小搜索范围,降低了算法的空间占用。在Pumsb数据集和Retail数据集上进行对比实验,结果表明PFLARM算法在运行时间和空间占用上具有明显的优势。(2)为了高效地处理大规模数据集,提出一种基于Spark的并行PFLARM算法(P-PFLARM)。该算法在Spark分布式平台上,采用基于哈希思想的分组策略,将原数据库均衡的划分为多个条件数据库,并分发给相应的工作节点。通过在各工作节点上并行挖掘频繁项集,实现P-PFLARM算法的并行化。在Spark集群上进行实验,从运行时间、可扩展性和并行性三个方面验证算法的性能,结果表明P-PFLARM算法不仅运行时间较短,而且具有较好的可扩展性和并行效果。(3)应用P-PFLARM算法挖掘对高校人才引进工作有意义的规则。首先,以采集到的教师数据为基础,构建人才分类模型,并对教师进行分类。然后,将教师基本信息和人才类别结合,得到高校人才数据库。最后,利用P-PFLARM算法对高校人才数据进行关联关系分析,找出影响教师人才类型的属性特征,为高校管理者制定符合实际需求的人才引进方案提供决策支持,从而促进高校人才管理工作的开展。
其他文献
计算机的高速发展使得多媒体信息得到普及,各种类型的多媒体文件得到广泛传播。如何保证在多媒体信息高速发展的大环境中,使得信息在多媒体载体中得到安全传输成为信息安全领域中热门的研究课题。本文以H.264和HEVC编码视频为载体设计了两种水印算法,通过仿真实验,验证了本文水印算法的鲁棒性以及不可见性得到了改善。本文的工作可以概括为以下两个算法:(1)研究了基于H.264视频帧系数能量分配的视频水印算法。
图像匹配技术是众多学科研究的前提和基础,其研究成果在图像配准、图像分类与检索、目标检测、立体视觉以及三维重建中被广泛的应用。多年来,诸多学者从各个方面对图像匹配算
空移键控(SpaceShiftKeying,SSK)作为一种新型多输入多输出(Multiple-Input Multiple-Output,MIMO)技术,近年来受到人们的广泛关注。相 比传统MIMO 需要传输幅值相位调制(Amp
随着人类发展与社会进步,水资源开发利用水平不断提升,如何在满足社会发展的前提下实现水资源的开发利用在有效、连续基础之上实现永续利用,己经成为21世纪普遍关注的首要资
水文循环中包含多个水文要素的相互转化和状态改变,随着气候变化的进一步加剧,气温、降水、径流、水位等的原有固定状态变化,导致这些水文要素的季节性发生改变。本文以鄱阳湖赣江流域为研究对象,重点关注流域内气温、降水、径流和水位四种水文要素的季节性变化特征。首先分析鄱阳湖流域的入湖径流情况,再以鄱阳湖流域最大支流-赣江流域为典型案例,探讨其水文要素在基准期和未来时期的季节性特征,主要结论如下:1)将新安江
内蒙古赤峰地区是我国重要的金矿产地之一,分布着大量的金矿。相对于矿床学其他内容的研究,前人对该地区金矿的控岩控矿构造研究较少,而且深度不够。另外,该地区位于板块碰撞交汇部位,构造叠加比较复杂,是研究金矿中控岩控矿构造的理想场所。柴胡栏子金矿及其邻区是内蒙古赤峰地区近年来的重点金矿勘查区,且柴胡栏子金矿的矿体明显受构造控制,因此对于该金矿控岩控矿构造的研究,一方面可以充实该地区的构造找矿理论,另一方
互联网技术的飞快发展使得每一个人都可以成为网络数据的贡献者。网络数据不仅更加贴近真实的人体行为场景,而且含有非常丰富的数据。如何利用这些庞杂的网络数据来实现人体
导水裂缝带作为采动覆岩破坏的具体表现形式,其发育高度是矿井防治水工作的一项重要评价参数。而地层的沉积特征,除了影响岩层的含水性和富水性外,亦会影响岩层受采矿扰动后的力学损伤行为表现。考虑地层沉积特征的采动覆岩破坏规律及矿井充水条件研究,对于煤矿安全生产具有重要指导意义。本文在前人地质成果汇总和文献研究的基础上,采用遥感数据提取、钻孔数据矢量化、薄片鉴定、现代分析测试、古生物学研究等方法,揭示了焦坪
随着汽车保有量的迅速增加,我国的能源和环境面临严重挑战。由于混合动力汽车能够满足整车低排放和低油耗的综合要求,开发以混合动力汽车为代表的新能源汽车已成为汽车工业创
钛合金作为最近几十年发展起来的轻型金属材料,具有比强度高、比模量高、耐腐蚀性好、耐高温等优良特性,广泛地运用于航空结构件及少量高端汽车构件中,其中高强钛合金的研发