论文部分内容阅读
大数据时代的来临造成数据规模急剧增长以及搜索空间逐渐扩大,这对数据挖掘领域提出了新的挑战,面向大规模数据的数据挖掘需求日趋强烈。为解决传统数据挖掘技术在处理大规模数据集和高维数据时有效性及运行效率差的问题,需要改进现有数据挖掘算法以适应大规模数据和高维数据的实际,提高算法在大规模数据下的执行效率、针对性以及挖掘结果的质量。在充分了解垂直频繁模式挖掘的原理及其在大规模数据环境下面临的问题基础上,提出了基于元数据集成的分布式垂直频繁模式挖掘方法,方法包括基于元数据集成的分布式垂直频繁模式挖掘算法及为进一步提高算法性能的分布式垂直频繁模式负载均衡策略。其中,基于元数据集成的分布式垂直频繁模式挖掘算法包含以下三个部分:首先通过抽样算法抽取少量数据样本,对样本生成规则完成属性关联度计算;然后按照属性关联度进行数据分块,将数据分成若干独立的数据块;最后按照数据分块建立垂直频繁模式树,对垂直频繁模式树进行挖掘。由于采用垂直频繁模式存储结构可以保证挖掘出的结果即为全局结果,因此生成规则无需进行合并。分布式垂直频繁模式负载均衡策略首先按照各局部站点的处理能力及网络处理能力进行站点状态的划分,然后根据站点的不同状态完成任务的分配。最后,对本文提出的基于元数据集成的分布式垂直频繁模式挖掘算法进行了实验分析,实验表明本文提出的基于元数据集成的分布式垂直频繁模式挖掘算法的时间效率在大规模数据集下优于传统关联规则挖掘算法。采用的负载均衡策略在时间效率及负载均衡度上也优于传统负载均衡策略。综上,本文分为以下三个部分:首先分析研究背景及意义,进行相关文献综述;然后提出基于元数据集成的分布式垂直频繁模式挖掘方法,并为进一步提高算法性能给出分布式垂直频繁模式挖掘负载均衡策略;最后对提出方法进行实验分析及性能评价,并进行总结及展望。