论文部分内容阅读
近些年,随着计算机处理、分析数据的技术不断发展,各个行业都产生了革命性的变化,社会已经进入一个全新的数字化时代,“大数据”概念应运而生。在社会、经济、文化、科技等众多产业领域中,数字化信息被更多的记录用来进行分析获取价值,数据量呈现爆炸式的增长,而这种大数据时代下数据信息高速增长态势,其背后隐藏着巨大的科研、商业等价值,因此对于数据本身价值的获取显得更加的重要。数据挖掘的本质是从数据之间的相互关系中挖掘出有用的价值,通过不同的技术方法得到期望的结果。大数据时代下各行各业中产生的数据是不可计量的,同时价值也是无限的,这种现实的需求使我们更加需要对数据进行挖掘,从而在本质上获得利益。关联规则是数据挖掘中一个重要的技术手段,旨在挖掘事务中项集之间的关系,其已经被广泛应用于各个领域当中,特别在商业领域中能够给经营者满足顾客的消费需求,从而正确且有效的推销产品获得利润。所以本文以大数据为背景,针对目前数据本身的特点和存在的某些问题,从以下几个方面进行理论研究:(1)针对数据本身多样性的特点,由于在数据挖掘过程中采用单一最小支持度会造成挖掘效率不高、冗余规则的问题,本文提出一种基于多最小支持度的大数据关联规则算法:在挖掘频繁项集的过程中,通过给每一项目设置单独的支持度阈值,将最小频繁项目的支持度阈值作为筛选标准,进行冗余节点的删除;同时重新定义排序向下闭合属性,在挖掘频繁项集的过程中,利用该性质能够自动停止向下挖掘,并且删除冗余的候选项集,从而快速直接得到所有的频繁项集;由于整个挖掘过程中不需要频繁扫描数据库,能够大幅度减少挖掘时间;实验结果表明,通过给每一个项目设定单独的支持度阈值能够提高挖掘效率,节省计算时间。(2)针对数据的海量性的特点,本文提出了一种基于Spark的并行关联规则算法,主要提出三种改进策略进行关联规则的挖掘:首先,通过改进FP-tree,将单、双路径进行拆分,分布且同时进行挖掘,运用笛卡尔积操作得到频繁项集,以到达减少迭代次数的目的;然后,在分组过程中使用基于贪心策略的均衡分组思想,将频繁项目集合中的项目均衡的进行分组,有效的的解决了分组过程中出现负载不均衡的问题;最后,通过数据集并行挖掘的思想,将数据集进行水平切分,构建条件模式树进行频繁项集的挖掘。实验结果对比表明,本文所提改进算法具有较高的挖掘效率,并且表现出可扩展性较强的特点,适用于大数据背景下的数据挖掘与分析。(3)针对关联规则有效性的问题,同时为提高关联规则挖掘算法的效率和质量,本文提出一种基于社区结构的关联规则分析方法,该方法抛弃传统研究关联数据挖掘算法本身的思路,而是将关联规则与复杂网络相结合,通过关联规则之间的拓扑结构构建成类似复杂网络的形式,从而将关联规则的数据挖掘问题转换为复杂网络的社区发现问题;首先,该方法将关联规则结构转换到复杂网络中,构建一种新的关联网络;其次,针对关联网络中社区划分问题,将基于概率密度函数的Hausdorff距离引入到组合优化算法中提出一种改进的社区划分算法。最后通过实验分析,验证该算法的有效性。