论文部分内容阅读
随着云计算和移动互联网等概念越来越深入到普通人的生活当中,大数据也随着变得越来越深入人心。在当今竞争激烈的商业战场上,谁能掌握破解大数据的钥匙,谁就能在商业领域占得先机。然后,对于大数据算法的探索和研究还远远无法满足人们想要从大量的信息中挖掘出有价值的知识的需求。因此,针对于大数据的数据挖掘算法的研究极为重要。频繁模式的挖掘是一个拥有大量研究群体的课题,同时也是非常有价值的研究课题。在过去的20年中,各种各样的频繁模式挖掘算法存在,简而言之包括三类,基于“候选集产生-测试”模式的Apriori算法及其扩展算法,基于FP树的模式增长模式的FP-Growth算法及扩展算法,垂直挖掘算法。然而,现存的这些频繁模式挖掘算法存在的共同的短板,就是在数据量急剧增长的今天,已经无法满足大数据量的挖掘需求,一个方面在内存上无法存储大数据量的信息,另一个方面数据量的提升会快速提升算法的运行时间,无法满足人们的实际要求。挖掘算法的效率依然有待提高,而针对大数据上的模式挖掘算法还很少,探索大数据上的高效率的、有效的模式挖掘算法是有意义的。本文改进了直接抽样算法,对抽样结果做验证更新处理,同时改进了两步随机抽样过程,通过对概率阈值的控制来调节挖掘模式的长度,从而达到在不明显增大时间复杂度的情况下显著提升其挖掘模式的有效性。通过只扫描一遍数据库,挖掘有限条的频繁模式。不再局限于以往数据挖掘算法中对模式空间中大于支持度阈值的频繁模式进行完整挖掘的思路,由此大大的提升了挖掘的效率。该方法不再满足特定的支持度阈值。通过实验我们可以看到,增强的直接抽样方法能够很好的改善算法的挖掘效果。同时,我们提出了基于Map-Reduce的分布式的增强的两步随机抽样算法,该算法通过A-RES/A-ExpJ算法来解决带权值的抽样问题(WAS问题),解决了在Map-Reduce框架下的抽样问题;通过Lossy Counting算法解决低频项集的求解问题,用以方便模式的验证过程。如此,通过两个经典的算法,将算法很好的移植到到Map-Reduce框架下面。一方面能够降低程序运行过程对内存的要求和依赖;另一方面,程序运行时间上也会大幅降低。