海量数据上基于抽样的模式挖掘研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:crylion
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算和移动互联网等概念越来越深入到普通人的生活当中,大数据也随着变得越来越深入人心。在当今竞争激烈的商业战场上,谁能掌握破解大数据的钥匙,谁就能在商业领域占得先机。然后,对于大数据算法的探索和研究还远远无法满足人们想要从大量的信息中挖掘出有价值的知识的需求。因此,针对于大数据的数据挖掘算法的研究极为重要。频繁模式的挖掘是一个拥有大量研究群体的课题,同时也是非常有价值的研究课题。在过去的20年中,各种各样的频繁模式挖掘算法存在,简而言之包括三类,基于“候选集产生-测试”模式的Apriori算法及其扩展算法,基于FP树的模式增长模式的FP-Growth算法及扩展算法,垂直挖掘算法。然而,现存的这些频繁模式挖掘算法存在的共同的短板,就是在数据量急剧增长的今天,已经无法满足大数据量的挖掘需求,一个方面在内存上无法存储大数据量的信息,另一个方面数据量的提升会快速提升算法的运行时间,无法满足人们的实际要求。挖掘算法的效率依然有待提高,而针对大数据上的模式挖掘算法还很少,探索大数据上的高效率的、有效的模式挖掘算法是有意义的。本文改进了直接抽样算法,对抽样结果做验证更新处理,同时改进了两步随机抽样过程,通过对概率阈值的控制来调节挖掘模式的长度,从而达到在不明显增大时间复杂度的情况下显著提升其挖掘模式的有效性。通过只扫描一遍数据库,挖掘有限条的频繁模式。不再局限于以往数据挖掘算法中对模式空间中大于支持度阈值的频繁模式进行完整挖掘的思路,由此大大的提升了挖掘的效率。该方法不再满足特定的支持度阈值。通过实验我们可以看到,增强的直接抽样方法能够很好的改善算法的挖掘效果。同时,我们提出了基于Map-Reduce的分布式的增强的两步随机抽样算法,该算法通过A-RES/A-ExpJ算法来解决带权值的抽样问题(WAS问题),解决了在Map-Reduce框架下的抽样问题;通过Lossy Counting算法解决低频项集的求解问题,用以方便模式的验证过程。如此,通过两个经典的算法,将算法很好的移植到到Map-Reduce框架下面。一方面能够降低程序运行过程对内存的要求和依赖;另一方面,程序运行时间上也会大幅降低。
其他文献
P2P(peer-to-peer)即点对点网络,是随着网络的普及以及追求网络信息资源的有效利用而产生的计算结构。P2P中节点(peer)是平等的,且可以同时作为服务器节点和客户端节点。虽然
自然背景中的文本识别具有巨大的应用价值。但由于场景非常复杂,字符又形态多样,其应用一直受限于定位和分割技术的不足。本文经过大量研究,提出了一种基于学习的自然场景中
随着网络技术的高速发展,人们对网络的传输信息种类和服务质量的要求越来越高。传统的网络管理是一种基于SNMP协议的集中式管理,它采用轮询机制,随着网络规模迅速扩大,它的时
随着计算机和通信技术的发展,无线广域网、无线城域网、无线局域网、卫星通信网、蓝牙网络等多种无线网络系统正逐步代替传统有线网络成为互联网接入的最后一跳。如何将这些
近年来,计算机及其相关技术的迅速发展及图形图像技术的日渐成熟,开创了数字图像处理的新时代,该技术也逐步渗入到医学领域中。借助计算机图像图形学、虚拟现实和计算机网络
互联网中拥有数量庞大的信息资源,而传统的基于网络爬虫的搜索引擎只能检索其中很少的一部分,而且它们不善于检索以动态网页形式存在的信息和存储在网络边缘的信息,但基于对
在竞争环境激烈的今天,越来越多的中型和小型企业认识到客户管理在企业竞争中的重要性。但对于大多数中小企业来说,建立专门客户管理系统需要专门硬件和专业的技术人员,这增加了
随着数字化技术和Internet的飞速发展,数字多媒体信息的传播变得越来越方便,但也带来了版权保护的危机。数字水印作为数字媒体版权保护的一种有效手段,得到了广泛关注,并已经
随着信息技术逐步应用于各行各业,面向领域的软件生产逐渐成为研究和开发重点。零码软件生产平台(SoftproLine)即是针对特定应用领域而开发的柔性软件产品开发平台,其主要应用
Web服务是实现Internet环境中跨平台、跨语言和松散耦合的分布式计算技术,也是面向服务架构中的关键技术之一。Web服务给许多企业带来了商机和快速发展的机会。但是Web服务的