一种基于垂直划分的数据流频繁项集挖掘算法

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:liyyng1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流这种数据形式广泛地存在于现实世界中。例如,传感器网络监控、气象监测数据、电话通话记录、网络通讯监测、股市实时交易数据、web用户点击数据流或者网站访问日志统计等领域都产生了大量的数据流。因此如何从应用产生的数据流数据中发掘出对人们有用的信息一直是国内外研究工作者关注的热点,而频繁项集挖掘则是数据流挖掘技术的重要分支。传统频繁项集挖掘算法大都基于集中式单处理器硬件环境设计运行,当数据到达速度以及数据规模大幅增大之后,算法将会出现数据丢失,误差增大,系统吞吐量下降等一系列问题。为此,本文在分析原有传统算法FP-Stream存在当数据量增大时数据处理速度无法同步数据到达速度、系统吞吐量不够等问题的基础上,提出了一种基于垂直划分的FP-Stream频繁项集挖掘算法。该算法运行在分布式多处理器硬件环境下,采用并行挖掘频繁项集并最终统一合并的策略,并引入新的倾斜时间窗口实现机制,将全局数据进行垂直划分为多个时间段内的子集分别进行挖掘,并由合并子系统对各子频繁项集进行统一合并,得到最终全局频繁项集结果。改进后的算法因为倾斜时间窗口的作用,使得挖掘结果仍然能够反映较早和较近时间段内频繁项集的变化情况并能提供指定时间段内频繁项集结果查询,即结果仍然具有时间特性。而且最重要的是,由于算法设计是基于分布式的,在硬件环境允许的情况下系统吞吐量可以与数据规模达到同步增长的效果。最后对算法进行了仿真实验,结果表明,本文提出的基于垂直划分的FP-Stream频繁项集挖掘算法在牺牲一定的空间需求,并保持基本不变的时间需求的情况下,能够正确的挖掘出事务数据流中的频繁项集结果。而且由于算法的可扩展性,使得算法整体吞吐量高于传统FP-Stream算法,能够解决传统FP-Stream这种集中式串行挖掘模式的算法所存在的无法有效处理大规模数据流的问题,应用前景得到了进一步扩展。
其他文献
数据仓库作为信息技术领域一个重要的研究方向,越来越受到人们的重视。早期的数据仓库,其构建和研究工作都是建立在关系型数据库管理系统(RDBMS)的基础之上。随着数据规模的
随着互联网技术与移动通信技术的发展,手机定位、车辆监控等提供基于位置服务的应用提出了有效管理移动对象数据的要求,推动了移动对象数据库研究的蓬勃发展。在移动数据库的研
有“墙壁上的博物馆”之称的敦煌莫高窟,以其精美的壁画和塑像文明于世,吸引了无数国内外游客前来观光。巨大的游客流量使得洞窟在面临持续的自然侵蚀外,还要承受人为的影响
学位
弹性分组环(Resilient Packet Ring)是一种应用于高速城域网的环形网络架构,并且拥有故障容忍与带宽使用率高等特性。在弹性分组环的拥塞控制中,公平性、稳定性、和收敛时间
进入二十一世纪,P2P技术发展十分迅速,各种新的P2P (Peer to Peer)应用软件层出不穷,它改变了传统的C/S (Client/Server)模式,所有节点地位都是对等的,弱化甚至取消了中心服
Grover量子搜索算法以其研究对象的普遍适用性受到了众多学者的关注,利用量子本身具有的并行性,Grover算法能够将搜索时间的复杂度降低为O ( N )。目前对于Grover算法的研究
近年来,移动设备和无线网络的广泛应用带来了基于位置的服务(LBS)应用的快速发展。位置信息相关的查询在LBS中扮演了极为重要的角色。其中一种重要的查询是(单色)反向k近邻查
学位
单类分类是介于监督学习和无监督学习之间的机器学习任务,它能够有效地解决仅有一类样本训练分类器的问题和类别极端不平衡问题。迄今为止,涌现了大量的单类分类方法,其中最