多数据流频繁项集挖掘算法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:tenderboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术在众多领域飞速地发展,网络数据的存在形式也呈现出多样化的趋势。其中,数据流作为一种新型的数据形式已在众多应用领域广泛地出现。例如,传感器网络环境中的数据、金融应用中的财务数据和GPS定位系统所获取的地理位置等数据。面对无限、连续和高速的海量数据,传统的数据挖掘技术难以直接应用于发现海量数据流中的有效信息。因此,数据流挖掘问题具有重要的研究意义。本文将多数据流频繁项集挖掘算法作为研究对象。首先,阐述了课题的研究背景以及研究意义,同时概括总结了国内外关于该课题的研究现状。其次,阐述了在数据处理过程中所应用的相关技术。最后,提出了两种基于多数据流环境的频繁项集挖掘算法。本文的主要工作可分为以下三个方面:(1)研究了多数据流频繁项集挖掘算法的数据存储结构,设计了一种基于FP-Tree的压缩频繁模式树。本文对数据流的特点和表现形式进行了深入地分析研究,设计了一种基于字典序列的前缀树存储结构,并在该结构中引入了对数倾斜时间窗口模型。该窗口模型能够增量地更新、保留频繁项集的计数值,在一定程度上提高了内存空间的利用率以及算法的空间复杂度。(2)研究了多数据流协同频繁项集挖掘问题,改进了一种基于滑动窗口模型的多数据流协同频繁项集挖掘算法。本文引入了多数据流协同频繁项集挖掘问题,多数据流协同频繁项集是指一组对象在很短的时间内以伴随的状态频繁地出现在一条数据流或多条数据流中。首先,通过基于字节序列的滑动窗口挖掘算法发现数据流中的潜在频繁项集和频繁项集;其次,构建频繁模式树用以存储多数据流中的潜在频繁项集和频繁项集,并增量地更新树结构中对数倾斜时间表内对应项集出现的频数;最后,通过汇总分析得出多数据流中的协同频繁项集。(3)研究了分布式环境中的多数据流协同频繁项集挖掘算法,将多数据流协同频繁项集挖掘算法并行化计算。在当前的大数据背景下,数据流的规模呈现急剧增长的趋势,其到达速度非常快且对处理结果的实时性要求非常高。单个计算节点的计算能力难以承受规模如此巨大的数据。因此,传统的集中式频繁项集挖掘算法无法应对规模日益剧增的数据流。为了解决这一问题,本文采用了并行计算模型这一有效的途径,还设计了能够分布到不同计算节点上的分布式索引结构,能够高效地发现存在于分布式环境中多数据流的协同频繁项集。
其他文献
学位
随着应用系统的急剧扩张和网络技术的迅速发展,用户对系统提供实时数据更新的要求越来越高。然而在系统的集成过程中,底层的数据库之间在实现数据资源的共享和变换时会出现一
在数字化时代的今天,由众多服务器构成的云计算数据中心中,物理服务器的负载较高或者较低,都将会影响系统整体的利用效率。为了实现整个架构的负载平衡,就须要使用虚拟机的动
随着计算机技术的飞速发展,计算机图形学被越来越多地应用到数字电影和游戏中。其中,人脸动画是计算机图形学中最典型的研究方向。近年来数据驱动形式的人脸表情动画也受到了
当前,网络和多媒体技术迅猛发展,多媒体信息急剧增长,网络多媒体数据中数据重复现象很常见,尤其是一些大型多媒体分享网站中,用户上传了大量重复的多媒体数据。重复数据不仅增加了
随着网络规模的增大及其相关技术的发展,越来越多的用户在网络上进行信息的交流,数据的传输等活动,享受着网络带给人们的服务和便利。应用在对等网络上的软件更新技术也逐渐取代
随着Internet的普及和信息技术的发展,微博用户人数迅速增长,微博数据呈爆炸式的增长。当用户登陆进微博之后所面对的就是大量的更新微博,使用户完全被眼前多种多样的微博信息所
视频中人工文本是由制作人员在影片制作后期手工添加的,用来补充说明图像内容的文本字符。人工文本与图像内容的联系紧密,使得它对图像内容的说明以及检索有着十分重要的意义,因
工业无线技术是一种面向设备间短距离、低速率信息交互的无线通信技术,是无线传感器网络技术在工业领域应用的具体化和实例化应用。工业无线传感器网络利用工业无线技术实现了
偏好处理是人工智能中的一个重要的研究内容。CP-nets(conditional preference networks,条件偏好网)是一个带标记的有向图,它编码相关变量之间的偏好关系。作为一种简单直观