数据流上的频繁项集挖掘技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户：shao_xiao_dong

【摘要】

：

数据流是近年出现的一个新的应用类型，具有连续、无限、高速等特点。典型的数据流包括：无线传感器网络应用环境中由传感器传回的各种监测数据、股票交易所的股票价格信息、网络

【作者】

：

李坤

【机构】

：

中国科学院软件研究所

【出处】

：

东北大学

【发表日期】

：

2010年期

【关键词】

：

数据流滑动窗口频繁元素频繁项集前缀树乐观裁剪法数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据流是近年出现的一个新的应用类型，具有连续、无限、高速等特点。典型的数据流包括：无线传感器网络应用环境中由传感器传回的各种监测数据、股票交易所的股票价格信息、网络监测系统与道路交通监测系统的监测数据、电信部门的通话记录数据，以及网站的日志信息等。数据流的出现对传统的数据管理和挖掘技术提出了巨大的挑战。传统的数据挖掘技术往往对静态数据集合做多遍扫描，其时间和空间复杂度均较高，难以直接应用到数据流环境中。本文对数据流上的频繁项集挖掘问题做了深入研究，主要研究内容和创新性成果概述如下：　　本文首先对频繁项集挖掘问题做了一个全面的综述。综述部分先对静态数据集上的频繁项集挖掘的概念、分类、经典算法等相关研究做全面的介绍，然后分析了在数据流上进行频繁项集挖掘面临的问题和挑战、以及研究现状。　　频繁元素可以看作仅有一个元素的频繁项集，是某些频繁项集挖掘算法的基础组成部分，在实际生活中也有很多应用。针对数据流上的频繁元素挖掘问题，本文提出了一个简单而高效的算法，挖掘数据流滑动窗口上的频繁元素；算法既可以定期返回满足∈-近似要求的频繁元素，也可以响应用户在任意时间提交的请求，返回满足误差要求的结果。　　针对数据流上的频繁项集挖掘问题，本文提出了BFI-Stream算法，挖掘数据流滑动窗口上的所有频繁项集，返回精确结果。该算法使用前缀树数据结构，并且在创建和更新过程中裁剪了一部分非频繁节点，因此算法的空间和时间复杂度都较低。BFI-Stream算法可以在任意时刻处理用户的请求，并且挖掘过程无须额外计算，只须对树进行遍历即可，因此能实时返回频繁项集结果集。　　接着，本文针对现有的在数据流上挖掘频繁项集的算法存在维护过多非频繁项集而导致使用空间过大的问题，提出了一种乐观裁剪方法，大大降低了算法的空间复杂度。文中先对实际数据集分析了项集的频率分布情况，提出了乐观裁剪方法，裁剪大部分非频繁项集；然后分别对BFI-Stream和Moment算法应用乐观裁剪方法，提出了新的OPFI-Stream和OP-Moment算法，实验结果表明乐观裁剪方法不仅大大降低了内存使用量，还提高了算法的更新效率。　　再次，本文针对用户指定最小支持度和允许误差的近似查询，提出了在数据流滑动窗口上挖掘频繁项集的近似算法AFI-Stream，返回满足误差要求的结果。AFI-Stream仅仅维护频繁项集，不维护非频繁项集，因此能大大减少算法使用的内存；算法同时也能监测到一部分非频繁项集变为频繁项集的情况，从而将其添加到树中。　　为了满足在数据流上挖掘频繁项集研究的需要，本文设计并开发了一个数据流频繁项集挖掘原型系统STREAMMINER，进行相关算法的评测和研究。STREAMMINER提供了良好的可扩展性与可配置性，支持对新增数据流模拟器和频繁项集挖掘算法等的测试与分析。　　本文提出了几个在数据流上挖掘频繁项集的算法，能很好的适应数据流动态环境的需求，具有较高的理论价值和良好的应用前景；数据流挖掘原型系统可以作为在数据流上进行挖掘和监控的测试平台，为进一步对数据流挖掘进行研究提供了较好的基础平台。

其他文献

面向信息安全管理系统的组卷算法研究

随着信息技术的飞速发展，企事业单位对信息系统的依赖性越来越大，信息的保密性、完整性、和可用性显得尤为重要，这正是信息安全所要管理保障的内容。信息安全管理系统通常通过问

学位

信息安全组卷算法自适应遗传算法约束条件

基于Linux的嵌入式多媒体学习终端平台的研究与实现

随着计算机技术的不断发展，计算机领域进入了新的阶段一后PC时代。嵌入式设备正越来越多的进入到人们的日常生活之中。从工业控制，到网络设备，从信息家电到个人终端到处都可以见

学位

多媒体学

面向数据分析的汉语句法结构树研究

作为自然语言处理(Natural Language Processing, NLP)领域的一个核心问题,高性能句法分析在NLP应用领域中发挥了重要的作用。由于句法规则很难穷尽,而且对汉语真实语料的处

学位

事件描述小句面向数据句法分析句法截断句法片段相似度计算

面向大规模不平衡数据集的支持向量机研究

近年来，大规模不平衡数据集的分类已经成为机器学习领域的一个难点与热点，越来越多的专家专注于这一方面的研究。大规模指待学习的样本数量非常大，通常情况有几万几十万个甚至几

学位

支持向量机不平衡数据集数据分类机器学习

基于局部特征的人脸检测技术的研究

人脸的识别和分析可以广泛地应用在个人身份识别、安检、人机交互、表情分析、唇读等领域。人脸的检测定位是人脸识别技术的一个重要组成部分，其目标是在图像或图像序列中搜索

学位

人脸检测边缘检测局部特征提取最陡下降法

基于概念格与流形学习的知识获取方法研究

随着科学技术的进步,各个领域的科研工作者能够获取的信息量越来越大。大量的信息给科学研究带来了数据处理上的困难,因此人们需要探讨一些信息处理的工具。从而人工智能领域

学位

形式概念分析神经网络流形学习高光谱

P2P网络资源管理关键技术研究

P2P(Peer-to-Peer)网络是建立在互联网之上的覆盖网络，它通过节点之间的相互协作实现系统功能，从而充分利用了边缘网络资源，具有良好的扩展性、自组织性和匿名性等特点。目前，P2P

学位

对等网络资源管理一致性维护数据分发负载均衡邻近信息感知性能分析

基于H.264的视频监控处理系统研究与实现

H.264标准是由国际电信联合会和国际标准化组织共同发展的下一代视频压缩标准。H.264/AVC视频压缩标准采用了很多新技术,如整数DCT变换、多参考帧的运动估计、多种宏块分割模

学位

H.264视频标准数字信号处理器(DSP)模式选择指令并行

基于免疫算法的访问控制扩展框架

由于互联网技术的普及,计算机已经走进了各大企业以及各家各户,毫无疑问计算机给人们的工作和生活带来了许多的便捷,但是由于黑客的非法入侵,以及用户自己安全意识的缺乏,无

学位

访问控制免疫多安全策略GFAC

WEB缓存技术与预取技术的研究

缓存技术是减轻服务器负载、减少网络拥塞、降低客户访问延迟的有效途径。但仅使用Web缓存技术作用有限。为提高缓存系统的性能，引入了Web预取技术，于是选择哪些数据源进行研究

学位

Web预取技术Web数据预处理Web缓存Web日志服务器

数据流上的频繁项集挖掘技术研究

与本文相关的学术论文