不确定数据流频繁模式挖掘算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:twesai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流模型在许多应用中广泛出现,其特征是数据速度快、规模大、实时性强且数据单遍访问。同时由于设备精度、传输丢失、周围环境干扰、设备故障、隐私保护和不同系统之间的集成等方面的原因,不确定性在数据流环境中广泛存在。由于不确定性数据流中数据的存在性和精确性均以概率的形式表示,所以传统的针对确定数据的挖掘算法已经不能满足有效挖掘不确定数据流的迫切要求。因此,将数据流挖掘技术与不确定数据处理技术相结合设计处理大规模不确定数据流的数据挖掘算法就成为一个新的研究方向。在分析不确定数据流频繁模式挖掘问题的基础上,本文提出了一种基于衰减窗口的不确定数据流频繁模式挖掘算法。算法着重研究在处理频繁模式挖掘时,通过有效利用UG-Tree前缀模式树压缩存储数据流中的不确定模式信息。同时利用剪枝策略删除前缀模式树中的绝对稀疏模式,以减少系统的内存消耗并节省了算法在挖掘过程中的执行时间。主要工作如下:(1)针对不确定数据流的特点以及数据挖掘的应用需求,给出了一种不确定数据流的挖掘模型;(2)构造了一种基于前缀树的概要数据结构UG-Tree,分析并设计了一种高效的绝对稀疏模式剪枝策略;(3)提出一种改进FP-Growth算法的TOP-K频繁模式挖掘算法——UG-Miner,以实现高效的挖掘不确定数据流中的TOP-K频繁模式。实验结果表明:算法在保证了在有限内存消耗和实时响应的前提下,能够有效的挖掘不确定数据流中的频繁模式。
其他文献
汉语拼音教学是小学语文教学和对外汉语教学的基础,能工整、规范地书写汉语拼音是教学的基本要求。目前有关汉语拼音教学的方法及相关教具存在的共同问题是忽视汉语拼音的自由
基于Web服务的应用现在越来越多,而安全性是Web服务的一个重要组成部分。近年来一些国际组织发布了一系列安全相关的标准和建议,但是当前的安全服务仍存在很多的缺陷,无论是在安
在第二十一世纪,许多IT公司和组织决定采用的云计算与大数据技术。大数据已经成为IT领域一个非常重要的创新和成长点,例如云计算,物联网和数据分析的广泛应用。大数据分析(Big da
随着电子测绘技术的发展,数字矢量地图得到越来越广泛的使用。数字矢量地图制作成本高,易拷贝的特性使得数字矢量地图的安全问题得到重视。对于数字矢量地图的数据安全防范措施
本文基于TSAPI通信协议,根据典型呼叫中心的特点和需要,设计并实现了基于TSAPI的呼叫中心话路监控及报表模块,有效支撑了整个呼叫中心平台的顺利运行。本文根据典型呼叫中心的架
智能规划是人工智能的一个重要领域,不确定规划是智能规划的一个重要分支,它比经典规划更具有现实性。近年来,很多研究人员对基于模型检测的不确定规划进行了大量而深入的研究并
三维心脏体数据可视化利用计算机强大的运算处理能力和图形表达能力,将心脏数据以人类能够通过视觉来感知的方式表现出来,绘制出表面特征清晰、层次分明的组织器官,同时能够
项目反应理论(IRT)在潜在特质理论的基础上发展起来的,与传统的经典测量理论(CTT)相比,有能力估计独立于样本、项目参数估计更为准确等优势。计算机化自适应测验(CAT)则是IRT在人工智
网络节点具有移动特性的无线传感网络是未来传感网络的发展方向,大量传感器节点分层部署在待监测环境中,各层节点根据其功能大小担任着不同的网络任务。其中,普通感知节点与具有
图像融合是将同一场景的多幅图像进行综合以得到关于该场景更加准确描述的信息处理过程,而基于小波分析的多源图像融合是该领域的研究热点之一。本文研究了基于小波变换的像素