不确定性数据流频繁项集挖掘算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:swpixl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁项集挖掘是数据挖掘领域的一项重要任务。随着计算机技术的迅速发展,生活生产领域中很多实际应用能够持续、快速、实时地产生大量数据流。数据流的复杂性使得在其上进行频繁项集的挖掘颇具挑战性。此外,很多数据流中的数据往往是不确定的,通常以概率的形式来表示其存在性。传统的数据流频繁项集挖掘算法通常假定数据是确定存在的。不确定性的引入使得传统算法难以直接用于挖掘不确定性数据流上的频繁项集,而且针对数据确定存在的情况而设计的概要数据结构不再高效。因此,研究和设计针对不确定性数据流的高效概要数据结构和频繁项集挖掘算法变得日趋重要。本文对不确定性数据流环境下频繁项集挖掘问题进行了详细介绍,重点分析了目前该领域重要算法的优缺点,并且提出了一种基于滑动窗口模型的false-positive算法UFIM。算法通过引入最大可能误差来尽量缩小估计期望支持度同真实期望支持度之间的差距从而提高算法挖掘的准确性。此外,针对频繁项集挖掘算法难以预先设置合适的最小支持度阂值的问题,在UFIM算法的基础上,本文还提出了一种基于滑动窗口模型的Top-K频繁项集挖掘算法UFIMTopK。本文的主要工作包括:1、对不确定性数据的产生原因、表现形式以及处理模型进行了详细介绍,列举了目前针对不确定性数据流进行频繁项集挖掘以及Top-K频繁项集挖掘的重要算法,并且分析和讨论了这些算法的优缺点;2、针对不确定性数据流频繁项集挖掘算法SRUF-mine存在的挖掘准确性低的缺陷,提出了一种基于滑动窗口模型的false-positive算法UFIM,详细介绍了算法所用的概要数据结构以及算法主要思想,并且从运行时间、内存空间消耗和挖掘准确性三个方面对两个算法进行实验对比。实验结果表明,同SRUF-mine相比,UFIM算法能获得较高的挖掘准确率。3、针对最小支持度阈值难以预先合理设置的问题,结合UFIM算法,提出了一种基于滑动窗口模型的Top-K频繁项集挖掘算法UFIMTopK,介绍了算法使用的概要数据结构以及算法主要思想,并且对算法的性能进行实验分析。实验结果表明,UFIMTopK能在保证运行时间和内存开销合理的前提下,有效地挖掘出不确定性数据流中的Top-K频繁项集。
其他文献
格问题在现在的公钥加密方案中扮演了相当重要的角色,格问题的计算难解性为许多创新性的公钥加密方案提供了理论依据。模形式算法作为新的随机算法解决欧几里得空间内的最短
聚类分析是一种最为广泛应用的数据挖掘技术,其原理是先对数据对象进行聚类处理,然后对其结果进行分析,试图从中找到隐含的具有实用价值的信息。聚类就是将大量混为一团的数据对
随着ARM处理器性能不断提升,同时又兼顾低功耗、体积小的特点,嵌入式计算密集型应用越来越多。鉴于计算密集型领域系统的可靠性要求高,因此如何设计高可靠性嵌入式系统成为一
近年来,XML作为互联网上数据表示和交换的标准格式日渐受到人们重视,XML查询也由此成为研究热点。对于大量的没有专业背景的用户,传统的结构化查询方式已不再适用,关键字查询
移动终端设备的普及与广泛使用使移动用户可随时随地发布、分享各类信息。网络中流动的大量信息体现了用户的多种社会属性。如何有效利用这些社会属性,并将其用于移动网络、
云存储是一种新兴的网络存储技术。通过云存储服务,用户可以便捷的在云上存储数据,也能够以一个组的形式共享数据;为了确保共享云数据的完整性,可以利用第三方审计者验证数据的
运动状态识别一直是状态识别领域的研究热点,在虚拟现实、健康医疗、交通领域以及军事训练等方面均有较为广泛的应用。目前大量的研究都是基于传统的分类算法来对运动状态进行
近年来,随着计算机和网络技术的快速发展,越来越多的多媒体业务应用出现在互联网中,例如,广播、视频会议、远程教育等等,这些应用对网络带宽和延迟等都有很高的要求,组播一直
电网的线损率是一个综合性全面性评价指标,不仅仅可以对现行电网的物理结构和运行方式进行评价,还能够体现出相关电力企业的技术实力和管理水平。“十三五”期间,要求升级改造配网,并对配网线损率提出了明确要求,配电网中有关线损的研究已成为电网企业研究的热点。当前,在电网线损计算和预测方面国内外已经了不少的研究,取得了显著效果,但大多集中在主网方向,配电网由于其自身结构的复杂性及我国配网建设相对落后的客观条件
电机优化一直是电机设计研究中的一个热点问题,如何在满足用户需求和国家标准的前提下尽可能提高电机运行效率一直是大家研究的重点,选择一种完善的、适合于工程应用的全局优化方法至关重要。本文针对单相异步电机、三相异步电机和永磁同步电机三种电机,对电机的多目标优化问题进行了研究,设计编写了电机优化设计程序,且基于C#语言设计了方便使用的窗口界面。主要工作如下:1.分析并研究了电机设计中常见的几种智能优化算法