数据流中基于FP-Tree的频繁项集挖掘算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:qq439272757
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对国内外数据流频繁项集挖掘研究情况分析可知,以往的挖掘算法还存在诸多问题。简单的频繁项集挖掘由于没有采用合理的约束思想,挖掘出的频繁项集相当庞大;增量挖掘方法大部分是处理数据流中新到数据的插入,很少涉及过期数据的删除;单纯的频繁项集挖掘忽略了挖掘结果的时间特性。本文针对这些问题,将研究重点放在基于FP-Tree概要数据结构的数据流频繁项集挖掘算法的研究上,解决这些问题对研究电子商务、商业智能以及市场决策等领域具有重要的意义。本文首先设计了一种数据流中当前频繁闭项集挖掘算法HCFI,根据滑动窗口模型,有效的限制了过期数据对挖掘结果的影响。该算法采用闭项集增长策略,仅从当前滑动窗口的数据流中挖掘闭项集,增强了挖掘结果的实时性。该算法在处理时间和内存消耗上优于算法CFI-Stream。其次,提出了数据流滑动窗口上的最大频繁项集挖掘方法SW-MFI。该算法解决了在挖掘结果不要求项集支持度计数的条件下,获取精确频繁项集结果的问题。该算法较算法DSM-MFI具有较好的时间和空间效率。最后,设计了一种数据流中基于约束的频繁项集挖掘算法ConFI-SW。该算法把滑动窗口中的挖掘过程分为两部分:窗口的维护和基于约束的频繁项集挖掘。算法的时间效率和空间效率较以往算法都有所提高。本文使用C语言对上述算法进行实现,使用现实数据集BMS-WebView-1和BMS-WebView-2进行基于滑动窗口的数据流中频繁闭项集和最大频繁项集挖掘,通过对不同处理结果的对比分析,所提出的算法在解决各自的问题上是有效的。
其他文献
随着我国自然灾害事件的不断发生,人们对于灾害事件的关注度也越来越高。随着事件的发展,媒体对事件报道的主题、公众对事件的关注焦点都会发生变化。以地震为例,开始是对地震概
数据,是当前计算机和网络技术应用的核心所在。但是,由于各种各样的原因,数据往往以不同的形式存储在不同的系统中,呈分布异构状态。近些年来,越来越多的用户迫切地希望能够透明地
森林资源的持续稳定发展是世界各国关注的焦点,防御和控制森林火灾也受到各国的普遍重视。随着信息技术在森林防火办公管理工作中的作用日益显著,森林防火辅助决策系统已经成
随着信息技术的快速发展和社会信息量的迅速增加,知识已成为社会发展的重要动力,对于知识的管理与共享引起了研究人员的极大关注。学术论文作为最具价值的知识资源之一,对其进行
随着移动终端设备的发展与广泛使用,人们迫切希望能在移动环境中获得实时的地理信息,尤其是与当前地理位置相关的空间信息。移动导航,利用全球定位系统的空间定位手段,结合嵌入式
随着网络性能的不断提高,计算机存储已经突破了传统的紧耦合结构,开始向松耦合结构的网络存储方向发展。网络文件系统(例如分布式文件系统和集群文件系统)虽然是目前实现网络存储
组播是一种群体间进行通信的方式,介于单播和广播之间。相对于单播和广播,组播具有节省网络带宽、减轻网络负载、减少拥塞等优点。随着互联网用户的爆炸性增长,网络带宽成为稀缺
工作流技术从出现到今天,已成为企业信息化建设方案中必不可少的内容之一。从简单的办公自动化系统的开发,到企业ERP系统的实施,工作流技术都发挥了相当重要的甚至是关键的作
指纹识别是生物特征识别技术中实践应用最早和最广泛技术,采用计算机进行指纹识别的自动指纹识别系统也取得了巨大的发展。指纹识别的过程主要指纹采集、指纹识别预处理以及指
数据库管理系统(DBMS)是除操作系统外最重要的系统软件,是信息系统的核心,也是我国信息化建设中应用最广泛、需求量最大的基础性软件。为掌握数据库管理系统实现的核心技术,研发具