数据流上基于新窗口模式的频繁项集挖掘算法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:yutou1888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是近几十年来随着信息技术发展和计算机技术的兴起而产生的一门新兴学科。随着网络技术和信息技术的迅猛发展,近几年在数据挖掘领域出现了对新的数据形式即数据流的研究,流数据的特点是连续性、高速性、无限性以及不可预测性,由于只能对该种数据进行一次性扫描,并且数据流的规模比较大、要求实时性以及快速响应等特点,这就对数据流挖掘算法提出了更高的要求。而对于流数据中频繁项集的挖掘已成为当今挖掘的一个热门课题,关于数据流上频繁项集的挖掘已经产生了很多实用的技术如滑动窗口技术、时序模式挖掘以及界标窗口技术等。本文的主要研究工作就是针对流数据上基于滑动窗口技术的频繁项集挖掘算法研究。  本文的主要工作如下:  1.本文分析了数据流的挖掘现状以及国内外的相关研究动态,简单介绍了数据流中几种经典的数据挖掘算法,从而对数据流的挖掘有了很好地了解。  2.改进 TOPSIL-Miner算法的基础上,形成一个新的基于数据流滑动窗口的前 K个频繁项集动态更新挖掘算法,采用二进制向量表示法进行项的存储与计算,并构建相关的项目序表,通过位移运算实现项集的增量式更新,并利用二分插入法将支持度在一定范围内的项集插入到项目序表中,最后降序输出前 K个频繁项集。通过实验证实,与其它相似算法相比该算法具有较好的时空性能。  3.对于数据流中连续的查询要求提出了一个新的灵活结构称之为加权滑动窗口模型。该模型允许用户指明用来挖掘的数据流中的窗口数量、窗口大小以及每个窗口的权重。基于此模型,提出了一个单程扫描算法WSW,该算法结合窗口权重计算出项的加权频数同时过滤掉加权频数小于指定阈值的候选项。然后探讨、改进WSW算法形成了一个新的算法 WSW-Imp,该算法能进一步减少判断一个候选项集是否是频繁项集的时间。通过实验证实,算法WSW-Imp是优于其它类似算法的。
其他文献
随着移动通信、计算机以及电子技术的高速发展,越来越多的终端设备具备接入多个不同性质接入网络的能力,而不同性质的接入网络也融合在一起共同为终端用户提供多种多样的服务
论文研究并改进梯度向量流主动轮廓模型。论文简要的介绍了国内外对主动轮廓模型的发展动态以及传统的图像分割若干方法:如基于阈值的图像分割方法、基于边缘检测的图像分割
软件复用能够有效的减少软件开发中的重复劳动,是提高软件生产率和质量的有效途径。存在大量可复用的软件资源是软件复用的前提和基础。随着Internet和软件复用技术的发展,Inte
近年来,随着互联网规模的飞速发展,“云计算”技术受到了广泛的关注。作为新一代的计算和服务模式,“云计算”引领了技术发展的方向,得到了业界的普遍认可和重视。   “云计算
近年来,铁路道口交通事故时有发生,其主要原因包括火车提速、缺乏实效的道口监控系统以及一些人员缺乏交通安全意识等。随着流媒体技术和图像处理技术的不断发展,结合这两种技术
有线电视网是国家重要的信息化基础设施,随着业务发展和“三网融合”的迫切需求,对网络质量和承载能力提出了更高的要求,传统有线电视HFC网络的单向传输不能满足这些需求。目
当今计算机技术已进入以网络为中心的计算时代。由于客户/服务器模型的简单性、易管理性和易维护性,客户/服务器计算模式在网上被大量采用。大量的服务和应用(如新闻服务、网
制造业信息化是实现新型工业化道路的重要组成部分,制造业技术标准是组织制造业信息化和现代化生产的重要技术支撑,为适应制造业信息化的要求,ISO/TC213适时地提出了面向数字
纹理是描述图像结构和内涵的一个重要特征,是计算机视觉和模式识别领域中的一个重要研究内容。纹理分割不仅是纹理分析的基础,也是图像分割、图像复原、图像增强、图像配准、
程序语言信息流安全讨论如何保证拥有对机密数据访问权限的程序不会以不恰当的方式传播机密数据,或者验证出程序是否会以不恰当的方式将机密数据传播给未授权方。广义上的信