数据流上的频繁项集挖掘算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:hrz2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流是目前的一个新兴的热门领域,国内外学者都纷纷提出各种数据流处理的技术、算法和各种具体应用项目。数据流是一个按时间到来的有序的项集。和传统静态数据库中的数据不同的是,数据流是连续的、无限的、通常以很高的速度到来的并且数据分布随着时间而改变。数据流频繁模式挖掘是数据流挖掘基本问题之一,已经引起国内外研究者的广泛关注,提出了许多有效的数据流频繁模式挖掘算法。针对数据流的特点,论文对数据流处理技术和数据流挖掘中的关键问题进行了研究和总结。论文对一些关键问题的解决技术进行了研究。论文对经典的频繁项集挖掘算法进行了介绍和分析。分析可以看出数据流的无限性、高速性使得经典的频繁项集挖掘算法难以适用到数据流中。此外,论文对于当前现存的一些数据流中频繁项集挖掘算法进行了介绍,比较分析和总结,并且设计实现了数据流中挖掘频繁项集的算法FP-stream和Time-Sensitive Sliding Window。本文在上述工作的基础上提出了FP-FT算法,用户通过它可以快速获取最近一个时期内的频繁项集。该算法采用了嵌入了时间窗口的前缀树的结构来存储频繁项集,方便了对数据块中数据项的操作,节约了一定的空间。分析和实验表明,与传统算法相比该算法具有较好的空间和时间效率,适合数据流中频繁项集的挖掘。
其他文献
ebXML(electronic business XML)是由UN/CEFACT(联合国贸易简化和电子商务团体)和OASIS(结构化信息标准促进机构)联合制订的电子商务标准。ebMS作为ebXML的最底层,为基于ebXM
真实世界的数据往往是高维的。因为高维而难于被人理解、表示和处理。其处理面临两个问题:一是维数灾难问题,维数膨胀给高维数据中模式识别和规则发现带来极大挑战;二是维数
超点是一个主机,它在测量周期内链接了至少给定数目的不同目的主机或源主机。随着网络的发展,网络入侵现象越来越严重,如端口扫描、分布式拒绝服务攻击、蠕虫病毒等。这些事
自从1946年,第一台电子数字计算机ENIAC在美国宾夕法尼亚大学诞生以来,人类的生活因计算机而彻底改变。计算机的使用遍及世界的各个角落。计算机技术被人们认为是当今三大必
编排(Choreography)和编制(Orchestration)是常用于描述合成网络服务的两种方式的语言。前者从一个整体的视角定义了系统中各服务之间的交互,而后者仅从一个服务的角度定义了
随着Internet应用的日益普及,如何保证网络设备可靠、安全、高效的运行,成了一个函待解决的问题。一个好的网络管理系统可以对各种网络设备及其软件资源进行有效的监视、解释
移动增值业务逐渐成为移动运营商增加业务收入的主要手段,而且,随着移动增值业务的用户数量的迅猛发展,移动增值业务的内容也越来越丰富,因此,为各种无线增值业务搭建统一而
为了在图论和集合论理论指导下确定方便、实用的工作流模型,论文介绍了基于活动网络的建模技术,给出了活动网络的有向图定义。这种有向图定义可以进一步扩展模型语义,增强模型表
随着用户对通信业务的需求逐渐由语音需求变为对数据、图像和语音的综合需求,传统的通信网络已经越来越不能满足人们日益增长的需要,全球范围内对“互联网、传统电话网、有线
向量网技术是一种新型的网络技术,向量网设计了一种基于PNNI的网络拓扑结构表示法,提出向量地址的概念,利用向量地址进行数据传输。向量地址是一种新的编址方案,它基于端口号而不