数据流中top-k项频繁闭合模式挖掘研究

来源 :武汉理工大学 | 被引量 : 1次 | 上传用户：q7okl

【摘要】

：

数据流模型的出现给传统的数据挖掘技术带来的巨大的挑战。由于数据流连续不断的到来,已有的数据处理技术难以对这些潜在无限的、变化的数据进行有效的管理和挖掘,因此,必须

【作者】

：

韩瑞雪

【机构】

：

武汉理工大学

【出处】

：

武汉理工大学

【发表日期】

：

2009年01期

【关键词】

：

频繁模式闭合模式数据挖掘数据流

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据流模型的出现给传统的数据挖掘技术带来的巨大的挑战。由于数据流连续不断的到来,已有的数据处理技术难以对这些潜在无限的、变化的数据进行有效的管理和挖掘,因此,必须对数据环境下的数据处理技术进行研究。目前数据流管理和挖掘技术已经引起了国内外研究人员的广泛关注,成为了当前的一个研究热点。对于这两方面技术研究不仅具有重要的理论价值,而且在很多应用领域,如传感器网络、气象的监测与分析,网络监控与安全,Web日志分析等,有着巨大应用前景。本文在对数据流挖掘领域若干问题进行探讨的同时,主要研究了数据流中top k项频繁闭合项集问题,提出了相应的解决算法并结合实验结果做了必要的分析。概括地说,本文主要涉及到如下几方面内容:（1）对比传统挖掘中使用的大小固定的数据集,分析了数据流的特点。介绍了目前存在的几种数据流模型以及常用的数据流处理技术。数据流本身的特点也对数据流挖掘算法提出了一些要求。（2）分析和总结几个传统的频繁模式挖掘算法和数据流中的频繁模式挖掘算法,了解挖掘过程中涉及到的数据集的压缩方法,历史信息的存储结构和存储方法,新数据到来时数据结构的维护与更新,剪枝策略,结果集输出等方面内容;（3）频繁闭合模式包含频繁项集的完整信息,由它能够得到所有的频繁模式及其支持度信息,并且数量往往比频繁模式小几个数量级,在实际应用中更容易理解和应用。本文研究了动态数据流环境下top k项长度不小于给定值的频繁闭合模式挖掘问题,提出了基于滑动窗口技术挖掘算法,来挖掘最近一段时间内用户感兴趣的数据中的频繁信息,将用户期望的k个最频繁的闭合项集显示给用户,考虑到一些长模式的挖掘,它们子集模式可能由于具有不同的支持度也成为了闭合项集,且子项集的支持数较高,则子模式较易被输出,为避免输出结果都是些较短的模式,给定参数min₁以设定输出模式的最小长度。算法具有较好的灵活性和可扩展性,用户可以根据需要,通过调整给定的参数值,让算法在执行效率和挖掘结果之间取得平衡。

其他文献

基于无线传感网络的能量有效跟踪系统关键技术研究

无线传感网络是由大量微传感节点间的相互协作来完成某一特定任务的自组织网络。作为一种新兴技术,无线传感网络有着广泛的应用前景,而定位跟踪正是无线传感网络的重要应用之

学位

无线传感网络能量有效定位跟踪覆盖连通

基于SAN的存储资源管理系统的研究与实现

随着Internet和Intranet技术的广泛应用,数据存储不仅在容量上爆炸性增长而且对网络存储的要求也越来越高。传统的网络存储已经不能满足企业对存储系统高可靠性,可扩展性和安

学位

存储区域网存储资源管理系统备份恢复管理

面向产品族的概念设计知识管理研究

伴随着知识经济的兴起，一种新的管理模式---知识管理开始出现并引起了人们的重视。知识管理的目标是创新，知识共享和重用是创新的重要前提和保障，产品概念设计领域作为设计新知

学位

知识管理概念设计知识获取产品族

基于ACO的路由优化及流量负载问题研究

网络业务需求的快速增长对互联网服务质量(QoS)提出更高的要求，而业务交换节点成为制约网络性能的主要“瓶颈”之一。由于互联网络复杂的动态特性可以通过网络所负载的流量来

学位

互联网服务质量路由优化流量负载

基于用户个性化特征的微博搜索结果优化

近年来,互联网技术和信息技术的飞速发展使得通过网络进行通信的网络社交成为可能。在众多的社会网络平台中,微博成为了使用广泛、最受人们欢迎和研究学者关注的社交平台,微

学位

加权关联规则主题模型查询扩充机制微博个性化搜索

基于MPLS网络故障恢复的研究

随着网络规模的迅猛发展和新业务的大量涌现,如何提高网络的服务质量成为当前迫切需要解决的问题之一。新一代网络技术MPLS(Multi Protocol Label Switching)在继承了ATM标签

学位

MPLS故障恢复保护交换反向备份路径NS-2

基于Java中间件技术在CTI中的研究与实现

CTI(ComputerTelecommunicationIntegration：计算机电话集成)计算机技术广泛应用于通讯领域后逐渐发展起来的一门综合技术。这种电信与计算机技术的融合为电信业带来了广阔的

学位

中间件技术计算机电话集成呼叫中心

ETL工作流优化及其性能分析

近年来,数据仓库已经发展到能支持企业决策,甚至支持企业合作伙伴和客户的新高度。新一代的数据仓库应用不仅改善了企业战略的形成,更重要地是发展了战略的执行决策能力。ETL

学位

数据仓库启发式算法贪婪算法紧同步随机Petri网同步变迁分解等价法

基于电路信息的SPM功耗模型研究

随着半导体制造工艺的进步,功耗问题成为嵌入式设计领域一个新的挑战。研究表明片上存储子系统已成为片上系统主要功耗来源。SPM(Scrach-pad Memory)作为一种片上存储器具有

学位

SPM泄漏电流电路活跃度功耗模型模拟器

基于本体的特定领域需求获取技术研究及应用

以基于本体的特定领域需求获取为主要研究内容,系统分析并总结了目前已有的基于本体需求获取方法,得出当前方法的不足是本体为静态一次性构造,缺乏灵活性。针对当前方法中存

学位

领域本体需求获取本体集成UML

数据流中top-k项频繁闭合模式挖掘研究

与本文相关的学术论文