数据流中top-k项频繁闭合模式挖掘研究

来源 :武汉理工大学 | 被引量 : 1次 | 上传用户:q7okl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流模型的出现给传统的数据挖掘技术带来的巨大的挑战。由于数据流连续不断的到来,已有的数据处理技术难以对这些潜在无限的、变化的数据进行有效的管理和挖掘,因此,必须对数据环境下的数据处理技术进行研究。目前数据流管理和挖掘技术已经引起了国内外研究人员的广泛关注,成为了当前的一个研究热点。对于这两方面技术研究不仅具有重要的理论价值,而且在很多应用领域,如传感器网络、气象的监测与分析,网络监控与安全,Web日志分析等,有着巨大应用前景。本文在对数据流挖掘领域若干问题进行探讨的同时,主要研究了数据流中top k项频繁闭合项集问题,提出了相应的解决算法并结合实验结果做了必要的分析。概括地说,本文主要涉及到如下几方面内容:(1)对比传统挖掘中使用的大小固定的数据集,分析了数据流的特点。介绍了目前存在的几种数据流模型以及常用的数据流处理技术。数据流本身的特点也对数据流挖掘算法提出了一些要求。(2)分析和总结几个传统的频繁模式挖掘算法和数据流中的频繁模式挖掘算法,了解挖掘过程中涉及到的数据集的压缩方法,历史信息的存储结构和存储方法,新数据到来时数据结构的维护与更新,剪枝策略,结果集输出等方面内容;(3)频繁闭合模式包含频繁项集的完整信息,由它能够得到所有的频繁模式及其支持度信息,并且数量往往比频繁模式小几个数量级,在实际应用中更容易理解和应用。本文研究了动态数据流环境下top k项长度不小于给定值的频繁闭合模式挖掘问题,提出了基于滑动窗口技术挖掘算法,来挖掘最近一段时间内用户感兴趣的数据中的频繁信息,将用户期望的k个最频繁的闭合项集显示给用户,考虑到一些长模式的挖掘,它们子集模式可能由于具有不同的支持度也成为了闭合项集,且子项集的支持数较高,则子模式较易被输出,为避免输出结果都是些较短的模式,给定参数min1以设定输出模式的最小长度。算法具有较好的灵活性和可扩展性,用户可以根据需要,通过调整给定的参数值,让算法在执行效率和挖掘结果之间取得平衡。
其他文献
无线传感网络是由大量微传感节点间的相互协作来完成某一特定任务的自组织网络。作为一种新兴技术,无线传感网络有着广泛的应用前景,而定位跟踪正是无线传感网络的重要应用之
随着Internet和Intranet技术的广泛应用,数据存储不仅在容量上爆炸性增长而且对网络存储的要求也越来越高。传统的网络存储已经不能满足企业对存储系统高可靠性,可扩展性和安
伴随着知识经济的兴起,一种新的管理模式---知识管理开始出现并引起了人们的重视。知识管理的目标是创新,知识共享和重用是创新的重要前提和保障,产品概念设计领域作为设计新知
网络业务需求的快速增长对互联网服务质量(QoS)提出更高的要求,而业务交换节点成为制约网络性能的主要“瓶颈”之一。由于互联网络复杂的动态特性可以通过网络所负载的流量来
近年来,互联网技术和信息技术的飞速发展使得通过网络进行通信的网络社交成为可能。在众多的社会网络平台中,微博成为了使用广泛、最受人们欢迎和研究学者关注的社交平台,微
随着网络规模的迅猛发展和新业务的大量涌现,如何提高网络的服务质量成为当前迫切需要解决的问题之一。新一代网络技术MPLS(Multi Protocol Label Switching)在继承了ATM标签
CTI(ComputerTelecommunicationIntegration:计算机电话集成)计算机技术广泛应用于通讯领域后逐渐发展起来的一门综合技术。这种电信与计算机技术的融合为电信业带来了广阔的
近年来,数据仓库已经发展到能支持企业决策,甚至支持企业合作伙伴和客户的新高度。新一代的数据仓库应用不仅改善了企业战略的形成,更重要地是发展了战略的执行决策能力。ETL
随着半导体制造工艺的进步,功耗问题成为嵌入式设计领域一个新的挑战。研究表明片上存储子系统已成为片上系统主要功耗来源。SPM(Scrach-pad Memory)作为一种片上存储器具有
以基于本体的特定领域需求获取为主要研究内容,系统分析并总结了目前已有的基于本体需求获取方法,得出当前方法的不足是本体为静态一次性构造,缺乏灵活性。针对当前方法中存